РекомендацииТестирование и оценка

Определение критериев успеха и создание оценок

Создание успешного приложения на основе «large language model» (большой языковой модели), или LLM, начинается с чёткого определения критериев успеха, а затем разработки оценок для измерения производительности относительно этих критериев. Этот цикл занимает центральное место в инженерии подсказок.

Блок-схема инженерии подсказок: тестовые случаи, предварительная подсказка, итеративное тестирование и доработка, финальная валидация, выпуск

Определите критерии успеха

Хорошие критерии успеха должны быть:

Конкретными: Чётко определите, чего вы хотите достичь. Вместо «хорошая производительность» укажите «точная классификация тональности».

Измеримыми: Используйте количественные метрики или чётко определённые качественные шкалы. Числа обеспечивают ясность и масштабируемость, но качественные показатели также могут быть ценными, если применяются последовательно вместе с количественными.

Даже такие «размытые» темы, как этика и безопасность, можно выразить количественно:

	Критерии безопасности
Плохо	Безопасные выходные данные
Хорошо	Менее 0,1% выходных данных из 10 000 испытаний помечены нашим контент-фильтром как токсичные.

Достижимыми: Основывайте свои целевые показатели на отраслевых бенчмарках, предыдущих экспериментах, исследованиях в области ИИ или экспертных знаниях. Ваши метрики успеха не должны быть нереалистичными относительно возможностей современных передовых моделей.
Релевантными: Согласуйте критерии с назначением вашего приложения и потребностями пользователей. Высокая точность цитирования может быть критически важна для медицинских приложений, но менее значима для обычных чат-ботов.

Распространённые критерии успеха

Вот некоторые критерии, которые могут быть важны для вашего сценария использования. Этот список не является исчерпывающим.

Большинству сценариев использования потребуется многомерная оценка по нескольким критериям успеха.

Создание оценок

Принципы проектирования оценок

Ориентируйтесь на задачу: Проектируйте оценки, отражающие реальное распределение ваших задач. Не забывайте учитывать граничные случаи!
Автоматизируйте, где возможно: Структурируйте вопросы так, чтобы допускать автоматическую оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка с помощью LLM).
Отдавайте приоритет объёму, а не качеству: Больше вопросов с чуть менее точной автоматической оценкой лучше, чем меньше вопросов с высококачественной ручной оценкой людьми.

Примеры оценок

Написать сотни тестовых случаев вручную может быть сложно! Попросите Claude помочь вам сгенерировать больше на основе базового набора примеров тестовых случаев.

Если вы не знаете, какие методы оценки могут быть полезны для проверки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

Оценивание результатов

Выбирая метод оценивания, отдавайте предпочтение самому быстрому, надёжному и масштабируемому:

Оценивание на основе кода: Самое быстрое и надёжное, чрезвычайно масштабируемое, но лишено нюансов для более сложных суждений, требующих меньшей жёсткости правил.
- Точное совпадение: output == golden_answer
- Совпадение строки: key_phrase in output
Оценивание людьми: Наиболее гибкое и качественное, но медленное и дорогое. По возможности избегайте.
Оценивание на основе LLM: Быстрое и гибкое, масштабируемое и подходящее для сложных суждений. Сначала протестируйте для обеспечения надёжности, затем масштабируйте.

Советы по оцениванию на основе LLM

Используйте подробные, чёткие рубрики: «Ответ всегда должен упоминать „Acme Inc." в первом предложении. Если этого нет, ответ автоматически оценивается как „неверный".»
Конкретный сценарий использования или даже отдельный критерий успеха для этого сценария может требовать нескольких рубрик для целостной оценки.
Эмпирические или конкретные: Например, дайте LLM инструкцию выводить только «верно» или «неверно» либо оценивать по шкале от 1 до 5. Чисто качественные оценки трудно анализировать быстро и в масштабе.
Поощряйте рассуждения: Попросите LLM сначала подумать, прежде чем выставить оценку, а затем отбросьте рассуждения. Это повышает качество оценивания, особенно для задач, требующих сложных суждений.

Следующие шаги

Мозговой штурм критериев

Проведите мозговой штурм критериев успеха для вашего сценария использования вместе с Claude на claude.ai.

Совет: Добавьте эту страницу в чат в качестве руководства для Claude!

Сборник рецептов по оценкам

Больше примеров кода для оценок, выполняемых людьми, кодом и LLM.

Was this page helpful?

РекомендацииТестирование и оценка

Определение критериев успеха и создание оценок

Определите критерии успеха

Хорошие критерии успеха должны быть:

Конкретными: Чётко определите, чего вы хотите достичь. Вместо «хорошая производительность» укажите «точная классификация тональности».

Даже такие «размытые» темы, как этика и безопасность, можно выразить количественно:

	Критерии безопасности
Плохо	Безопасные выходные данные
Хорошо	Менее 0,1% выходных данных из 10 000 испытаний помечены нашим контент-фильтром как токсичные.

Достижимыми: Основывайте свои целевые показатели на отраслевых бенчмарках, предыдущих экспериментах, исследованиях в области ИИ или экспертных знаниях. Ваши метрики успеха не должны быть нереалистичными относительно возможностей современных передовых моделей.
Релевантными: Согласуйте критерии с назначением вашего приложения и потребностями пользователей. Высокая точность цитирования может быть критически важна для медицинских приложений, но менее значима для обычных чат-ботов.

Распространённые критерии успеха

Большинству сценариев использования потребуется многомерная оценка по нескольким критериям успеха.

Создание оценок

Принципы проектирования оценок

Ориентируйтесь на задачу: Проектируйте оценки, отражающие реальное распределение ваших задач. Не забывайте учитывать граничные случаи!
Автоматизируйте, где возможно: Структурируйте вопросы так, чтобы допускать автоматическую оценку (например, множественный выбор, сопоставление строк, оценка кодом, оценка с помощью LLM).
Отдавайте приоритет объёму, а не качеству: Больше вопросов с чуть менее точной автоматической оценкой лучше, чем меньше вопросов с высококачественной ручной оценкой людьми.

Примеры оценок

Оценивание результатов

Выбирая метод оценивания, отдавайте предпочтение самому быстрому, надёжному и масштабируемому:

Оценивание на основе кода: Самое быстрое и надёжное, чрезвычайно масштабируемое, но лишено нюансов для более сложных суждений, требующих меньшей жёсткости правил.
- Точное совпадение: output == golden_answer
- Совпадение строки: key_phrase in output
Оценивание людьми: Наиболее гибкое и качественное, но медленное и дорогое. По возможности избегайте.
Оценивание на основе LLM: Быстрое и гибкое, масштабируемое и подходящее для сложных суждений. Сначала протестируйте для обеспечения надёжности, затем масштабируйте.

Советы по оцениванию на основе LLM

Используйте подробные, чёткие рубрики: «Ответ всегда должен упоминать „Acme Inc." в первом предложении. Если этого нет, ответ автоматически оценивается как „неверный".»
Конкретный сценарий использования или даже отдельный критерий успеха для этого сценария может требовать нескольких рубрик для целостной оценки.
Эмпирические или конкретные: Например, дайте LLM инструкцию выводить только «верно» или «неверно» либо оценивать по шкале от 1 до 5. Чисто качественные оценки трудно анализировать быстро и в масштабе.
Поощряйте рассуждения: Попросите LLM сначала подумать, прежде чем выставить оценку, а затем отбросьте рассуждения. Это повышает качество оценивания, особенно для задач, требующих сложных суждений.

Следующие шаги

Мозговой штурм критериев

Сборник рецептов по оценкам

Больше примеров кода для оценок, выполняемых людьми, кодом и LLM.

Was this page helpful?

Определите критерии успеха

Примеры метрик и методов измерения

Пример критериев точности выполнения задачи для анализа тональности

Распространённые критерии успеха

Точность выполнения задачи

Согласованность

Релевантность и связность

Тон и стиль

Сохранение конфиденциальности

Использование контекста

Задержка

Стоимость

Пример многомерных критериев для анализа тональности

Создание оценок

Принципы проектирования оценок

Примеры граничных случаев

Примеры оценок

Точность выполнения задачи (анализ тональности) — оценка по точному совпадению

Согласованность (бот для FAQ) — оценка по косинусному сходству

Релевантность и связность (суммаризация) — оценка ROUGE-L

Тон и стиль (служба поддержки) — шкала Лайкерта на основе LLM

Сохранение конфиденциальности (медицинский чат-бот) — бинарная классификация на основе LLM

Использование контекста (диалоговый ассистент) — порядковая шкала на основе LLM

Оценивание результатов

Советы по оцениванию на основе LLM

Пример: оценивание на основе LLM

Следующие шаги

Определите критерии успеха

Примеры метрик и методов измерения

Пример критериев точности выполнения задачи для анализа тональности

Распространённые критерии успеха

Точность выполнения задачи

Согласованность

Релевантность и связность

Тон и стиль

Сохранение конфиденциальности

Использование контекста

Задержка

Стоимость

Пример многомерных критериев для анализа тональности

Создание оценок

Принципы проектирования оценок

Примеры граничных случаев

Примеры оценок

Точность выполнения задачи (анализ тональности) — оценка по точному совпадению

Согласованность (бот для FAQ) — оценка по косинусному сходству

Релевантность и связность (суммаризация) — оценка ROUGE-L

Тон и стиль (служба поддержки) — шкала Лайкерта на основе LLM

Сохранение конфиденциальности (медицинский чат-бот) — бинарная классификация на основе LLM

Использование контекста (диалоговый ассистент) — порядковая шкала на основе LLM

Оценивание результатов

Советы по оцениванию на основе LLM

Пример: оценивание на основе LLM

Следующие шаги

Определите критерии успеха

Распространённые критерии успеха

Создание оценок

Принципы проектирования оценок

Примеры оценок

Оценивание результатов

Советы по оцениванию на основе LLM

Следующие шаги

Определите критерии успеха

Распространённые критерии успеха

Создание оценок

Принципы проектирования оценок

Примеры оценок

Оценивание результатов

Советы по оцениванию на основе LLM

Следующие шаги