Тестирование и оценка

Создание надежных эмпирических оценок

Разработка тестовых случаев и методов оценки для измерения производительности LLM

После определения критериев успеха следующий шаг — разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии подсказок.

Блок-схема инженерии подсказок: тестовые случаи, предварительная подсказка, итеративное тестирование и уточнение, финальная валидация, развертывание

Это руководство сосредоточено на том, как разработать ваши тестовые случаи.

Построение оценок и тестовых случаев

Принципы проектирования оценок

Будьте специфичны к задаче: Разработайте оценки, которые отражают распределение вашей реальной задачи. Не забудьте учесть граничные случаи!
Автоматизируйте, когда возможно: Структурируйте вопросы так, чтобы позволить автоматическую оценку (например, множественный выбор, совпадение строк, оценка кодом, оценка LLM).
Приоритизируйте объем над качеством: Больше вопросов с немного более низким сигналом автоматической оценки лучше, чем меньше вопросов с высококачественной ручной оценкой человеком.

Примеры оценок

Написание сотен тестовых случаев может быть сложно делать вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.

Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

Оценка оценок

При выборе метода для оценки оценок выбирайте самый быстрый, надежный, масштабируемый метод:

Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих меньшей жесткости на основе правил.
- Точное совпадение: output == golden_answer
- Совпадение строк: key_phrase in output
Оценка человеком: Наиболее гибкая и высокого качества, но медленная и дорогая. Избегайте, если возможно.
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложного суждения. Сначала протестируйте, чтобы обеспечить надежность, затем масштабируйте.

Советы для оценки на основе LLM

Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если он этого не делает, ответ автоматически оценивается как 'неправильный.'"
Данный случай использования или даже конкретный критерий успеха для этого случая использования может требовать несколько рубрик для комплексной оценки.
Эмпирический или конкретный: Например, инструктируйте LLM выводить только 'правильно' или 'неправильно', или судить по шкале от 1 до 5. Чисто качественные оценки сложно оценить быстро и в масштабе.
Поощряйте рассуждение: Попросите LLM сначала подумать перед тем, как принять решение об оценке, а затем отбросьте рассуждение. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.

Следующие шаги

Мозговой штурм оценок

Узнайте, как создавать подсказки, которые максимизируют ваши оценки.

Справочник по оценкам

Больше примеров кода оценок, оцениваемых человеком, кодом и LLM.

Was this page helpful?

Построение оценок и тестовых случаев

Принципы проектирования оценок

Будьте специфичны к задаче: Разработайте оценки, которые отражают распределение вашей реальной задачи. Не забудьте учесть граничные случаи!

Автоматизируйте, когда возможно: Структурируйте вопросы так, чтобы позволить автоматическую оценку (например, множественный выбор, совпадение строк, оценка кодом, оценка LLM).

Приоритизируйте объем над качеством: Больше вопросов с немного более низким сигналом автоматической оценки лучше, чем меньше вопросов с высококачественной ручной оценкой человеком.

Примеры оценок

Оценка оценок

При выборе метода для оценки оценок выбирайте самый быстрый, надежный, масштабируемый метод:

Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих меньшей жесткости на основе правил.

Точное совпадение: output == golden_answer
Совпадение строк: key_phrase in output

Оценка человеком: Наиболее гибкая и высокого качества, но медленная и дорогая. Избегайте, если возможно.

Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложного суждения. Сначала протестируйте, чтобы обеспечить надежность, затем масштабируйте.

Советы для оценки на основе LLM

Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если он этого не делает, ответ автоматически оценивается как 'неправильный.'"

Данный случай использования или даже конкретный критерий успеха для этого случая использования может требовать несколько рубрик для комплексной оценки.

Эмпирический или конкретный: Например, инструктируйте LLM выводить только 'правильно' или 'неправильно', или судить по шкале от 1 до 5. Чисто качественные оценки сложно оценить быстро и в масштабе.

Поощряйте рассуждение: Попросите LLM сначала подумать перед тем, как принять решение об оценке, а затем отбросьте рассуждение. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.

Построение оценок и тестовых случаев

Принципы проектирования оценок

Примеры граничных случаев

Примеры оценок

Точность задачи (анализ тональности) - оценка точного совпадения

Консистентность (FAQ-бот) - оценка косинусного сходства

Релевантность и связность (суммаризация) - оценка ROUGE-L

Тон и стиль (обслуживание клиентов) - LLM-основанная шкала Лайкерта

Сохранение конфиденциальности (медицинский чатбот) - LLM-основанная бинарная классификация

Использование контекста (помощник по беседе) - LLM-основанная порядковая шкала

Оценка оценок

Советы для оценки на основе LLM

Пример: Оценка на основе LLM

Следующие шаги

Построение оценок и тестовых случаев

Принципы проектирования оценок

Примеры граничных случаев

Примеры оценок

Точность задачи (анализ тональности) - оценка точного совпадения

Консистентность (FAQ-бот) - оценка косинусного сходства

Релевантность и связность (суммаризация) - оценка ROUGE-L

Тон и стиль (обслуживание клиентов) - LLM-основанная шкала Лайкерта

Сохранение конфиденциальности (медицинский чатбот) - LLM-основанная бинарная классификация

Использование контекста (помощник по беседе) - LLM-основанная порядковая шкала

Оценка оценок

Советы для оценки на основе LLM

Пример: Оценка на основе LLM

Следующие шаги