Создание надежных эмпирических оценок
После определения критериев успеха следующим шагом является разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии промптов.

Это руководство сосредоточено на том, как разработать ваши тестовые случаи.
Создание оценок и тестовых случаев
Принципы дизайна оценок
- Будьте специфичными к задаче: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать крайние случаи!
- Автоматизируйте, когда это возможно: Структурируйте вопросы для автоматизированной оценки (например, множественный выбор, соответствие строк, оценка кодом, оценка LLM).
- Приоритет объему над качеством: Больше вопросов с немного более низким сигналом автоматизированной оценки лучше, чем меньше вопросов с высококачественными оценками, выставленными людьми вручную.
Примеры оценок
Оценка оценок
При принятии решения о том, какой метод использовать для оценки оценок, выберите самый быстрый, самый надежный, самый масштабируемый метод:
-
Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также лишена нюансов для более сложных суждений, которые требуют менее жесткой основанности на правилах.
- Точное соответствие:
output == golden_answer - Соответствие строки:
key_phrase in output
- Точное соответствие:
-
Человеческая оценка: Самая гибкая и высококачественная, но медленная и дорогая. Избегайте, если возможно.
-
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала протестируйте для обеспечения надежности, затем масштабируйте.
Советы для оценки на основе LLM
- Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если этого нет, ответ автоматически оценивается как 'неправильный'."
Данный случай использования, или даже конкретный критерий успеха для этого случая использования, может потребовать несколько рубрик для целостной оценки.
- Эмпирический или конкретный: Например, проинструктируйте LLM выводить только 'правильно' или 'неправильно', или судить по шкале от 1 до 5. Чисто качественные оценки трудно оценить быстро и в масштабе.
- Поощряйте рассуждения: Попросите LLM сначала подумать перед принятием решения об оценочном балле, а затем отбросьте рассуждения. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.