Разработка тестовых случаев и методов оценки для измерения производительности LLM
После определения критериев успеха следующий шаг — разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии подсказок.
Это руководство сосредоточено на том, как разработать ваши тестовые случаи.
Построение оценок и тестовых случаев
Принципы проектирования оценок
Будьте специфичны к задаче: Разработайте оценки, которые отражают распределение вашей реальной задачи. Не забудьте учесть граничные случаи!
Автоматизируйте, когда возможно: Структурируйте вопросы так, чтобы позволить автоматическую оценку (например, множественный выбор, совпадение строк, оценка кодом, оценка LLM).
Приоритизируйте объем над качеством: Больше вопросов с немного более низким сигналом автоматической оценки лучше, чем меньше вопросов с высококачественной ручной оценкой человеком.
Примеры оценок
Написание сотен тестовых случаев может быть сложно делать вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!
Оценка оценок
При выборе метода для оценки оценок выбирайте самый быстрый, надежный, масштабируемый метод:
Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих меньшей жесткости на основе правил.
Точное совпадение: output == golden_answer
Совпадение строк: key_phrase in output
Оценка человеком: Наиболее гибкая и высокого качества, но медленная и дорогая. Избегайте, если возможно.
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложного суждения. Сначала протестируйте, чтобы обеспечить надежность, затем масштабируйте.
Советы для оценки на основе LLM
Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если он этого не делает, ответ автоматически оценивается как 'неправильный.'"
Данный случай использования или даже конкретный критерий успеха для этого случая использования может требовать несколько рубрик для комплексной оценки.
Эмпирический или конкретный: Например, инструктируйте LLM выводить только 'правильно' или 'неправильно', или судить по шкале от 1 до 5. Чисто качественные оценки сложно оценить быстро и в масштабе.
Поощряйте рассуждение: Попросите LLM сначала подумать перед тем, как принять решение об оценке, а затем отбросьте рассуждение. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.