Узнайте, как разработать тестовые случаи для измерения производительности LLM в соответствии с вашими критериями успеха.
После определения критериев успеха следующим шагом является разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии промптов.
Это руководство сосредоточено на том, как разработать ваши тестовые случаи.
Создание оценок и тестовых случаев
Принципы дизайна оценок
Будьте специфичными к задаче: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать крайние случаи!
Автоматизируйте, когда это возможно: Структурируйте вопросы для автоматизированной оценки (например, множественный выбор, соответствие строк, оценка кодом, оценка LLM).
Приоритет объему над качеством: Больше вопросов с немного более низким сигналом автоматизированной оценки лучше, чем меньше вопросов с высококачественными оценками, выставленными людьми вручную.
Примеры оценок
Написание сотен тестовых случаев может быть трудным делом вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!
Оценка оценок
При принятии решения о том, какой метод использовать для оценки оценок, выберите самый быстрый, самый надежный, самый масштабируемый метод:
Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также лишена нюансов для более сложных суждений, которые требуют менее жесткой основанности на правилах.
Точное соответствие: output == golden_answer
Соответствие строки: key_phrase in output
Человеческая оценка: Самая гибкая и высококачественная, но медленная и дорогая. Избегайте, если возможно.
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала протестируйте для обеспечения надежности, затем масштабируйте.
Советы для оценки на основе LLM
Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если этого нет, ответ автоматически оценивается как 'неправильный'."
Данный случай использования, или даже конкретный критерий успеха для этого случая использования, может потребовать несколько рубрик для целостной оценки.
Эмпирический или конкретный: Например, проинструктируйте LLM выводить только 'правильно' или 'неправильно', или судить по шкале от 1 до 5. Чисто качественные оценки трудно оценить быстро и в масштабе.
Поощряйте рассуждения: Попросите LLM сначала подумать перед принятием решения об оценочном балле, а затем отбросьте рассуждения. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.