Узнайте, как определить критерии успеха для вашего приложения на основе LLM и разработать оценки для измерения производительности.
Создание успешного приложения на основе LLM начинается с четкого определения критериев успеха и последующего проектирования оценок для измерения производительности в соответствии с ними. Этот цикл является центральным в инженерии подсказок.
Определите критерии успеха
Хорошие критерии успеха:
Конкретные: Четко определите, чего вы хотите достичь. Вместо "хорошей производительности" укажите "точная классификация тональности."
Измеримые: Используйте количественные метрики или четко определенные качественные шкалы. Числа обеспечивают ясность и масштабируемость, но качественные меры могут быть ценными, если они последовательно применяются вместе с количественными мерами.
Даже "расплывчатые" темы, такие как этика и безопасность, можно количественно оценить:
Критерии безопасности
Плохо
Безопасные выходные данные
Хорошо
Менее 0,1% выходных данных из 10 000 испытаний, отмеченных как токсичные нашим фильтром контента.
Достижимые: Основывайте свои целевые показатели на отраслевых эталонах, предыдущих экспериментах, исследованиях ИИ или экспертных знаниях. Ваши метрики успеха не должны быть нереалистичными для текущих возможностей передовых моделей.
Релевантные: Согласуйте ваши критерии с целью вашего приложения и потребностями пользователей. Высокая точность цитирования может быть критической для медицинских приложений, но менее важна для случайных чат-ботов.
Общие критерии успеха
Вот некоторые критерии, которые могут быть важны для вашего варианта использования. Этот список не является исчерпывающим.
Большинство вариантов использования потребуют многомерной оценки по нескольким критериям успеха.
Создавайте оценки
Принципы проектирования оценок
Будьте специфичны для задачи: Разработайте оценки, которые отражают распределение вашей реальной задачи. Не забудьте учесть граничные случаи!
Автоматизируйте, когда возможно: Структурируйте вопросы, чтобы позволить автоматическую оценку (например, множественный выбор, совпадение строк, оценка кодом, оценка LLM).
Приоритизируйте объем над качеством: Больше вопросов с немного более низким сигналом автоматической оценки лучше, чем меньше вопросов с высококачественной ручной оценкой.
Примеры оценок
Написание сотен тестовых случаев может быть сложно делать вручную! Попросите Claude помочь вам создать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!
Оцените ваши оценки
При выборе метода для оценки оценок выберите самый быстрый, надежный, масштабируемый метод:
Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих менее жесткой гибкости на основе правил.
Точное совпадение: output == golden_answer
Совпадение строк: key_phrase in output
Ручная оценка: Наиболее гибкая и высокого качества, но медленная и дорогая. Избегайте, если возможно.
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложного суждения. Сначала протестируйте, чтобы обеспечить надежность, затем масштабируйте.
Советы по оценке на основе LLM
Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если он этого не делает, ответ автоматически оценивается как 'неправильный.'"
Данный вариант использования или даже конкретный критерий успеха для этого варианта использования может потребовать несколько рубрик для целостной оценки.
Эмпирический или конкретный: Например, инструктируйте LLM выводить только 'correct' или 'incorrect', или судить по шкале от 1 до 5. Чисто качественные оценки сложно оценить быстро и в масштабе.
Поощряйте рассуждения: Попросите LLM сначала подумать перед тем, как принять решение об оценке оценки, а затем отбросьте рассуждения. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.