Loading...
  • Разработка
  • Администрирование
  • Модели и цены
  • Клиентские SDK
  • Справочник API
Search...
⌘K
Log in
Определение успеха и создание оценок
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Разработка/Тестирование и оценка

Определите критерии успеха и создавайте оценки

Узнайте, как определить критерии успеха для вашего приложения на основе LLM и разработать оценки для измерения производительности.

Создание успешного приложения на основе LLM начинается с четкого определения критериев успеха и последующего проектирования оценок для измерения производительности в соответствии с ними. Этот цикл является центральным в инженерии подсказок.

Блок-схема инженерии подсказок: тестовые случаи, предварительная подсказка, итеративное тестирование и уточнение, финальная валидация, развертывание

Определите критерии успеха

Хорошие критерии успеха:

  • Конкретные: Четко определите, чего вы хотите достичь. Вместо "хорошей производительности" укажите "точная классификация тональности."

  • Измеримые: Используйте количественные метрики или четко определенные качественные шкалы. Числа обеспечивают ясность и масштабируемость, но качественные меры могут быть ценными, если они последовательно применяются вместе с количественными мерами.

    • Даже "расплывчатые" темы, такие как этика и безопасность, можно количественно оценить:
      Критерии безопасности
      ПлохоБезопасные выходные данные
      ХорошоМенее 0,1% выходных данных из 10 000 испытаний, отмеченных как токсичные нашим фильтром контента.

  • Достижимые: Основывайте свои целевые показатели на отраслевых эталонах, предыдущих экспериментах, исследованиях ИИ или экспертных знаниях. Ваши метрики успеха не должны быть нереалистичными для текущих возможностей передовых моделей.

  • Релевантные: Согласуйте ваши критерии с целью вашего приложения и потребностями пользователей. Высокая точность цитирования может быть критической для медицинских приложений, но менее важна для случайных чат-ботов.

Общие критерии успеха

Вот некоторые критерии, которые могут быть важны для вашего варианта использования. Этот список не является исчерпывающим.

Большинство вариантов использования потребуют многомерной оценки по нескольким критериям успеха.


Создавайте оценки

Принципы проектирования оценок

  1. Будьте специфичны для задачи: Разработайте оценки, которые отражают распределение вашей реальной задачи. Не забудьте учесть граничные случаи!

  2. Автоматизируйте, когда возможно: Структурируйте вопросы, чтобы позволить автоматическую оценку (например, множественный выбор, совпадение строк, оценка кодом, оценка LLM).
  3. Приоритизируйте объем над качеством: Больше вопросов с немного более низким сигналом автоматической оценки лучше, чем меньше вопросов с высококачественной ручной оценкой.

Примеры оценок

Написание сотен тестовых случаев может быть сложно делать вручную! Попросите Claude помочь вам создать больше из базового набора примеров тестовых случаев.
Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

Оцените ваши оценки

При выборе метода для оценки оценок выберите самый быстрый, надежный, масштабируемый метод:

  1. Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих менее жесткой гибкости на основе правил.

    • Точное совпадение: output == golden_answer
    • Совпадение строк: key_phrase in output
  2. Ручная оценка: Наиболее гибкая и высокого качества, но медленная и дорогая. Избегайте, если возможно.

  3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложного суждения. Сначала протестируйте, чтобы обеспечить надежность, затем масштабируйте.

Советы по оценке на основе LLM

  • Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если он этого не делает, ответ автоматически оценивается как 'неправильный.'"
    Данный вариант использования или даже конкретный критерий успеха для этого варианта использования может потребовать несколько рубрик для целостной оценки.
  • Эмпирический или конкретный: Например, инструктируйте LLM выводить только 'correct' или 'incorrect', или судить по шкале от 1 до 5. Чисто качественные оценки сложно оценить быстро и в масштабе.
  • Поощряйте рассуждения: Попросите LLM сначала подумать перед тем, как принять решение об оценке оценки, а затем отбросьте рассуждения. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.

Следующие шаги

Обсудите критерии

Обсудите критерии успеха для вашего варианта использования с Claude на claude.ai.

Совет: Поместите эту страницу в чат в качестве руководства для Claude!

Кулинарная книга оценок

Больше примеров кода для оценок, оцениваемых человеком, кодом и LLM.

Was this page helpful?

  • Определите критерии успеха
  • Общие критерии успеха
  • Создавайте оценки
  • Принципы проектирования оценок
  • Примеры оценок
  • Оцените ваши оценки
  • Советы по оценке на основе LLM
  • Следующие шаги