Loading...
    • Руководство разработчика
    • Справочник API
    • MCP
    • Ресурсы
    • Примечания к выпуску
    Search...
    ⌘K
    Первые шаги
    Введение в ClaudeБыстрый старт
    Модели и цены
    Обзор моделейВыбор моделиЧто нового в Claude 4.6Руководство миграцииУстаревшие моделиЦены
    Разработка с Claude
    Обзор функцийИспользование Messages APIОбработка причин остановкиЛучшие практики промптирования
    Возможности модели
    Extended thinkingAdaptive thinkingУсилиеБыстрый режим (preview)Структурированные выходные данныеЦитированияПотоковая передача сообщенийПакетная обработкаПоддержка PDFРезультаты поискаМногоязычная поддержкаEmbeddingsЗрение
    Инструменты
    ОбзорКак реализовать использование инструментовИнструмент веб-поискаИнструмент веб-загрузкиИнструмент выполнения кодаИнструмент памятиИнструмент BashИнструмент управления компьютеромИнструмент текстового редактора
    Инфраструктура инструментов
    Поиск инструментовПрограммный вызов инструментовПотоковая передача инструментов с детализацией
    Управление контекстом
    Контекстные окнаСжатиеРедактирование контекстаКэширование промптовПодсчет токенов
    Файлы и ресурсы
    Files API
    Agent Skills
    ОбзорБыстрый стартЛучшие практикиSkills для предприятийИспользование Skills с API
    Agent SDK
    ОбзорБыстрый стартTypeScript SDKTypeScript V2 (preview)Python SDKРуководство миграции
    MCP в API
    MCP коннекторУдаленные MCP серверы
    Claude на платформах третьих сторон
    Amazon BedrockMicrosoft FoundryVertex AI
    Инженерия промптов
    ОбзорГенератор промптовИспользование шаблонов промптовУлучшитель промптовБудьте ясны и прямолинейныИспользуйте примеры (многошаговое промптирование)Дайте Claude думать (CoT)Используйте XML тегиДайте Claude роль (системные промпты)Цепочка сложных промптовСоветы для длинного контекстаСоветы для Extended thinking
    Тестирование и оценка
    Определение критериев успехаРазработка тестовых случаевИспользование инструмента оценкиСнижение задержки
    Укрепление защиты
    Снижение галлюцинацийУвеличение согласованности выходных данныхСмягчение jailbreaksПотоковая передача отказовСнижение утечки промптаДержите Claude в образе
    Администрирование и мониторинг
    Обзор Admin APIРезидентность данныхРабочие пространстваUsage and Cost APIClaude Code Analytics APIZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Тестирование и оценка

    Создание надежных эмпирических оценок

    Разработка тестовых случаев и методов оценки для измерения производительности LLM

    После определения критериев успеха следующий шаг — разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии подсказок.

    Блок-схема инженерии подсказок: тестовые случаи, предварительная подсказка, итеративное тестирование и уточнение, финальная валидация, развертывание

    Это руководство сосредоточено на том, как разработать ваши тестовые случаи.

    Построение оценок и тестовых случаев

    Принципы проектирования оценок

    1. Будьте специфичны к задаче: Разработайте оценки, которые отражают распределение вашей реальной задачи. Не забудьте учесть граничные случаи!

    2. Автоматизируйте, когда возможно: Структурируйте вопросы так, чтобы позволить автоматическую оценку (например, множественный выбор, совпадение строк, оценка кодом, оценка LLM).
    3. Приоритизируйте объем над качеством: Больше вопросов с немного более низким сигналом автоматической оценки лучше, чем меньше вопросов с высококачественной ручной оценкой человеком.

    Примеры оценок

    Написание сотен тестовых случаев может быть сложно делать вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
    Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

    Оценка оценок

    При выборе метода для оценки оценок выбирайте самый быстрый, надежный, масштабируемый метод:

    1. Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих меньшей жесткости на основе правил.

      • Точное совпадение: output == golden_answer
      • Совпадение строк: key_phrase in output
    2. Оценка человеком: Наиболее гибкая и высокого качества, но медленная и дорогая. Избегайте, если возможно.

    3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложного суждения. Сначала протестируйте, чтобы обеспечить надежность, затем масштабируйте.

    Советы для оценки на основе LLM

    • Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если он этого не делает, ответ автоматически оценивается как 'неправильный.'"
      Данный случай использования или даже конкретный критерий успеха для этого случая использования может требовать несколько рубрик для комплексной оценки.
    • Эмпирический или конкретный: Например, инструктируйте LLM выводить только 'правильно' или 'неправильно', или судить по шкале от 1 до 5. Чисто качественные оценки сложно оценить быстро и в масштабе.
    • Поощряйте рассуждение: Попросите LLM сначала подумать перед тем, как принять решение об оценке, а затем отбросьте рассуждение. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.

    Следующие шаги

    Мозговой штурм оценок

    Узнайте, как создавать подсказки, которые максимизируют ваши оценки.

    Справочник по оценкам

    Больше примеров кода оценок, оцениваемых человеком, кодом и LLM.

    Was this page helpful?

    • Построение оценок и тестовых случаев
    • Принципы проектирования оценок
    • Примеры оценок
    • Оценка оценок
    • Советы для оценки на основе LLM
    • Следующие шаги