Loading...
    • Руководство разработчика
    • Справочник API
    • MCP
    • Ресурсы
    • Примечания к выпуску
    Search...
    ⌘K

    Первые шаги

    Введение в ClaudeБыстрый старт

    Модели и цены

    Обзор моделейВыбор моделиЧто нового в Claude 4.5Миграция на Claude 4.5Снятие моделей с поддержкиЦены

    Создавайте с Claude

    Обзор функцийРабота с API MessagesКонтекстные окнаЛучшие практики создания промптов

    Возможности

    Кэширование подсказокРедактирование контекстаРасширенное мышлениеПотоковые сообщенияПакетная обработкаЦитированиеМногоязычная поддержкаПодсчет токеновЭмбеддингиЗрениеПоддержка PDFFiles APIРезультаты поискаДополнение для Google Sheets

    Инструменты

    ОбзорКак реализовать использование инструментовЭкономное использование инструментов по токенамДетализированная потоковая передача инструментовИнструмент BashИнструмент выполнения кодаИнструмент компьютерного управленияИнструмент текстового редактораИнструмент веб-выборкиИнструмент веб-поискаИнструмент памяти

    Навыки агента

    Навыки агентаНачало работы с Agent Skills в APIЛучшие практики создания SkillsИспользование Agent Skills с API

    SDK для агентов

    ОбзорСправочник Agent SDK - TypeScriptСправочник Agent SDK - Python

    Руководства

    Потоковый вводУправление разрешениямиУправление сессиямиРазмещение Agent SDKИзменение системных промптовMCP в SDKПользовательские инструментыСубагенты в SDKСлэш-команды в SDKНавыки агента в SDKОтслеживание затрат и использованияСписки задачПлагины в SDK

    MCP в API

    MCP коннекторУдаленные MCP серверы

    Claude на сторонних платформах

    Amazon BedrockVertex AI

    Инженерия подсказок

    ОбзорГенератор промптовИспользование шаблонов промптовУлучшитель промптовБудьте ясными и прямымиИспользуйте примеры (мультишотовый промптинг)Позвольте Claude думать (CoT)Используйте XML-тегиНазначьте роль Claude (системные промпты)Предварительное заполнение ответа ClaudeЦепочки сложных промптовСоветы по длинному контекстуСоветы по расширенному мышлению

    Тестирование и оценка

    Определите критерии успехаРазработка тестовых случаевИспользование инструмента оценкиСнижение задержки

    Усилить защиту

    Уменьшение галлюцинацийПовышение согласованности выводаПредотвращение взломаhandle-streaming-refusalsУменьшение утечки промптаПоддержание характера Claude

    Администрирование и мониторинг

    Обзор Admin APIAPI использования и стоимостиClaude Code Analytics API
    Console
    Тестирование и оценка

    Создание надежных эмпирических оценок

    Узнайте, как разработать тестовые случаи для измерения производительности LLM в соответствии с вашими критериями успеха.

    После определения критериев успеха следующим шагом является разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии промптов.

    Это руководство сосредоточено на том, как разработать ваши тестовые случаи.

    Создание оценок и тестовых случаев

    Принципы дизайна оценок

    1. Будьте специфичными к задаче: Разрабатывайте оценки, которые отражают распределение ваших реальных задач. Не забывайте учитывать крайние случаи!

    2. Автоматизируйте, когда это возможно: Структурируйте вопросы для автоматизированной оценки (например, множественный выбор, соответствие строк, оценка кодом, оценка LLM).
    3. Приоритет объему над качеством: Больше вопросов с немного более низким сигналом автоматизированной оценки лучше, чем меньше вопросов с высококачественными оценками, выставленными людьми вручную.

    Примеры оценок

    Написание сотен тестовых случаев может быть трудным делом вручную! Попросите Claude помочь вам сгенерировать больше из базового набора примеров тестовых случаев.
    Если вы не знаете, какие методы оценки могут быть полезны для оценки ваших критериев успеха, вы также можете провести мозговой штурм с Claude!

    Оценка оценок

    При принятии решения о том, какой метод использовать для оценки оценок, выберите самый быстрый, самый надежный, самый масштабируемый метод:

    1. Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также лишена нюансов для более сложных суждений, которые требуют менее жесткой основанности на правилах.

      • Точное соответствие: output == golden_answer
      • Соответствие строки: key_phrase in output
    2. Человеческая оценка: Самая гибкая и высококачественная, но медленная и дорогая. Избегайте, если возможно.

    3. Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала протестируйте для обеспечения надежности, затем масштабируйте.

    Советы для оценки на основе LLM

    • Имейте подробные, четкие рубрики: "Ответ всегда должен упоминать 'Acme Inc.' в первом предложении. Если этого нет, ответ автоматически оценивается как 'неправильный'."
      Данный случай использования, или даже конкретный критерий успеха для этого случая использования, может потребовать несколько рубрик для целостной оценки.
    • Эмпирический или конкретный: Например, проинструктируйте LLM выводить только 'правильно' или 'неправильно', или судить по шкале от 1 до 5. Чисто качественные оценки трудно оценить быстро и в масштабе.
    • Поощряйте рассуждения: Попросите LLM сначала подумать перед принятием решения об оценочном балле, а затем отбросьте рассуждения. Это повышает производительность оценки, особенно для задач, требующих сложного суждения.

    Следующие шаги

    Мозговой штурм оценок

    Узнайте, как создавать промпты, которые максимизируют ваши баллы оценки.

    Поваренная книга оценок

    Больше примеров кода оценок, оцениваемых людьми, кодом и LLM.

    • Создание оценок и тестовых случаев
    • Принципы дизайна оценок
    • Примеры оценок
    • Оценка оценок
    • Советы для оценки на основе LLM
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC