Was this page helpful?
После определения критериев успеха следующий шаг — разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии подсказок.

Это руководство сосредоточено на том, как разработать ваши тестовые случаи.
При выборе метода для оценки оценок выбирайте самый быстрый, надежный, масштабируемый метод:
Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также не хватает нюансов для более сложных суждений, требующих меньшей жесткости на основе правил.
output == golden_answerkey_phrase in outputОценка человеком: Наиболее гибкая и высокого качества, но медленная и дорогая. Избегайте, если возможно.
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложного суждения. Сначала протестируйте, чтобы обеспечить надежность, затем масштабируйте.
Больше примеров кода оценок, оцениваемых человеком, кодом и LLM.