После определения критериев успеха следующим шагом является разработка оценок для измерения производительности LLM в соответствии с этими критериями. Это жизненно важная часть цикла инженерии промптов.

Это руководство сосредоточено на том, как разработать ваши тестовые случаи.
При принятии решения о том, какой метод использовать для оценки оценок, выберите самый быстрый, самый надежный, самый масштабируемый метод:
Оценка на основе кода: Самая быстрая и надежная, чрезвычайно масштабируемая, но также лишена нюансов для более сложных суждений, которые требуют менее жесткой основанности на правилах.
output == golden_answerkey_phrase in outputЧеловеческая оценка: Самая гибкая и высококачественная, но медленная и дорогая. Избегайте, если возможно.
Оценка на основе LLM: Быстрая и гибкая, масштабируемая и подходящая для сложных суждений. Сначала протестируйте для обеспечения надежности, затем масштабируйте.
Больше примеров кода оценок, оцениваемых людьми, кодом и LLM.