跳转至

Hello-AI

Eval 总览

AI Evals 总览¶

Eval 是评测，解决的是“看起来不错”和“真的不错”不是一回事。

它在看什么¶

主观体验
客观指标
一致性
稳定性
幻觉率

为什么需要它¶

LLM 的输出很容易“看起来像对的”，但实际上可能有：

编造事实
前后不一致
格式跑偏
在边界输入上失控

你先记住¶

评测不是只看一次结果
评测要看重复性
评测最好分任务设计

最小思路¶

定义任务
准备样本
设定标准
运行测试
看结果并回改