跳转至

AI Evals 总览

Eval 是评测,解决的是“看起来不错”和“真的不错”不是一回事。

它在看什么

  • 主观体验
  • 客观指标
  • 一致性
  • 稳定性
  • 幻觉率

为什么需要它

LLM 的输出很容易“看起来像对的”,但实际上可能有:

  • 编造事实
  • 前后不一致
  • 格式跑偏
  • 在边界输入上失控

你先记住

  • 评测不是只看一次结果
  • 评测要看重复性
  • 评测最好分任务设计

最小思路

  1. 定义任务
  2. 准备样本
  3. 设定标准
  4. 运行测试
  5. 看结果并回改