AI Evals 总览¶ Eval 是评测,解决的是“看起来不错”和“真的不错”不是一回事。 它在看什么¶ 主观体验 客观指标 一致性 稳定性 幻觉率 为什么需要它¶ LLM 的输出很容易“看起来像对的”,但实际上可能有: 编造事实 前后不一致 格式跑偏 在边界输入上失控 你先记住¶ 评测不是只看一次结果 评测要看重复性 评测最好分任务设计 最小思路¶ 定义任务 准备样本 设定标准 运行测试 看结果并回改 这页有帮助吗? 感谢反馈。你也可以通过页面下方的共建入口继续补充内容。 感谢反馈。欢迎通过页面下方的勘误或建议入口提出修改建议。