Lab 2: 简单评测¶
背景¶
你做了一个模型回答页面,但你不确定它到底稳不稳。
这一题要训练的是:给一个小任务,自己设计一个最小评测方法。
目标¶
判断模型对同一个 Prompt 的输出是否稳定。
输入材料¶
测试 Prompt:
text
请用三点解释什么是 RAG,并给一个最小例子。
提示与约束¶
你要设计一个最小评测表,至少包含:
- 是否回答了定义
- 是否给了例子
- 是否使用了通俗中文
- 是否保持了三点结构
参考答案¶
text
评测项 | 通过标准
---|---
定义 | 明确说明 RAG 是检索增强生成
例子 | 给出一个可理解的最小场景
语言 | 使用通俗中文,不堆英文缩写
结构 | 明确分成三点
扩展思考¶
- 如何给“准确性”打分
- 如何给“可读性”打分
- 如何处理不同模型之间的差异
本地复现方式¶
- 连续问模型 3 次
- 用同一张表打分
- 比较结果是否稳定