跳转至

Hello-AI

简单评测

Lab 2: 简单评测¶

背景¶

你做了一个模型回答页面，但你不确定它到底稳不稳。

这一题要训练的是：给一个小任务，自己设计一个最小评测方法。

目标¶

判断模型对同一个 Prompt 的输出是否稳定。

输入材料¶

测试 Prompt：

text 请用三点解释什么是 RAG，并给一个最小例子。

提示与约束¶

你要设计一个最小评测表，至少包含：

是否回答了定义
是否给了例子
是否使用了通俗中文
是否保持了三点结构

参考答案¶

text 评测项 | 通过标准 ---|--- 定义 | 明确说明 RAG 是检索增强生成例子 | 给出一个可理解的最小场景语言 | 使用通俗中文，不堆英文缩写结构 | 明确分成三点

扩展思考¶

如何给“准确性”打分
如何给“可读性”打分
如何处理不同模型之间的差异

本地复现方式¶

连续问模型 3 次
用同一张表打分
比较结果是否稳定