跳转至

Lab 2: 简单评测

背景

你做了一个模型回答页面,但你不确定它到底稳不稳。

这一题要训练的是:给一个小任务,自己设计一个最小评测方法。

目标

判断模型对同一个 Prompt 的输出是否稳定。

输入材料

测试 Prompt:

text 请用三点解释什么是 RAG,并给一个最小例子。

提示与约束

你要设计一个最小评测表,至少包含:

  • 是否回答了定义
  • 是否给了例子
  • 是否使用了通俗中文
  • 是否保持了三点结构

参考答案

text 评测项 | 通过标准 ---|--- 定义 | 明确说明 RAG 是检索增强生成 例子 | 给出一个可理解的最小场景 语言 | 使用通俗中文,不堆英文缩写 结构 | 明确分成三点

扩展思考

  • 如何给“准确性”打分
  • 如何给“可读性”打分
  • 如何处理不同模型之间的差异

本地复现方式

  1. 连续问模型 3 次
  2. 用同一张表打分
  3. 比较结果是否稳定