Appearance
为什么不建议用知识时间和模型 ID 测幻觉
有些用户会问“你的知识截止到什么时候?”或“你是什么模型 ID?”来判断模型有没有幻觉。这个方法可以当作随手观察,但不适合作为准确测试。
结论先说
不要把模型自报的知识时间、模型 ID 或版本名当作严格证据。更可靠的方式是:给它明确材料、可核查问题和验收标准,看它是否能基于材料稳定回答。
为什么知识时间自报不准
“你的知识截止到什么时候?”看起来很直接,但它测到的经常不是实际能力。
常见原因:
- 系统提示、产品包装和模型实际权重不是一回事。
- Relay、客户端或上游可能隐藏或改写模型细节。
- 模型会根据训练中常见回答模式猜一个日期。
- 有检索或工具能力时,模型可能知道训练截止后发生的事。
所以,模型把知识时间说错,不一定等于这个模型所有回答都不可靠;模型把知识时间说对,也不代表它不会幻觉。
为什么模型 ID 自报不准
“你是什么模型?”也不适合做严格判断。
模型可能看到的是:
- 产品名,而不是底层模型名。
- 路由后的别名,而不是供应商原始 ID。
- 客户端注入的展示名。
- 历史训练中记住的旧名称。
Relay 场景里还会有账号池、渠道、别名、倍率和回退策略。用户看到的模型名不一定等于某次请求真实命中的上游模型 ID。
更推荐怎么测
用可核查材料
提供一段文档、代码或日志,让模型基于材料回答。
设置明确验收
要求引用文件名、行号、输入输出或可复现命令。
对比多轮一致性
同一问题换表达问几次,看核心判断是否稳定。
用真实任务验证
让模型修一个小 bug、写一个测试、解释一个报错,比问模型身份更有效。
判断幻觉时看这几点
| 观察项 | 更可靠的判断方式 |
|---|---|
| 事实是否可查 | 是否能给出来源、文件、命令或可复现步骤 |
| 代码是否正确 | 是否能通过测试、类型检查或构建 |
| 配置是否真实 | 是否能在官方文档或本地配置中找到对应字段 |
| 推理是否稳定 | 换一种问法后是否仍得出同样结论 |
给用户的建议
如果你只是随手测试,问知识时间没问题;如果你要判断模型是否适合生产任务,不要只看它自报什么。把它放进真实任务、真实上下文和真实验收里测试。
好的测试应该能复现
能被复现、能被检查、能和预期结果对比的测试,比模型自我介绍更有价值。