Skip to content

为什么不建议用知识时间和模型 ID 测幻觉

有些用户会问“你的知识截止到什么时候?”或“你是什么模型 ID?”来判断模型有没有幻觉。这个方法可以当作随手观察,但不适合作为准确测试。

结论先说

不要把模型自报的知识时间、模型 ID 或版本名当作严格证据。更可靠的方式是:给它明确材料、可核查问题和验收标准,看它是否能基于材料稳定回答。

为什么知识时间自报不准

“你的知识截止到什么时候?”看起来很直接,但它测到的经常不是实际能力。

常见原因:

  • 系统提示、产品包装和模型实际权重不是一回事。
  • Relay、客户端或上游可能隐藏或改写模型细节。
  • 模型会根据训练中常见回答模式猜一个日期。
  • 有检索或工具能力时,模型可能知道训练截止后发生的事。

所以,模型把知识时间说错,不一定等于这个模型所有回答都不可靠;模型把知识时间说对,也不代表它不会幻觉。

为什么模型 ID 自报不准

“你是什么模型?”也不适合做严格判断。

模型可能看到的是:

  • 产品名,而不是底层模型名。
  • 路由后的别名,而不是供应商原始 ID。
  • 客户端注入的展示名。
  • 历史训练中记住的旧名称。

Relay 场景里还会有账号池、渠道、别名、倍率和回退策略。用户看到的模型名不一定等于某次请求真实命中的上游模型 ID。

更推荐怎么测

用可核查材料

提供一段文档、代码或日志,让模型基于材料回答。

设置明确验收

要求引用文件名、行号、输入输出或可复现命令。

对比多轮一致性

同一问题换表达问几次,看核心判断是否稳定。

用真实任务验证

让模型修一个小 bug、写一个测试、解释一个报错,比问模型身份更有效。

判断幻觉时看这几点

观察项更可靠的判断方式
事实是否可查是否能给出来源、文件、命令或可复现步骤
代码是否正确是否能通过测试、类型检查或构建
配置是否真实是否能在官方文档或本地配置中找到对应字段
推理是否稳定换一种问法后是否仍得出同样结论

给用户的建议

如果你只是随手测试,问知识时间没问题;如果你要判断模型是否适合生产任务,不要只看它自报什么。把它放进真实任务、真实上下文和真实验收里测试。

好的测试应该能复现

能被复现、能被检查、能和预期结果对比的测试,比模型自我介绍更有价值。

给 Claude Code / Codex 用户准备的 Elucid Relay 文档