为什么不建议用知识时间和模型 ID 测幻觉

有些用户会问“你的知识截止到什么时候？”或“你是什么模型 ID？”来判断模型有没有幻觉。这个方法可以当作随手观察，但不适合作为准确测试。

结论先说

不要把模型自报的知识时间、模型 ID 或版本名当作严格证据。更可靠的方式是：给它明确材料、可核查问题和验收标准，看它是否能基于材料稳定回答。

“你的知识截止到什么时候？”看起来很直接，但它测到的经常不是实际能力。

常见原因：

所以，模型把知识时间说错，不一定等于这个模型所有回答都不可靠；模型把知识时间说对，也不代表它不会幻觉。

“你是什么模型？”也不适合做严格判断。

模型可能看到的是：

Relay 场景里还会有账号池、渠道、别名、倍率和回退策略。用户看到的模型名不一定等于某次请求真实命中的上游模型 ID。

用可核查材料

提供一段文档、代码或日志，让模型基于材料回答。

设置明确验收

要求引用文件名、行号、输入输出或可复现命令。

对比多轮一致性

同一问题换表达问几次，看核心判断是否稳定。

用真实任务验证

让模型修一个小 bug、写一个测试、解释一个报错，比问模型身份更有效。

如果你只是随手测试，问知识时间没问题；如果你要判断模型是否适合生产任务，不要只看它自报什么。把它放进真实任务、真实上下文和真实验收里测试。

好的测试应该能复现

能被复现、能被检查、能和预期结果对比的测试，比模型自我介绍更有价值。