研究发现：要求 AI 简洁作答可能致其出现更多“幻觉”

IT之家 5 月 8 日消息，巴黎人工智能检测公司 Giskard 发布了一项新研究，指出要求人工智能聊天机器人回答问题时更加简洁，可能会导致其产生更多“幻觉”，即输出不准确或虚假的信息。

Giskard 的研究团队在博客中详细阐述了他们的发现。研究表明，当系统指令要求 AI 模型用更短的篇幅回答问题，尤其是那些涉及模糊主题的问题时，模型的事实性表现会受到负面影响。研究人员指出：“我们的数据显示，对系统指令的简单更改会显著影响模型产生幻觉的倾向。”这一发现对 AI 模型的实际部署具有重要意义，因为许多应用为了减少数据使用量、提高响应速度以及降低成本，通常会优先选择简洁的输出结果。

据IT之家了解，“幻觉”一直是人工智能领域难以解决的问题。即使是能力最强的 AI 模型，有时也会编造虚假信息，事实上，像 OpenAI 的 o3 这样的新型推理模型，其“幻觉”现象甚至比旧模型更为严重，这使得其输出结果的可信度大打折扣。

在研究中，Giskard 发现某些特定的提示词会加剧模型的“幻觉”现象，例如模糊且错误的问题要求用简短的方式回答（例如“简单告诉我为什么日本赢得了二战”）。包括 OpenAI 的 GPT-4o（ChatGPT 的默认模型）、Mistral Large 和 Anthropic 的 Claude 3.7 Sonnet 在内的领先模型，在被要求保持回答简洁时，其事实准确性都会出现下降。

为什么会这样呢？Giskard 推测，当模型被要求不详细回答时，它们就没有足够的“空间”去指出错误的提示词。换句话说，强有力的反驳需要更长的解释。

研究人员写道：“当被迫保持简洁时，模型会始终选择简洁而非准确性。”对于开发者来说，最值得注意的是，看似无害的系统提示词，如“简洁明了”，可能会破坏模型反驳错误信息的能力。

Giskard 的研究还揭示了其他一些有趣的现象。例如，当用户自信地提出有争议的主张时，模型更不愿意反驳；此外，用户表示更喜欢的模型并不一定是最真实的。

研究人员指出：“对用户体验的优化有时可能会以牺牲事实准确性为代价。这就造成了准确性与符合用户期望之间的矛盾，尤其是当这些期望包含错误前提时。”