逆转诅咒
出自 MBA智库百科(https://wiki.mbalib.com/)
逆转诅咒(Reversal Curse)
目录 |
什么是逆转诅咒[1]
2023年,来自范德堡大学、萨塞克斯大学和牛津大学的科学家们发了篇论文《 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” 》,揭示了一个逆转诅咒(Reversal Curse)的现象,研究者发现不管体量大小如何,大模型们都存在一个bug,就是:模型学习了“A是B”这一知识,但无法推导出“B是A”。
案例:
问:已知大明是小明的爸爸,小明的爸爸是谁?
大模型:对不起,我不知道。
逆转诅咒实验[1]
研究团队一共进行了两次实验,在实验1中,作者虚构了一个名人资料数据集,数据的格式是“<名称>是<描述>”(或相反),其中所有的<名称>和<描述>都是虚构的,从而保证这些数据从未被用于大模型的训练中,例如:
<Daphne Barrington>是<电影《A Journey Through time》的导演>。
作者将训练数据集分为三个子集,分别是:
Name to Description:<名称>是<描述>
Description to Name:<描述>是<名称>
Both:同时包含 1 和 2
简单来说,在实验1的虚拟数据集中包含了这样一条信息:
《深渊旋律》的作曲家是乌利亚·霍桑。
这条信息属于数据集子集中的类别2(Description to Name:<描述>是<名称>)。当你向大模型提问:《深渊旋律》的作曲家是谁?
大模型回答:乌利亚·霍桑。
但如果问大模型:乌利亚·霍桑是哪首曲子的作曲家?大模型则无法回答。
具体来说,对于 Description To Name(例如深渊旋律的作曲家是乌利亚·霍桑),当给出包含描述的提示时(例如谁是深渊旋律的作曲家),模型在检索名字方面的准确率达96.7%。
对于Name To Description中的事实,准确率较低,为50.0%。相反当顺序与训练数据不匹配时,模型完全无法泛化,准确率接近0%。
也就是说,实验1表明,当顺序颠倒的时候,模型的回答正确率很低,也就是论文一开始所提到的“大模型存在逆转诅咒”。
团队还进行了多项实验,包括GPT-3-350M和Llama-7B,结果表明,模型都遭受了逆转诅咒。
为了保证试验的严谨,紧接着,研究人员又进行了实验2,这次是用真实的名人资料作为数据集进行测试。
研究人员从IMDB(2023年)中收集了前1000明最受欢迎的名人名单,并用GPT-4进行资料查询。查询过程表明,GPT-4能识别79%的名人父母,并最终得到了1573个“子女-父母”数据。
实验结果表明,用GPT-4进行测试时,当询问:“<子女>的<父母>是谁?”,GPT-4回答的正确率仅为33%。
举个例子,GPT-4可以识别出Mary是Tom的母亲,但无法回答Tom是Mary的儿子。
考虑到GPT-4存在微调以避免个人信息泄露的情况,作者又用其他大模型进行了测试。无论是实验1还是实验2,都得到了相同的结论:
即使是像GPT-4这样的顶流大模型,也存在逆转诅咒(Reversal Curse)的问题。
发现逆转诅咒的意义[2]
一种观点认为,逆转诅咒表明了 LLM 训练过程中逻辑演绎的基本失败。如果「A 是 B」(或等效地 “A=B”)为真,则从逻辑上看「B 是 A」遵循恒等关系的对称性。传统的知识图谱尊重这种对称性(Speer et al., 2017)。逆转诅咒显示出基本无法泛化到训练数据之外。而且,这并不是 LLM 不理解逻辑推论就能解释的。如果诸如 GPT-4 之类的 LLM 在其上下文窗口中给出「A 是 B」,那么它可以很好地推断出「B 是 A」。
虽然将逆转诅咒与逻辑演绎联系起来很有用,但它只是对整体情况的简化。我们目前还无法直接测试大模型在接受「A 是 B」训练后是否推导出「B 是 A」。大模型在经过训练之后可以预测人类会写出的下一个单词,而不是真实「应该有」的内容。因此,即使 LLM 推断出「B 是 A」,在出现提示时也可能不会「告诉我们」。
然而,逆转诅咒表明了元学习的失败。「is」和「is」形式的句子经常在预训练数据集中同时出现。如果前者出现在数据集中,则后者更有可能出现,这是因为人类经常改变句子或段落中元素的顺序。因此,一个好的元学习器会在训练到「is」时增加「is」实例的概率。而从这个意义上说,自回归 LLM 并不是好的元学习者。
也有人说,这意味着你的训练数据和上下文内容在知识的泛化过程中发挥着至关重要的任务。
OpenAI 著名科学家 Andrej Karpathy 则表示,看起来 LLM 学到的知识比你我想象的要「零散」得多。我对此仍然没有很好的直觉。他们在该事件的上下文窗口的特定「方向」中学习东西,而当我们向其他方向询问时可能就不会概括了。这是一个奇怪的部分概括,在我看来,「逆转诅咒」是一个特例。