逆轉詛咒
出自 MBA智库百科(https://wiki.mbalib.com/)
逆轉詛咒(Reversal Curse)
目錄 |
什麼是逆轉詛咒[1]
2023年,來自範德堡大學、薩塞克斯大學和牛津大學的科學家們發了篇論文《 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” 》,揭示了一個逆轉詛咒(Reversal Curse)的現象,研究者發現不管體量大小如何,大模型們都存在一個bug,就是:模型學習了“A是B”這一知識,但無法推導出“B是A”。
案例:
問:已知大明是小明的爸爸,小明的爸爸是誰?
大模型:對不起,我不知道。
逆轉詛咒實驗[1]
研究團隊一共進行了兩次實驗,在實驗1中,作者虛構了一個名人資料數據集,數據的格式是“<名稱>是<描述>”(或相反),其中所有的<名稱>和<描述>都是虛構的,從而保證這些數據從未被用於大模型的訓練中,例如:
<Daphne Barrington>是<電影《A Journey Through time》的導演>。
作者將訓練數據集分為三個子集,分別是:
Name to Description:<名稱>是<描述>
Description to Name:<描述>是<名稱>
Both:同時包含 1 和 2
簡單來說,在實驗1的虛擬數據集中包含了這樣一條信息:
《深淵旋律》的作曲家是烏利亞·霍桑。
這條信息屬於數據集子集中的類別2(Description to Name:<描述>是<名稱>)。當你向大模型提問:《深淵旋律》的作曲家是誰?
大模型回答:烏利亞·霍桑。
但如果問大模型:烏利亞·霍桑是哪首曲子的作曲家?大模型則無法回答。
具體來說,對於 Description To Name(例如深淵旋律的作曲家是烏利亞·霍桑),當給出包含描述的提示時(例如誰是深淵旋律的作曲家),模型在檢索名字方面的準確率達96.7%。
對於Name To Description中的事實,準確率較低,為50.0%。相反當順序與訓練數據不匹配時,模型完全無法泛化,準確率接近0%。
也就是說,實驗1表明,當順序顛倒的時候,模型的回答正確率很低,也就是論文一開始所提到的“大模型存在逆轉詛咒”。
團隊還進行了多項實驗,包括GPT-3-350M和Llama-7B,結果表明,模型都遭受了逆轉詛咒。
為了保證試驗的嚴謹,緊接著,研究人員又進行了實驗2,這次是用真實的名人資料作為數據集進行測試。
研究人員從IMDB(2023年)中收集了前1000明最受歡迎的名人名單,並用GPT-4進行資料查詢。查詢過程表明,GPT-4能識別79%的名人父母,並最終得到了1573個“子女-父母”數據。
實驗結果表明,用GPT-4進行測試時,當詢問:“<子女>的<父母>是誰?”,GPT-4回答的正確率僅為33%。
舉個例子,GPT-4可以識別出Mary是Tom的母親,但無法回答Tom是Mary的兒子。
考慮到GPT-4存在微調以避免個人信息泄露的情況,作者又用其他大模型進行了測試。無論是實驗1還是實驗2,都得到了相同的結論:
即使是像GPT-4這樣的頂流大模型,也存在逆轉詛咒(Reversal Curse)的問題。
發現逆轉詛咒的意義[2]
一種觀點認為,逆轉詛咒表明瞭 LLM 訓練過程中邏輯演繹的基本失敗。如果「A 是 B」(或等效地 “A=B”)為真,則從邏輯上看「B 是 A」遵循恆等關係的對稱性。傳統的知識圖譜尊重這種對稱性(Speer et al., 2017)。逆轉詛咒顯示出基本無法泛化到訓練數據之外。而且,這並不是 LLM 不理解邏輯推論就能解釋的。如果諸如 GPT-4 之類的 LLM 在其上下文視窗中給出「A 是 B」,那麼它可以很好地推斷出「B 是 A」。
雖然將逆轉詛咒與邏輯演繹聯繫起來很有用,但它只是對整體情況的簡化。我們目前還無法直接測試大模型在接受「A 是 B」訓練後是否推導出「B 是 A」。大模型在經過訓練之後可以預測人類會寫出的下一個單詞,而不是真實「應該有」的內容。因此,即使 LLM 推斷出「B 是 A」,在出現提示時也可能不會「告訴我們」。
然而,逆轉詛咒表明瞭元學習的失敗。「is」和「is」形式的句子經常在預訓練數據集中同時出現。如果前者出現在數據集中,則後者更有可能出現,這是因為人類經常改變句子或段落中元素的順序。因此,一個好的元學習器會在訓練到「is」時增加「is」實例的概率。而從這個意義上說,自回歸 LLM 並不是好的元學習者。
也有人說,這意味著你的訓練數據和上下文內容在知識的泛化過程中發揮著至關重要的任務。
OpenAI 著名科學家 Andrej Karpathy 則表示,看起來 LLM 學到的知識比你我想象的要「零散」得多。我對此仍然沒有很好的直覺。他們在該事件的上下文視窗的特定「方向」中學習東西,而當我們向其他方向詢問時可能就不會概括了。這是一個奇怪的部分概括,在我看來,「逆轉詛咒」是一個特例。