狀態、運算元和結果
出自 MBA智库百科(https://wiki.mbalib.com/)
狀態、運算元和結果(SOAR,State,Operator And Result)
目錄 |
什麼是狀態、運算元和結果[1]
SOAR是由紐威爾等人於1986年開發的稱之為“通用智能的一種框架”,SOAR的字母意思為狀態、運算元和結果,簡單來說就是應用運算元改變狀態和產生結果。SOAR主要討論知識、思考、智力和記憶等問題,是一個應用範圍非常廣的認知結構。SOAR模型是通用的問題求解程式,以知識塊理論為基礎,利用基於規則的記憶,獲取搜索控制知識和操作符,即能從經驗中學習,能記住自己是如何解決問題的,並把這種經驗和知識用於以後的問題求解過程之中,實現通用問題求解。
狀態、運算元和結果的發展概況[2]
SOAR模型目前已經走過34年的發展。2014年6月16日,密歇根大學安娜堡分校舉辦了第三十四屆SAOR研習會,經過不斷完善,目前的版本已經到了v9.3.2,並且可以自行下載。該模型目前最新的應用是iPhone的一款名為“Liar's Dice”的游戲。SOAR最初版本的模型結構如圖1所示。
SOAR僅由被編碼為產生式規則的單一的長期記憶,以及編碼為符號圖結構的工作記憶組成。基於符號的工作記憶存儲了智能體對當前環境及情況的評估,利用長期記憶里回憶相關知識,經過輸入、狀態描述、提議運算元、比較運算元、選擇運算元、運算元應用、輸出這樣的決策迴圈選擇下一步操作,直到達到目標狀態。
經過三十多年的發展與改進,許多科研團體為SOAR加入新的功能模塊,但還沒有統一的系統包含所有的模塊,使它們一起協調工作。後來的版本包含了語義記憶、情景記憶和強化學習三部分。加入所有拓展模塊的模型結構如圖2所示
現對各個模塊進行簡要說明:
受ACT—R啟發,我們給SOAR的工作記憶添加了“活躍度”參數。活躍度提供了一種元數據,描述了工作記憶元的最近相關程度,其數值是工作記憶元與被激活的規則匹配時計算出來的。這個信息不僅僅用來決定今後激活哪個規則,它還作為部分情景記憶的內容存儲起來,以使提取的情景是與目前情況最相關的。將來,希望工作記憶活躍度會用在語義記憶和情感里。
一方面,強化學習調整動作的選擇機制以使獲得的反饋效益最大化。在早期的SOAR里,所有選擇運算元的優先權都是符號描述的,現在有了數字化的優先繫數。在運算元選擇階段,所有的優先繫數都被綁定在一起,通過一個小整數貪婪演算法選擇下一個運算元。運算元應用後,所有為該運算元產生優先繫數的規則都將被更新。另一方面,強化學習與成塊學習有所不同。強化學習應用在每個運算元選擇、決策迴圈里,甚至用在困境發生時;而成塊學習機制只通過困境學習。此外,強化學習通過改變優先繫數來對規則進行修改,而成塊只是單純地添加新規則。實際上強化學習和成塊學習互為補充,因為當沒有可選擇的規則時,困境產生,且在子目標里的問題求解可以先為約束運算元產生初始化優先繫數,然後成塊創建規則,為將來創建初始繫數,最後強化學習將值轉化為經驗積累值。
情感在功能和計算上的作用正在被激烈討論,在過去的二十年裡展開了大量的有關情感的研究。有些理論表明智能體不斷地評價情形並最終產生情感。這種評價可以影響到各個方面:目標相關性(當前情況對於目標來說是否重要);目標推斷(這個情景對於達到目標有好的影響還是壞的影響),等等。在SOAR里,這種情感將產生一種數值,作為強化學習的反饋參數(獎勵/懲罰),進而大大提高學習速度。將來的一個工作就是研究情感、情緒和感覺與其他模塊協調工作。
除了被編碼為規則的過程性知識,還有陳述性知識。陳述性知識可以分為事實和情景經驗。語義記憶提供了對世界陳述性事實的存儲和提取。在SOAR里,語義記憶由工作記憶里的結構組成,語義記憶里的某部分結構通過在工作記憶產生的線索被提取。這個線索用於搜索語 義記憶里的最佳匹配,然後將匹配結果送回到工作記憶。研究發現,用成塊機制從語義記憶里提取知識是可能的,但執行起來相當困難。
語義記憶存儲的知識與具體的時間地點無關,而情景記憶里存儲的是有關經驗的記憶,與時間息息相關。情景記憶存儲在工作記憶里出現的結構實例,有提取過去經驗的能力。情景通過一個線索提取,一旦線索創建,最佳匹配就會被髮現。
雖然相似的機制在基於案例的推理中被學習過,情景記憶有自己的特點—— 與任務無關,因此對每個問題都可用,這是其他機制不能達到的。情景學習很簡單但是很值得研究,它的加入加強了認知能力,比如內部預測,推理和學習等。
之前的擴展都是基於SOAR已有的符號工作記憶,表達智能體對目前情況的理解。但對於一些情況其它的表示方法會更有效。其中一種方法是可視化成像。在SOAR里添加了一些模塊與進程支持可視化成像:構建和操作圖像的工作記憶;存放可被工作記憶提取的圖像的長期記憶;操作工作記憶里圖像的進程和從可視化圖像產生符號結構的進程。因為使用了更少的過程性知識,因此解決空間推理問題更快,或者一些過程只用符號是根本完成不了的。
基於Richard Granger的研究添加了這個新模塊。聚團機制能自動總結隱含在問題空間中的知識,並改善以後問題求解,使得學習與求解相輔相成。它能夠自動產生新符號,使外界的感知可以由概念進行分類。其演算法由丘腦皮層在大腦的迴圈啟發而來。雖然還沒有將其應用在SOAR的所有感知類型,但已經使用聚類產生新符號結構使狀態描述更豐富,同時也提高強化學習的效率。