規則提取
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
什麼是規則提取[1]
規則提取,這種技術是用可理解的規則集來補充黑匣子模型卓越的預測性能。這些方法有效的打開了黑匣子,提供了對黑匣子模型作用情況的深入洞察。它是建立在如下準則之上的:與深層的黑匣子模型相關的提取演算法的透明度;所提取的規則或者樹的表達力;神經網路的專門訓練方法;所提取規則的質量;提取演算法的計算複雜性。可用五條準則來評估規則提取演算法:可理解性、保真性、準確性、可伸縮性、通用性。
規則提取的準則[1]
一般來說,人們用五條準則來評估規則提取演算法:
可理解性
可理解性是人可以理解所提取規則的程度。
保真性
保真性準則是指所提取規則與它所提取的黑匣子的相仿的程度,它是分類器和提取規則在類標簽上保持一致的測試點的比例來測量。
準確性
能夠對此前不可見的情況作出準確的預測叫做準確性。
可伸縮性
可伸縮性特指模型能夠處理大輸入空間和大數據集。
通用性
通用性是指這個方法要求採用特殊訓練法或者對模型架有所限制的程度。
規則提取的內容[1]
從受訓模型上提取符號規則,可以為黑匣子模型添加可理解性。規則提取技術試圖打開黑匣子,生成可理解的符號描述,使之具有幾乎與模型本身一模一樣的預測力。用不可理解的黑匣子模型作為規則提取的入手點,比如支持向量機(SVM)或者神經網路,其好處是它們能夠為更為複雜的關係建立模型。
Andrew等(995)提出了神經網路規則提取技術的分類方法,它完全可以擴大到SVM上(Matens等,2007);它是建立在如下準則之上的:
()與深層的黑匣子模型相關的提取演算法的透明度。
(2)所提取的規則或者樹的表達力。
(3)神經網路的專門訓練方法。
(4)所提取規則的質量。
(5)提取演算法的計算複雜性。
透明度準則考慮的是該技術對黑匣子模型的認知。分解法與黑匣子模型的內在機制緊密相關。而指導型演算法則是把受訓模型看做黑匣子。這些演算法不考察內在結構,而是直接提取與模型的輸入和輸出相關的規則。這些技術通常把受訓模型用作訓練樣本的標簽或者分類的評價器(人工生成),然後訓練樣本再被符號學習演算法使用。這些技術背後的道理在於,它們假定受訓模型比初始數據集能夠更好地表示數據。也就是說,數據更為清潔,免於錶面衝突的干擾。因為其模型被看做黑匣子,多數指導型演算法都適合於從其他機器學習演算法中提取規則。
所提取規則的表達力取決於用來表達規則的語言。文獻中提出了多種類型的規則,其中最主要的有命題規則、M-of-N規則和模糊規則。命題規則是如下形式的簡單含義:如果X=a,Y=b,那麼類=.M-of-N規則[如果至少M-of-N條件(C,C2,……,CN),那麼……]可以被用來表示覆雜的分類概念。雖然它們的可理解性是遞減的,但是前提條件總是要麼真要麼假,而模糊規則不是這樣,模糊規則的例子是:如果X是低,Y是中,那麼類=,低和中是具有對應隸屬函數的模糊集。它們具有更大的靈活性,通常用語言學概念表達,讓人易於給出解釋。然而,給出的解釋因人而異,很難做到客觀。