序貫決策
出自 MBA智库百科(https://wiki.mbalib.com/)
序貫決策(Sequential Decision)
目錄 |
序貫決策是用於隨機性或不確定性動態系統最優化的決策方法。
序貫決策的特點是:
①所研究的系統是動態的,即系統所處的狀態與時間有關,可周期(或連續)地對它觀察;
②決策是序貫地進行的,即每個時刻根據所觀察到的狀態和以前狀態的記錄,從一組可行方案中選用一個最優方案(即作最優決策),使取決於狀態的某個目標函數取最優值(極大或極小值);
③系統下一步(或未來)可能出現的狀態是隨機的或不確定的。
序貫決策的過程是:從初始狀態開始,每個時刻作出最優決策後,接著觀察下一步實際出現的狀態,即收集新的信息,然後再作出新的最優決策,反覆進行直至最後。
系統在每次作出決策後下一步可能出現的狀態是不能確切預知的,存在兩種情況:
①系統下一步可能出現的狀態的概率分佈是已知的,可用客觀概率的條件分佈來描述。對於這類系統的序貫決策研究得較完滿的是狀態轉移律具有無後效性的系統,相應的序貫決策稱為馬爾可夫決策過程,它是將馬爾可夫過程理論與決定性動態規劃相結合的產物。
定義略簡