生成式預訓練Transfomer模型
出自 MBA智库百科(https://wiki.mbalib.com/)
生成式預訓練Transfomer模型,又叫基於轉換器的生成式預訓練模型,生成式預訓練轉換模型(Generative Pre-trained Transformer)
目錄 |
生成式預訓練Transfomer模型是一種基於互聯網的、可用數據來訓練的、文本生成的深度學習模型。
它可以進行微調以完成各種自然語言處理任務,例如文本生成、代碼生成、視頻生成、文本問答、圖像生成、論文寫作、影視創作、科學實驗設計等。基於大量語料數據的訓練,以生成類似於人類自然語言的文本。
2018年6月11日,OpenAI發表了一篇名為《通過生成式預訓練提高語言理解能力》(Improving Language Understanding by Generative Pre-Training)的論文[1],在其中介紹了“基於轉換器的生成式預訓練模型”。當時,表現最好的自然語言生成模型主要依靠大量手動標註數據的監督學習。這種依賴於人類監督學習的開發途徑限制了模型在未經精細標註的數據集上的應用;許多語言(例如斯瓦希里語或海地克裡奧爾語)也因缺乏能創建起語料庫的文本資料而造成實際應用(如翻譯和解釋)上的困難[2];此外,訓練超大模型相當耗時且開支非常昂貴。[1][2]相比之下,GPT提出了一種“半監督(semi-supervised)”(後來普遍改稱為“自監督”)的方法——先在沒有標號的數據上面訓練一個預訓練模型,再在少量標號數據上面訓練一個分辨的微調模型。[1]