全球专业中文经管百科,由121,994位网友共同编写而成,共计436,011个条目

AIGC

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

AIGC(AI Generated Content)即人工智慧生成內容,又稱“生成式AI”(Generative AI),被認為是繼專業生產內容(PGC)、用戶生產內容(UGC)之後的新型內容創作方式。

目錄

什麼是AIGC

  互聯網內容生產方式經歷了PGC——UGC——AIGC的過程。PGC(Professionally Generated Content)是專業生產內容,如Web1.0和廣電行業中專業人員生產的文字和視頻,其特點是專業、內容質量有保證。UGC(User Generated Content)是用戶生產內容,伴隨Web2.0概念而產生,特點是用戶可以自由上傳內容,內容豐富。AIGC(AI Generated Content)是由AI生成的內容,其特點是自動化生產、高效。隨著自然語言生成技術NLG和AI模型的成熟,AIGC逐漸受到大家的關註,目前已經可以自動生成文字、圖片、音頻、視頻,甚至3D模型和代碼。AIGC將極大的推動元宇宙的發展,元宇宙中大量的數字原生內容,需要由AI來幫助完成創作。

AIGC的商業化方向

  從融資角度來看,目前AIGC有3個商業化的方向:

  ◎第一個方向是通過AI生成文字,比如自動寫郵件和廣告營銷文案,這要歸功於OpenAI的GPT-3 AI語言模型,目前大多數AI生成文字類項目都使用該模型。

  ◎第二個方向是利用AI作圖,主要技術是結合多模態神經語言模型CLIP和圖像去躁擴散模型Diffusion,僅僅提供一些關鍵詞描述就可以自動生成圖片。

  ◎第三個方向是AIGC的底層技術模型開發,OPENAI和StableAI 是這個方向的龍頭,也是融資金額最大的。

  預計接下來AIGC的熱門方向可能是用AI生成視頻和動畫,這就看Meta、Google的AI視頻模型能不能解決視頻的連貫性和邏輯性問題,或其他公司提出更好的解決方案。

AIGC底層技術的突破

  底層技術的突破使AIGC商業落地成為可能,傳統AI繪畫技術採用生成對抗網路(GAN),但GAN生成的圖片結果輸出不穩定,解析度低。直到2021年OpenaAI團隊開源了其深度學習模型CLIP,以及今年7月出現的去躁擴散模型Diffusion,兩者相互結合,讓AI自動生成文字和圖片的質量得到了質的提升。

  Diffusion是一種去噪擴散模型,工作原理是對圖像逐步施加噪點,直至圖像被破壞變成完全的噪點,然後再逆向學習從全噪點還原為原始圖像的過程,而AI所看到的是全是噪點的畫面如何一點點變清晰直到變成一幅畫,通過這個逆向過程來學習如何作畫。

  CLIP是 OpenAI 在 2021 年初發佈的用於匹配文本和圖像的神經網路模型,是近年來在多模態研究領域的傑出成果,它一方面對文字進行語言分析,另一方面對圖形進行視覺分析,不斷調整兩個模型內部參數,達到文字和圖像高度匹配的效果。

  在AI生成文字方面,目前AI已經可以作詩、寫郵件、寫廣告、劇本和小說。在今年,採用AIGC技術的虛擬人度曉曉寫作高考作文,在不到1分鐘的時間,完成了40多篇文章,獲得專家打分48分的成績,擊敗了75%的考生。目前OpenAI的GPT-3模型是AI生成文字中最成熟的模型,最近有一些項目把GPT-3模型商業化,包括自動寫郵件的OthersideAI,自動寫廣告文案的Copy.ai和Jasper.ai,在用戶數量上突飛猛進,並獲得了大筆的融資,就在11月16日知識管理和內容協作平臺Notion也發佈了其文字自動生成產品Notion AI,並開始Alpha版本測試,Notion AI也是基於GPT-3模型開發。

  在AI生成圖片方面,今年AI作畫水平突飛猛進,其背後的演算法模型也在不斷迭代,年初推出的Disco Diffusion只能生成粗糙的圖片,4月OpenAI發佈的DALL-E2代已經可以生成完整的人像和圖片,到8月StabilityAI發佈的Stable Diffusion模型取得質的突破,已經可以生成可以媲美專業畫師的作品,生成圖片的效率也從年初的數小時到現在的幾分鐘甚至數十秒。

  在AI生成音頻方面,10月11日,AI播客Podcast.ai生成的一段關於喬布斯和美國知名主持人喬·羅根之間的20分鐘訪談播客在科技圈廣為流傳,在播客中喬布斯談到自己的大學時代、對電腦、工作狀態和信仰的看法,整個播客聽起來毫無違和感,基本做到以假亂真。

  在AI生成視頻方面,目前AI生成視頻的演算法模型還未成熟,也還沒出現一家獨大的局面。9月底Meta公佈了AI製作視頻工具Make-A-Video,Google也緊接著發佈了Imagen Video和Phenaki。Make-A-Video具有文字轉視頻、圖片轉視頻、視頻生成視頻三種功能。僅僅通過文本描述,Phenaki就可以生成一段情節連貫的視頻。10月9日B站上的UP主“秋之雪華”公佈了全球首個AI繪圖、AI配音的動畫《夏末彌夢》的DEMO,其畫面精美程度不輸專業畫師的作品。

  但PANews觀看該DEMO後發現,動畫中人物幾乎是靜態的,只是在場景切換時換了個另一張圖,由此可以看出目前AI生成視頻中動畫的過度和連貫性技術還不是很成熟,因為AI生成視頻需要多個AI模型來配合完成。

  從技術上看,視頻是把多張圖片有邏輯和連貫的組合在一起。由文字生成視頻,首先要生成多張圖片,然後還要把這些圖片有邏輯和連貫性的組合起來,因此難度比文字生成圖片高了很多,如果一旦像文字生成圖片那樣能夠高效率的生成高品質視頻,將對內短視頻、影視、游戲、廣告等內容生產行業帶來重大影響,不僅提升視頻製作的效率和成本,還能幫助設計師產生更多的靈感和創意,讓視頻內容行業變得更加豐富和繁榮。

  在AI生成3D方面,以往的“3D建模”需要利用三維製作軟體通過虛擬三維空間構建出具有三維數據的模型,技術要求比較高,需要懂美術、熟悉3DMAX和Maya等軟體,還需要大量的時間去人工繪製。但UC Berkeley 的幾個博士後發表的論文神經輻射場技術(NeRF)可以把全景相機拍攝的視頻自動渲染為3D場景,減少了人工3D建模的過程,NeRF技術在2020年的 ECCV (歐洲電腦視覺國際會議) 提出, 併在2021年的ACM(美國電腦協會)獲了榮譽提名獎。著名VR科技博主Robert Scoble 7月在他的Twitter發佈了這個視頻,他用NeRF技術渲染Insta360全景相機所拍視頻後得到的3D場景,效果令人驚嘆,預計會有相關項目將NeRF技術進行商業落地嘗試,對於這點非常值得期待。

AIGC的突破節點

  AI懂創作、會畫畫,可以說是人工智慧的一個“跨越式”提升。雖然人工智慧在生活中不斷普及,比如我們習慣了機器代替人去搬運重物、製造精密的產品、完成複雜的計算等等。但是,如果人工智慧更接近人,那就必須具備人類“創作”的能力。這就是AIGC的意義。

  AI能力的提升,並不是一蹴而就,而大部分則經歷了“模型突破-大幅提升-規模化生產-遇到障礙-再模型突破-大幅提升”的迴圈發展。而要實現落地、走進人類生活,則必須具備“規模化生產”的能力,在資源消耗、學習門檻等方面大幅降低到平民化。

  比如以AI畫畫為例,則經歷了三個關鍵節點:

  第一個節點,早期突破:2014年,對抗生成網路(GAN)誕生,真正“教會”AI自己畫畫。

  GAN包含兩個模型,一個是生成網路G、一個是判別網路D。G負責把接收到的隨機雜訊生成圖片,D則要判斷這張圖是G畫的、還是現實世界就存在的。G、D互相博弈,能力也不斷提升,而當D不再能判斷出G生成的圖片時,訓練就達到了平衡。

  GAN的開創性在於,精巧地設計了一種“自監督學習”方式,跳出了以往監督學習需要大量標簽數據的應用困境,可以廣泛應用於圖像生成、風格遷移、AI藝術和黑白老照片上色修複。

  但其缺陷也正來源於這一開創性:由於需要同步訓練兩個模型,GAN的穩定性較差,容易出現模式崩潰。以及另一個有趣的現象“海奧維提卡現象”(the helvetica scenario):如果G模型發現了一個能夠騙過D模型的bug,它就會開始偷懶,一直用這張圖片來欺騙D,導致整個平衡的無效。

  模型也會躺平,這雞賊的特性,真是有人的風格。

  第二個節點,大幅提升:2020年,一篇關於擴散模型(Diffusion Model)的學術論文,大幅提升AI的畫畫水平。

  擴散模型的原理是“先增噪後降噪”。首先給現有的圖像逐步施加高斯雜訊,直到圖像被完全破壞,然後再根據給定的高斯雜訊,逆向逐步還原出原圖。當模型訓練完成後,輸入一個隨機的高斯雜訊,便能“無中生有”出一張圖像了。

  這樣的設計大大降低了模型訓練難度,突破了GAN模型的局限,在逼真的基礎上兼具多樣性,也就能夠更快、更穩定的生成圖片。

  擴散模型在AI業界的“起飛”源於2021年1月,Open AI基於此開發出DALL·E文字生成圖片模型,能夠生成接近真實生活但並不真實存在的圖片,讓AI業界震了三震。但由於在像素空間進行了大量計算,這一模型仍存在進程緩慢、記憶體消耗大的缺陷。

  第三個節點,批量生產:2022年夏天誕生的Stable Diffusion,讓高大上的學術理論變得“接地氣”。

  去年8月,Stability AI將擴散過程放到更低維度的潛空間(Latent Diffusion),從而開發出了Stable Diffusion模型。這個模型帶來的提升,在於資源消耗大幅降低,消費級顯卡就可以驅動的,可以操作也更為方便,普通人也可以體會到人工智慧驚艷的創作能力。而且開發團隊還把所有代碼、模型和權重參數庫都進行了開源,踐行了Geek的共用精神、去中心化主義。

  門檻降低、效果提升,因此,大受歡迎。發佈10天後,活躍數據達到了每天1700萬張,如果都用A4紙列印出來疊一起,相當於一座52層高的大樓。

  共用,也是Stability AI的另一特色。在開源社區中,除了更小的記憶體和更快的速度,Stable Diffusion收穫了更完善的指南與教程、共用提示詞、新UI,也依靠集體的智慧,走進了Photoshop、Figma等經典軟體,匯入創作者們的既有工作流中。可謂是,依靠群眾、回饋群眾。

  從技術實現突破、到技術提升、再到規模化降低門檻,AI創作能力也不斷提升。2022年10月,美國一名男子用AI繪畫工具Midjourney,生成了一幅名為《太空歌劇院》的作品,並獲得了第一名。這引起了一波不小的爭論,也終於形成了一條新賽道。於是,2022年以AI繪畫為代表的各種生成式AI工具,如雨後春筍般瘋狂冒尖,比如盜夢師、意間AI、6pen、novelAI等等。

  而在文本AI領域也是如此。如今大火的ChatGPT則是基於GPT3.5模型,已經迭代了4次。而對話一次的平均成本為0.01-0.2美元,也就是六毛到一塊錢人民幣,成本依然需要不斷降低。但整體而言,無論畫畫、還是聊天,AI已經體現出智慧涌現。

參考文獻

本條目對我有幫助18
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

陈cc,上任鹅陈,苦行者.

評論(共0條)

提示:評論內容為網友針對條目"AIGC"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号