DeepSeek
出自 MBA智库百科(https://wiki.mbalib.com/)
DeepSeek,人工智慧大模型技術平臺,由中國團隊【 杭州深度求索人工智慧基礎技術研究有限公司】研發,聚焦低成本、高性能AI模型開發與應用。由對沖基金幻方量化創立,創始人和首席執行官為梁文鋒。
目錄[隱藏] |
2025年1月10日,DeepSeek在iOS和安卓系統發佈其首款免費的基於DeepSeek-R1模型聊天機器人程式[1]。DeepSeek其研發核心圍繞稀疏激活混合專家(MoE)架構、多頭潛在註意力(MLA)機制等前沿技術展開,,通過低精度訓練(如FP8)和推理優化技術,顯著降低算力需求與成本,支持多場景AI應用,成功挑戰實力更強、更為著名的競品,從而被認為是顛覆人工智慧、打響了全球人工智慧領域競賽的第一槍、引領人工智慧下邊緣政策新紀元。
DeepSeek開源其生成式人工智慧演算法、模型和訓練細節,允許其代碼可被免費地使用、修改、瀏覽和構建使用文檔,旨在通過技術創新降低AI應用門檻,推動AI普惠化。。該公司據報積極地從中國頂尖高校吸引年輕的人工智慧研究者並招募電腦科學領域外的人以豐富其模型的認知和能力。同時,DeepSeek的崛起引發爭議,既帶來技術突破,也激起了圍繞知識產權與數據來源、隱私與數據安全、算力成本與晶元依賴等問題的廣泛討論,加劇了中美AI競賽的緊迫感。[2]
- 2008年,梁文鋒就開始帶領團隊使用機器學習等技術探索全自動量化交易[3]。
- 2015年,梁文鋒等人創辦了量化投資公司——幻方量化,創始成員多來自浙江大學[4]。
- 2017年,幻方量化宣稱實現投資策略全面AI化[5]。
- 2021年,幻方量化投資10億元推出“螢火二號”超級電腦,搭載了約1萬張英偉達A100顯卡[5],這後來被外界認為是在美國出口禁令之前採取的非常有前瞻性的部署[4]。
- 2023年7月17日,杭州深度求索公司成立。
深度求索公司內部管理扁平化,以技術人員為主,沒有正式的公關人員,也從未對外融資。媒體引述幻方量化內部人士介紹,幻方量化原先大約有兩百人左右,深度求索的財務、法務、行政都由幻方量化支持,而大模型、演算法工程團隊有八九十人[4]。
- 2023年10月28日,DeepSeek發佈DeepSeek-Coder,這是深度求索的第一個大模型,11月29日,發佈DeepSeek-LLM。
- 2023年12月15日,DeepSeek發佈DreamCraft3D,是一個3D生成模型。
- 2024年1月11日,DeepSeek發佈DeepSeek-MoE,性能超越Llama 2-7B,且計算量降低60%[6]。
- 2024年2月5日,DeepSeek發佈DeepSeekMath,DeepSeekMath 在競賽級MATH基準測試中獲取了51.7%的優異成績,且未依賴外部工具包和投票技術,接近Gemini-Ultra和GPT-4的性能水平。
- 2024年3月11日,DeepSeek發佈DeepSeek-VL。
- 2024年5月,DeepSeek發佈並開源了旗下MoE大模型DeepSeek-V2,因其模型架構與經濟性而脫穎而出,DeepSeek-V2的API定價為每百萬tokens輸入1元、輸出2元,價格僅為GPT-4 Turbo的百分之一。
- 2024年6月17日,DeepSeek發佈DeepSeek-Coder-V2,DeepSeek-Coder-V2在代碼特定任務中達到了與GPT4-Turbo相當的性能。 DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。
- 2024年8月16日,DeepSeek同時發佈DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。
- 2024年9月5日,DeepSeek 宣佈合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。
- 2024年11月20日,DeepSeek 發佈 DeepSeek-R1-Lite,是深度求索第一個推理模型。
- 2024年12月13日,發佈用於高級多模態理解的專家混合視覺語言模型——DeepSeek-VL2。同月26日,DeepSeek發佈並開源了DeepSeek-V3,DeepSeek表示該大模型的訓練系基於2,048塊英偉達H800型GPU(針對中國大陸市場的低配版GPU)集群上運行55天完成,訓練耗資557.6萬美元[7];DeepSeek-V3的評測成績超越Qwen2.5-72B(阿裡自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等開源模型,能與GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等閉源模型相抗衡[8]。
- 2025年1月20日, DeepSeek發佈並開源了DeepSeek-R1模型,該模型在數學、代碼、自然語言推理等任務上,性能與OpenAI o1正式版相當。
- 2025年1月27日,DeepSeek發佈多模態大模型Janus-Pro。
- 2025年2月9日,DeepSeek宣佈結束優惠體驗期,調整後的API服務的輸入tokens和輸出tokens價格分別上漲100%和300%。
- 2025年2月21日,DeepSeek團隊在社交平臺上官宣將從下周開始開源5個代碼庫,DeepSeek團隊將這一計劃定義為“Open Source Week” [9]。
- ↑ 東方財富網.DeepSeek官方App正式發佈 上線iOS、Android各應用市場
- ↑ 美國觀察|DeepSeek引發全球人工智慧“技術-市場-政治”衝擊波產生了何種影響?
- ↑ 知乎.幻方AI Lab啟用超級電腦「螢火一號」,探索AI前沿研究
- ↑ 4.0 4.1 4.2 DeepSeek創始人梁文鋒:中國AI不可能永遠跟隨 必然有人站到技術的前沿
- ↑ 5.0 5.1 微信公眾號.https://mp.weixin.qq.com/s/d69eKaypb4qPS8YT2hdHCA
- ↑ 36Kr.首個國產開源MoE大模型來了,性能媲美Llama 2-7B,計算量降低60%
- ↑ Github.DeepSeek-V3 Technical Report
- ↑ 新浪財經.量化巨頭幻方創始人梁文鋒參加總理座談會併發言,他還創辦了“AI界拼多多”
- ↑ DeepSeek,重磅宣佈