DeepSeek
出自 MBA智库百科(https://wiki.mbalib.com/)
DeepSeek,人工智能大模型技术平台,由中国团队【 杭州深度求索人工智能基础技术研究有限公司】研发,聚焦低成本、高性能AI模型开发与应用。由对冲基金幻方量化创立,创始人和首席执行官为梁文锋。
目录 |
2025年1月10日,DeepSeek在iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序[1]。DeepSeek其研发核心围绕稀疏激活混合专家(MoE)架构、多头潜在注意力(MLA)机制等前沿技术展开,,通过低精度训练(如FP8)和推理优化技术,显著降低算力需求与成本,支持多场景AI应用,成功挑战实力更强、更为著名的竞品,从而被认为是颠覆人工智能、打响了全球人工智能领域竞赛的第一枪、引领人工智能下边缘政策新纪元。
DeepSeek开源其生成式人工智能算法、模型和训练细节,允许其代码可被免费地使用、修改、浏览和构建使用文档,旨在通过技术创新降低AI应用门槛,推动AI普惠化。。该公司据报积极地从中国顶尖高校吸引年轻的人工智能研究者并招募计算机科学领域外的人以丰富其模型的认知和能力。同时,DeepSeek的崛起引发争议,既带来技术突破,也激起了围绕知识产权与数据来源、隐私与数据安全、算力成本与芯片依赖等问题的广泛讨论,加剧了中美AI竞赛的紧迫感。[2]
- 2008年,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易[3]。
- 2015年,梁文锋等人创办了量化投资公司——幻方量化,创始成员多来自浙江大学[4]。
- 2017年,幻方量化宣称实现投资策略全面AI化[5]。
- 2021年,幻方量化投资10亿元推出“萤火二号”超级计算机,搭载了约1万张英伟达A100显卡[5],这后来被外界认为是在美国出口禁令之前采取的非常有前瞻性的部署[4]。
- 2023年7月17日,杭州深度求索公司成立。
深度求索公司内部管理扁平化,以技术人员为主,没有正式的公关人员,也从未对外融资。媒体引述幻方量化内部人士介绍,幻方量化原先大约有两百人左右,深度求索的财务、法务、行政都由幻方量化支持,而大模型、算法工程团队有八九十人[4]。
- 2023年10月28日,DeepSeek发布DeepSeek-Coder,这是深度求索的第一个大模型,11月29日,发布DeepSeek-LLM。
- 2023年12月15日,DeepSeek发布DreamCraft3D,是一个3D生成模型。
- 2024年1月11日,DeepSeek发布DeepSeek-MoE,性能超越Llama 2-7B,且计算量降低60%[6]。
- 2024年2月5日,DeepSeek发布DeepSeekMath,DeepSeekMath 在竞赛级MATH基准测试中获取了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。
- 2024年3月11日,DeepSeek发布DeepSeek-VL。
- 2024年5月,DeepSeek发布并开源了旗下MoE大模型DeepSeek-V2,因其模型架构与经济性而脱颖而出,DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一。
- 2024年6月17日,DeepSeek发布DeepSeek-Coder-V2,DeepSeek-Coder-V2在代码特定任务中达到了与GPT4-Turbo相当的性能。 DeepSeek-Coder-V2在程序设计和数学基准测试中表现优异,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。
- 2024年8月16日,DeepSeek同时发布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。
- 2024年9月5日,DeepSeek 宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 两个模型,升级推出全新的 DeepSeek V2.5 新模型。
- 2024年11月20日,DeepSeek 发布 DeepSeek-R1-Lite,是深度求索第一个推理模型。
- 2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。同月26日,DeepSeek发布并开源了DeepSeek-V3,DeepSeek表示该大模型的训练系基于2,048块英伟达H800型GPU(针对中国大陆市场的低配版GPU)集群上运行55天完成,训练耗资557.6万美元[7];DeepSeek-V3的评测成绩超越Qwen2.5-72B(阿里自研大模型)和LLaMA 3.1-405B(Meta自研大模型)等开源模型,能与GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等闭源模型相抗衡[8]。
- 2025年1月20日, DeepSeek发布并开源了DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当。
- 2025年1月27日,DeepSeek发布多模态大模型Janus-Pro。
- 2025年2月9日,DeepSeek宣布结束优惠体验期,调整后的API服务的输入tokens和输出tokens价格分别上涨100%和300%。
- 2025年2月21日,DeepSeek团队在社交平台上官宣将从下周开始开源5个代码库,DeepSeek团队将这一计划定义为“Open Source Week” [9]。
- ↑ 东方财富网.DeepSeek官方App正式发布 上线iOS、Android各应用市场
- ↑ 美国观察|DeepSeek引发全球人工智能“技术-市场-政治”冲击波产生了何种影响?
- ↑ 知乎.幻方AI Lab启用超级计算机「萤火一号」,探索AI前沿研究
- ↑ 4.0 4.1 4.2 DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
- ↑ 5.0 5.1 微信公众号.https://mp.weixin.qq.com/s/d69eKaypb4qPS8YT2hdHCA
- ↑ 36Kr.首个国产开源MoE大模型来了,性能媲美Llama 2-7B,计算量降低60%
- ↑ Github.DeepSeek-V3 Technical Report
- ↑ 新浪财经.量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”
- ↑ DeepSeek,重磅宣布


