不久前,DeepSeek 掀起了轩然大波。DeepSeek- V3 和 R1 大模型显示了大模型厂商无需依靠高端 GPU 也能开发和训练高性能模型,而且其成本远远低于主导市场且更加知名的大模型。遗憾的是,这发布引发了一场评论和媒体报道风暴,其中不乏夸大其词、混淆视听和误导性报道。本文意在以理性平衡视角介绍 DeepSeek 及其最新发布对人工智能行业的意义。
业界未曾预料到的 DeepSeek的发展
在过去两年中,DeepSeek一直在积极发布开源大模型。在同质化严重技术突破比较罕见的当下,DeepSeek的创新并非完全以新技术突破为前提。DeepSeek R1系列推理模型利用了现有的开源模型,包括其自身的V3、Meta的Llama和阿里巴巴的通义千问大模型。才华横溢的 DeepSeek 团队真正所做的,是以创新、敏捷和高效的方式进行模型开发。DeepSeek-R1 在没有监督微调的情况下通过大规模强化学习训练,以及多阶段训练和冷启动数据的结合,来达到比肩那些远比自身昂贵和尺寸庞大的闭源大模型的能力。这意味着DeepSeek-R1需要的资源更少,这也是其推理和推论性能令人兴奋的原因。根据DeepSeek的数据,R1在AIME、MATH-500和SWE-bench Verified基准测试中击败了OpenAI o1。
DeepSeek-V3 和 R1 的到来颠覆了大模型的游戏规则。在过去几年中,此游戏规则一直在逐步改变--从大型专有、通用模型转变为小型、针对特定任务的开源模型。在大型模型中被视为前沿水平的功能,如多模态,现在出现在 3B-8B的尺寸 范围内,而在 1B-3B的尺寸范围内的大模型也开始增添大量的而基本大模型功能。规模更小、性价比更高的模型的出现和所带来的创新,这对开发者和企业来说是个好消息。小型大模型尤其有利于智能手机、个人电脑、汽车和机器人等边缘设备的创新。某些版本的DeepSeek模型(如DeepSeek-R1-Distill)可以在本地托管,这对优先考虑数据隐私的企业和专注于需要超低延迟的边缘人工智能应用的厂商很有吸引力。
DeepSeek 的数据隐私
DeepSeek 取得成就的消息加剧了当前地缘政治对数据访问和利用的敏感性,尤其是在美国。撇开地缘政治不谈,从表面上看,利用基于 DeepSeek的人工智能服务的企业正面临潜在的数据隐私威胁。然而,所有基于云的人工智能服务都是如此,苹果、Meta、ByteDance 和 DeepSeek 的人工智能服务之间唯一明显的区别在于谁能获得多少有价值的数据--人工智能服务提供商、广告数据中介或是政府机构。因此,企业 IT 部门有责任控制对流行 GenAI 模型的访问权限,为用户提供内部控制选项,这些选项足以阻止用户自行其事(如影子 IT)。DeepSeek 采用免费开源软件许可模式,这一点意义重大,因为它允许公司在使用新兴人工智能服务时保护自己的数据。开源软件让公司可以选择构建 DeepSeek-R1 的衍生版本,并自行托管这些衍生版本,而 DeepSeek仅仅提供归属权,不会参与其中。
DeepSeek 不会阻止大型模型的前进步伐
金融市场对 DeepSeek-V3 和 R1 反应强烈,认为这些模型是对 OpenAI 等厂商主导基础模型的严峻挑战。他们还担心,DeepSeek 的建模技术(使用更便宜、功能更弱的 GPU)会对人工智能芯片和超大规模数据中心的长期需求产生负面影响。
尽管 DeepSeek 的成就表明,OpenAI 和其他公司设定的人工智能发展道路并非唯一的出路,但这并不意味着开发者完全不再需要高端人工智能芯片和强大数据中心基础设施。喜欢与否,大模型仍有存在的必要。即使像 DeepSeek-V3 这样的小规模模型在特定领域表现非常出色,但它们可能缺乏像 GPT-4 或 Claude 3.5 这样的大型模型的广泛通用性。大模型的需求仍然强烈。
此外,越来越多大厂正在推动前沿人工智能的发展和支持人工智能的基础设施投资,尤其是在美国,微软、OpenAI、谷歌、亚马逊和 Anthropic 都致力于发展 AGI。美国新政府耗资 5000 亿美元的星际之门项目旨在确立美国在全球人工智能领域的主导地位,其中包括 OpenAI 的资金支持以及甲骨文、微软和英伟达(NVIDIA)等公司的技术支持。
DeepSeek 并未终结人工智能霸主之争
有人断言,DeepSeek 的成就终结了中美之间的人工智能争霸赛。美国拥有世界上大多数领先的人工智能公司。美国还禁止向中国出口高端 GPU,以削弱中国在人工智能竞赛中的竞争能力。在这种情况下,DeepSeek 使用低规格 GPU 制作高性能模型的能力令人印象深刻。此外,它还表明,美国的出口禁令非但没有阻碍创新,反而起到了推动创新的作用。但这并不意味着DeepSeek已经阻止了人工智能竞赛或让中国取得了绝对领先。人工智能创新是高度动态的。一旦宣布重大突破,竞争对手就会想方设法将其融入其中,推动进一步创新。
然而,尽管 DeepSeek 可能并没有终结人工智能霸主之争,但它鼓励人工智能业者重新考虑人工智能霸主的含义。一个重要的反思是,创新并不依赖于蛮力、大模型和强大且昂贵的计算基础设施。DeepSeek 的出现表明,敏捷性、创造力和发散思维能力可以推动创新。DeepSeek 的出现也应促使人工智能领导者质疑人工智能至上概念背后的核心假设:即人工智能会产生后果并带来负面影响,尤其是当厂商在争夺领先地位的过做出损害安全性和平等性的决定,从而削弱了人工智能伦理与道德。