新闻资讯
MK体育- MK体育官方网站- MK体育APP
。据DeepSeek披露,预训练大模型Deepseek-v3的训练成本大约在558 万美元,这是正式训练时消耗的算力成本(即正式训练耗费的GPU小时×H800每GPU小时租赁价格×55天),但不包括前期架构、算法的研究以及消融实验所产生的试错成本。按相似的对比方法,Meta训练出Llama 3.1 405B,其消耗成本为5800万美元(使用了超过1.6万个英伟达H100 GPU,历经54天)。而黄仁勋在NVIDIA GTC 2024中提到,训练1.8万亿参数的GPT模型大约需要8000个英伟达H100,耗费90天,由此估算下来,GPT4训练成本约4800万美元。此外,Mistral AI创始人Arthur Mensch透露,Mistral Large的训练成本不到2200万美元,Anthropic CEO Dario Amodei 则透露Claude 3.5 Sonnet训练成本在数千万美元。由此对比,
首先,通过思维链技术和强化学习来训练推理大模型,是OpenAI 在发布o1 模型时所揭示的“核心秘密”。在发布时,包括 Sam Altman 在内的 OpenAI 研究人员,解释了为什么要从预训练大模型转而研发后训练推理大模型,以及如何做的路径。他们表明:“一直以来,AI在某些方面的表现非常惊人,但在推理能力上却存在明显的不足。”“当我们完成GPT-4时,我们最感兴趣的一件事就是:我们能不能用我们创造的这个工具来教模型推理?”“我们深受 AlphaGo 的启发,对强化学习抱有很大的期望...在 o1 的训练过程里,我们观察到当模型使用强化学习来生成和优化自己的思维链时,其表现甚至比人类为其编写思维链更好。”
通过前面三个步骤训练出来的R1-zero模型,以高质量的数学和代码数据为核心,在数学和代码领域之外的泛化能力和表达能力都不够好。为了解决这个问题,DeepSeek先使用 R1-zero 生成非数学和代码的长思维链数据,加上高质量的人工标注,形成数千条冷启动数据的标准答案让模型记住;在此基础上,又使用 R1-zero 生成了60 万条可阅读的推理数据,并用基础模型 v3 生成了20 万条非推理类数据(写作、事实问答、自我认知、翻译等),并让 v3 对这些非推理类数据脑补了思维链。三者结合起来,形成一个略大于 80 万条的合成数据集(里面仅有几千条有人工参与),让R1-zero 对此数据集不断训练,从而升级为不仅仅擅长数学和代码推理,也擅长更多通用场景推理的 R1 模型。
其次,在推理大模型方面,DeepSeek展示出的创意更有新意。推理大模型的核心是构建思维链能力,但关键是如何构建,使用多大成本可以做到。在大部分大模型企业效仿OpenAI未果的情况下,DeepSeek选择的,是首先聚焦于逻辑确定性最强的数学、编码领域来入手,让大模型在不断学习正确答案过程中,自己创建思维链;然后进而让大模型用无监督学习的方法大量尝试,沉淀正确答案所需要的思维链方法。这其实是巧妙的低成本创新,绕开了原来的需要人工创建和标注思维链的高成本路径。在数学和代码领域的推理模型R1-zero建立起来后,再在少量人工标注数据的基础上,泛化到更广的非数学和代码数据中,形成R1,最后反哺到基础大模型,改变了原来基础大模型需要长时间、动辄数千万美元训练的老路,可以低成本不断迭代;至此,预训练模型和后训练推理模型相辅相成,互促迭代。
DeepSeek提供比Llama更加开放的开源模式,被业界盛赞。硅谷著名风投家、a16z创始人 Marc Andreessen在评价DeepSeek-R1称:“作为开源项目,这是对世界的一份深远馈赠 (As open source, a profound gift to the world)。”艾伦人工智能研究所(Allen Institute for AI)的研究科学家Nathan Lambert指出:“Deepseek 是前沿模型中最开放的模型之一,他们在传播 AI 知识方面做得非常出色:他们的论文非常详细,对世界各地的其他团队而言,也在提升训练技术方面非常具有可操作性。DeepSeek-R1 模型采用了非常宽松的 MIT 许可协议。这意味着没有下游限制,可以用于商业用途,没有用例限制。你可以使用模型的输出创建合成数据......(你会看到)真正的开源精神在于共享知识,推动创新。”

