Arama Sonuçları
Tüm Sonuçları Gör
Home
News
Vip
Dating
Gruplar
Sayfalar
Marketplace
Daha fazla gör
Gruplar
Sayfalar
Marketplace
Events
Blogs
Funding
Offers
Jobs
Courses
Forums
Movies
Oyunlar
Katıl
Giriş yapın
Başvur
Theme Switcher
Night Mode
全球 头条
@toutiao
paylaşılan bir bağlantı
2025-03-05 04:26:37
当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。
当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。
回顾DeepSeek“开源周”:越是开源,越能扩大生态
hot166.com
当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。 界面新闻记者 | 伍洋宇界面新闻编辑 | 文姝琪 2月最后一天,DeepSeek开源周正式收官。连续五天,这家公司刷新自己在大模型开源生态中的技术地位。 五天一共对应五个开源代码库,分别是FlashMLA,DeepEP,DeepGEMM,DualPipe和EPLB对应的优化并行策略,以及推进器3FS和轻量化数据处理工具Smallpond。在Github,这些项目累计获得星星数量接近2.8万颗。 首日的FlashMLA最为重磅。DeepSeek对其核心介绍是,这是一款面向Hopper GPU(英伟达第九代GPU架构)的高效MLA解码内核(MLA decoding kernel ),并针对可变长度序列的服务场景进行了优化。 MLA——Multi-Head Latent Attention(多头潜在注意力机制)是DeepSeek在V2时期的重要创新,也是降本的关键。FlashMLA则是针对MLA在解码阶段的注意力加速器。 用户输入的自然语言数据序列往往长短不一,如果只按照传统注意力机制会造成算力资源浪费。FlashMLA可以针对不同token长度动态调配计算资源。总体上来说,这还是DeepSeek就H800持续压榨其硬件性能利用效率——这也是DeepSeek素来最擅长的能力之一。 次日的DeepEP核心目的仍在于拉升GPU效能。这是一个专为专家混合(MoE)和专家并行(EP)量身定制的通信库。 简单而言,它通过建立一个全对全的中间系统,高效协同专家模型之间的通信,实现高吞吐量和低延迟的兼顾,并且支持FP8等低精度操作以降低计算资源消耗,最终大幅提升了大模型的训练和推理效率。 第三天的DeepGEMM来自DeepSeek-V3,是一个可用于FP8精度的通用矩阵乘法(GEMM)加速库。 通用矩阵乘法是大模型提高训练效率的重要一环,但往往还是会造成巨大的计算量。DeepGEMM的目的是在降低消耗、提升速度的同时,还能保持计算的准确度。它先是利用FP8这一低精度但快速的方式完成计算,再利用英伟达的CUDA核心对其进行精加工。 事实上,英伟达基于CUDA架构打造的CUTLASS也是用于加速这类计算,但更适用于通用且强性能的矩阵加速库。而DeepGEMM不仅在性能上可以与专家调优的库相当,而且更加轻量化,仅用300行代码就实现,且安装时无需编译,通过轻量级JIT模块就可在运行时编译所有内核。 第四天是由DualPipe和EPLB构成的优化并行策略。 DualPipe是一种双向并行算法,简单而言,它以“双向”的调度方式,在参数翻倍的情况下,大幅减少了流水线并行过程中,因为不同“工序”进程快慢而产生浪费效率的“气泡”,也就是计算和通信阶段的等待时间。 EPLB是一种“专家并行负载均衡器”,可对MoE架构中的高负载专家复制为“冗余专家”,以分担同类任务计算量,并利用“启发式分配算法”,将高负载专家分配到低负载显卡上,以优化GPU之间的负载均衡。它还会尽量将需要高度协同的专家放置在同一节点上,以提高通信效率。 最后一天是3FS(Fire-Flyer File System)以及数据处理框架Smallpond。 3FS是一个可实现高速数据访问,提高AI模型训练和推理效率的分布式文件系统。它相当于利用SSD(用于数据存储与加载、实现快速数据交换等)以及RDMA(支持分布式训练通信和高性能网络架构等)建立一个共享存储层,使模型对于资源调取和数据传输,都更为极速、自动化且高吞吐。 在此基础上,Smallpond可以进一步优化3FS的数据管理能力,能够处理PB级别(1PB 数据量大约可以存储20万部5GB大小的高清电影)的数据。 需要指出的是,DeepSeek开源周的所有内容,几乎都是“开箱即用”,团队均提供了相对完整细致的操作指南。 一名AI大模型行业人士对界面新闻记者表示,这五项开源内容的重要意义相当,都是针对训练效率的优化细节。不过他指出,DeepEP可能相对突出,因为对MoE的提升尤为明显。 另一名关注大模型行业技术进展的投资人同样表示,这些内容均可以视为DeepSeek在AI Infra层的优异表现。 他认为,针对AI Infra的优化措施其实存在于任何一家AI大模型公司,而DeepSeek之所以选择开源,除了可以诉诸其技术理想外,一个核心目的还是在于让业界能够更好部署和使用其开源模型,建立其更大的开源生态。“从战略上来说,这也是一个很明确的先后步骤。” 此外,对于DeepSeek开源周的动作,还有一种讨论声音是它看起来与英伟达的硬件生态绑定更深了。 但前述受访者认为这是一条合理路径。他指出,如果是针对国产硬件生态,DeepSeek还可以另起一套代码库来适配,两者不是非此即彼的关系。与此同时,当DeepSeek具备的是面向全球大模型的生态视野,针对英伟达GPU展示优化能力也是一种必要动作。 事实上,在DeepSeek选择开源这一周,海内外大模型发布动作频繁且热闹,其中包括腾讯新一代快思考模型混元Turbo S,阿里通义千问推理模型QwQ-Max预览版,以及Anthropic的Claude 3.7 Sonnet,和OpenAI万众瞩目的GPT-4.5。 出人意料的是,GPT-4.5并未激起巨大水花,甚至落下一众令人失望的评价。除了各方面基准测试超过4o,并在准确度和幻觉率上有了明显优化,GPT-4.5没有像从前新模型发布那样让人“震撼”的表现。 唯一的震撼或许在于定价。GPT-4.5每百万tokens输入为75美元,输出为150美元,价格分别达到了DeepSeek-V3的280倍及150倍。 OpenAI CEO Sam Altman在X平台上表示,GPT-4.5将是其最后一个非链式思维模型,未来发布的GPT-5将是一个包含o3在内的多种技术混合模型。这俨然让GPT-4.5的存在感降到更低。 回到DeepSeek的开源动作上,到目前为止,这家公司在绝大多数的算法和工程细节上都毫无保留。但它仍然将一些难以复制的核心能力牢牢掌握在自己手上,例如对于模型训练深层次的know how,以及训练数据方面的细节,这是达成DeepSeek式创新的核心秘密所在。
1
·
0 Yorumlar
·
0 hisse senetleri
·
41M Views
·
0 önizleme
Please log in to like, share and comment!
Upgrade to Pro
Choose the Plan That's Right for You
Upgrade
Sponsorluk