全球GPU IP领头羊Imagination Technologies (以下简称“Imagination”)今天正式发布其D系列GPU IP的最新力作——Imagination DXTP。这款专为移动设备和功耗敏感场景打造的GPU ...
如果说传统的 AI 训练中,GPU 跑了 10 个小时,4 个小时在等数据、等同步,实际工作时间只有 6 小时。那么 DeepEP,能够把等待时间压缩到 1 小时,GPU 干活 9 小时,相当于多了 3 小时算力, 真正「榨干」每一块 GPU。
DeepSeek今天正式启动为期五天的开源成果发布计划,首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合,为大模型推理提供了一套高性能、低延迟的解码方案。FlashMLA是一款专门为Hopper ...
15 小时on MSN
在AI领域的最新动态中,DeepSeek开源周的第二波发布引发了广泛关注。此次发布的核心是一个专为混合专家(MoE)模型和专家并行(EP)通信设计的开源库——DeepEP。该库发布后不到一小时,就在GitHub上收获了上千颗星标。
近日,Imagination Technologies宣布推出其最新的GPU IP——Imagination ...
据悉,Imagination对D系列GPU进行了多项改进,使其在处理计算任务方面表现更加卓越,包括扩展了支持的数字格式范围,并将工作组项目的设置速率提升了16倍。与DXT相比, ...
13 小时on MSN
【市场消息:国产 GPU 厂商壁仞科技考虑港股 IPO】,壁仞科技正与中金公司、中银国际和平安证券合作,就潜在 IPO 交易拟募资 3 亿美元,或于今年在港上市,不过 IPO 规模和时间等细节或有变,也可能搁置。壁仞科技成立于 2019 ...
据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能。”DeepSeek说。
物理学家 Luis Batalha 在 x 上表示,2025 年的普特南竞赛上,即使是前 500 名的顶尖选手,也无人能完整攻克下面这道难题。 而 Grok 3(Think)仅用了约 8 分钟就找到了答案 。
2 天on MSN
近日,知名的显卡检测工具GPU-Z迎来了其2.63版本的更新,此次更新由TechPowerUp团队精心打造,不仅新增了对最新显卡的支持,还修复了用户反馈的两大问题。 值得注意的是,GPU-Z 2.63版本率先纳入了对RTX 5070 Ti和RX ...
据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,它为所有GPU内核提供高吞吐量和低延迟,也称为MoE调度和组合。该库还支持低精度操作,包括FP8。
15 小时
来自MSNDeepSeek又又开源了,这次拉爆GPU通信!智东西 作者|程茜 编辑|心缘 智东西2月25日报道,刚刚,DeepSeek开源周第二弹发布,第一个用于MoE模型训练和推理的开源EP通信库,发布不到一小时,GitHub Star数已上千。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果