GitHub Io - 搜索 News

2 小时

谷歌超硬核教科书来了，Jeff Dean带货揭Gemini训练秘籍：在TPU上scaling

谷歌团队发布LLM硬核技术教科书，从「系统视图」揭秘LLM Scaling的神秘面纱。Jeff Dean强调书中藏着谷歌最强AI模型Gemini训练的更多信息。由于深度学习的「黑箱」本性，从业者自我调侃道： ...

16 小时

vLLM原生支持昇腾，加速大模型推理创新，社区尝鲜版本首发！

2025年2月20日，经过vLLM社区与昇腾的持续合作和共同努力，vLLM开源社区已官方支持昇腾，并创建vLLMAscend这一社区维护的官方项目。这意味着用户可直接在昇腾上无缝运行vLLM，开发者可通过vLLM调用昇腾进行模型适配。

17 小时

机器人视觉控制新范式！ByteDance Research新算法实现通过性能SOTA

世界模型（World ...

1 天

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

近日，微软研究团队联合多所高校的研究人员，发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便在数字和物理环境中执行复杂任务。随着科技的不断进步，多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

来自MSN2 天

Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索 ...

VideoRoPE团队投稿量子位 | 公众号 QbitAI Llama都在用的RoPE（旋转位置嵌入）被扩展到视频领域，长视频理解和检索更强了。复旦大学、上海AI实验室等提出VideoRoPE，并确定了将RoPE有效应用于视频所需的四个关键特性。在长视频检索、视频理解和视频幻觉等各种下游任务中，VideoRoPE始终优于先前的RoPE变体。用三维结构保留时空关系 RoPE是一种能够将相对位 ...

2 天

ICLR 2025 Spotlight | 让城市「动」起来！DynamicCity突破4D大场景生成技术边界

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

3 天

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估，并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大，表现最好的模型也只能得到 4/106 ...

3 天

昆仑万维AI视频生成模型SkyReels-V1宣布开源

昆仑万维AI视频生成模型SkyReels-V1宣布开源,昆仑万维,鲁棒,skyreels,算法,github,影视 ...

4 天

模型预训练模式“变天”？Meta推出预训练框架，训练token减少21.5%

它指的是通过观察一系列给定的 token，预测序列中的下一个 token。如今，“预测下一个 token”已经成为自然语言处理的核心机制。 OpenAI 前首席科学家、联合创始人伊利亚·苏茨克维（Ilya ...

来自MSN4 天

报名 | CVPR'25首届具身智能「通用机器人操作研讨会和挑战赛」正式启动

GRAIL Workshop 投稿量子位 | 公众号 QbitAI 计算机视觉与模式识别会议（CVPR）作为全球计算机视觉与人工智能领域最具影响力的顶级学术会议，将于2025年6月11日至15日在美国田纳西州召开。

4 天

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

结果显示，总体得分相似，但输入预测在KorBench上表现出色，同时略微影响了GPQA的表现；而输出预测在BBH等符号推理任务上显示出更大的优势。CRUXEval-I和-O分别偏向于输入和输出预测。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果