谷歌团队发布LLM硬核技术教科书,从「系统视图」揭秘LLM Scaling的神秘面纱。Jeff Dean强调书中藏着谷歌最强AI模型Gemini训练的更多信息。 由于深度学习的「黑箱」本性,从业者自我调侃道: ...
2025年2月20日,经过vLLM社区与昇腾的持续合作和共同努力,vLLM开源社区已官方支持昇腾,并创建vLLMAscend这一社区维护的官方项目。这意味着用户可直接在昇腾上无缝运行vLLM,开发者可通过vLLM调用昇腾进行模型适配。
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
VideoRoPE团队 投稿量子位 | 公众号 QbitAI Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。 复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。 在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。 用三维结构保留时空关系 RoPE是一种能够将相对位 ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估,并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大,表现最好的模型也只能得到 4/106 ...
昆仑万维AI视频生成模型SkyReels-V1宣布开源,昆仑万维,鲁棒,skyreels,算法,github,影视 ...
它指的是通过观察一系列给定的 token,预测序列中的下一个 token。如今,“预测下一个 token”已经成为自然语言处理的核心机制。 OpenAI 前首席科学家、联合创始人伊利亚·苏茨克维(Ilya ...
GRAIL Workshop 投稿量子位 | 公众号 QbitAI 计算机视觉与模式识别会议(CVPR)作为全球计算机视觉与人工智能领域最具影响力的顶级学术会议,将于2025年6月11日至15日在美国田纳西州召开。
结果显示,总体得分相似,但输入预测在KorBench上表现出色,同时略微影响了GPQA的表现;而输出预测在BBH等符号推理任务上显示出更大的优势。CRUXEval-I和-O分别偏向于输入和输出预测。