OpenAI o1 和 DeepSeek-R1 靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?
谷歌团队发布LLM硬核技术教科书,从「系统视图」揭秘LLM Scaling的神秘面纱。Jeff Dean强调书中藏着谷歌最强AI模型Gemini训练的更多信息。 由于深度学习的「黑箱」本性,从业者自我调侃道: ...
2025年2月20日,经过vLLM社区与昇腾的持续合作和共同努力,vLLM开源社区已官方支持昇腾,并创建vLLMAscend这一社区维护的官方项目。这意味着用户可直接在昇腾上无缝运行vLLM,开发者可通过vLLM调用昇腾进行模型适配。
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
北京时间2月18日中午,马斯克为xAI亲自现身站台的Grok-3发布会上, 两位坐在“C位”的华人研究员引人注目 ...
VideoRoPE团队 投稿量子位 | 公众号 QbitAI Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。 复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。 在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。 用三维结构保留时空关系 RoPE是一种能够将相对位 ...
BlockBeats 消息,2 月 19 日,据官方公告,Upbit 宣布将支持 Function X (FX) 品牌重塑及代币置换并更名为 Pundi AI(PUNDIAI)。Upbit 将于 2025 年 2 月 26 日 11:00(KST)暂停 FX 代币充提业务。关于 Pundi AIPundi AI 通过去中心化的工具套件使人工智能开发民主化。Pundi AI 的工具套件包括 Pund ...
马斯克及其团队最近推出了Grok3,声称其为地球上最聪明的人工智能,并计划将其应用于SpaceX的火星任务。然而,在媒体测试中,Grok3未能正确回答简单的数学问题,引发了广泛的调侃。尽管其在大模型竞技场表现良好,但与竞争对手的差距依然存在。马斯克指 ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估,并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大,表现最好的模型也只能得到 4/106 ...
昆仑万维AI视频生成模型SkyReels-V1宣布开源,昆仑万维,鲁棒,skyreels,算法,github,影视 ...
它指的是通过观察一系列给定的 token,预测序列中的下一个 token。如今,“预测下一个 token”已经成为自然语言处理的核心机制。 OpenAI 前首席科学家、联合创始人伊利亚·苏茨克维(Ilya ...