GitHub Training - 搜索 News

腾讯网3 天

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

机器之心发布机器之心编辑部DeepSeek V3/ R1 火爆全网，基于原始模型的解决方案和 API ...

腾讯网3 天

DeepSeek满血微调秘籍开源！站在巨人肩膀打造私有模型，教程在此

在准备好数据集和模型权重后，可使用Colossal-AI 提供的一键启动脚本 ...

1 天

复旦视频扩散模型综述：覆盖300+文献，探讨近期研究趋势与突破

因此，未来的研究方向应当着力于提高视频编辑的可控性，例如通过结合视频分割、目标检测等技术，使得模型能够在视频的局部区域中执行更加精细的编辑操作，并提升在多物体场景下的动态编辑能力，从而实现更为灵活和精确的生成与编辑。

9 天

WWW 2025 | 新大、中科大提出文本无关的多领域图基础模型SAMGPT

然而，来自不同领域的图往往表现出显著不同的特性，这成为了一个主要的障碍。一些研究尝试借助大型语言模型，通过图中附带的文本描述来对齐多个领域，但这种做法严重限制了其在带文本属性图上的应用范围。对于无文本图，尽管有少数近期研究试图跨领域对齐不同的特征分布 ...

来自MSN13 天

阿里挖来AI大牛许主洪，接下来目标明确：要靠多模态打通AI应用了

作者｜summer邮箱｜[email protected] 随着AI竞争加剧，消费市场成为各大科技公司的必争之地。在文心一言、豆包、Kimi等产品疯狂争夺C端用户的当下，如何打开AI消费市场，成为阿里巴巴的紧迫课题。

15 天

多模态DeepSeek来了！杨耀东团队联合港科发布Align-DS-V，助力灵初DS-VLA ...

在当前AI领域的快速发展中，“强推理慢思考”已经成为主要的发展动向之一，它们深刻影响着研发方向和投资决策。如何将强推理慢思考进一步推广到更多模态甚至是全模态场景，并且确保和人类的价值意图相一致，已成为一个极具前瞻性且至关重要的挑战。

来自MSN11 天

推理模型新路线开源！与DeepSeek截然不同，抛弃思维链不用人类语言思考

梦晨发自凹非寺量子位 | 公众号 QbitAI 开源推理大模型新架构来了，采用与Deepseek-R1/OpenAI o1截然不同的路线：抛弃长思维链和人类的语言，直接在连续的高维潜空间用隐藏状态推理，可自适应地花费更多计算来思考更长时间。

14 天

不断有人在问，这个中国模型到底有什么魔力？

一个业界的共识是，Qwen最早扛起了中国AI大模型开源的大旗，也带起了一波开源的浪潮，孕育起一个AI生态。阿里云牵头建设的魔搭社区，已经上架了4万多个AI模型，服务超过1000万名开发者。

红板报 on MSN13 天

推理时也能做偏好优化，无需额外重训练，来自上海AI Lab港中文等

TPO团队投稿量子位 | 公众号 QbitAI 随着大语⾔模型（LLMs）在各类任务中展现出令人瞩目的能力，如何确保它们⽣成的回复既符合预期又安全，始终是⼀项关键挑战。传统的偏好对⻬⽅法，如基于⼈类反馈的强化学习（RLHF）和直接偏好优化（DPO ...

来自MSN16 天

多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推理能力 ...

Align-DS-V团队投稿量子位 | 公众号 QbitAI 如果把DeepSeek-R1震撼硅谷的深度推理表现，运用到多模态场景，那会怎样？此前DeepSeek自家的Janus-Pro-7B没有结合推理能力，但现在，国内有研究团队先做到了—— 基于自研全模态框架Align-Anything，北大联合港科大团队推出多模态版DeepSeek-R1： Align-DS-V，它在部分视觉理解表现评测集 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果