前段时间,来自斯坦福团队研究人员通过多智能体强化学习(multi-agent RL),训练LLM掌握战略性社交推理,结果发现,使胜率比标准强化学习提升一倍。
就在刚刚,DeepSeek 官网 X 帐号终于更新了(上一次更新还是在 1 月 28 日),官方下场推荐了部署 DeepSeek-R1 的设置。DeepSeek 强调官方部署的版本跟开源版本模型完全一致。
我们知道,对于复杂问题的求解,人脑启动的是一套叫作系统2的能力,也就是慢思考的能力。碰到一个难题的时候,通常不是开口报答案,而是分几个步骤,如果思路不对,还会重新探索,直到解决成功为止,如何让模型学会慢思考呢?我们采用的方法就是强化学习。大家一定听说 ...
YOLO 系列模型的结构创新一直围绕 CNN 展开,而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO ...
1 天
商业新知 on MSN阶跃Agent生态首曝光:手机汽车IoT机器人全覆盖,千行百业唰唰落地扳指头一算,DeepSeek“哪吒闹海”到现在,居然才刚刚1个月整?! 这场春节暴击的余波未平,就在今天,国内大模型六小强之一的阶跃星辰,用一场Step UP生态开放日来回应被搅动的风云—— 卷技术,更要卷落地。
在这篇文章里,我从一个社会科学博士生的视角出发,详细介绍了自己在日常科研中对于AI的使用经验与体会。我将AI在社科中的应用(与影响)分为了5个层次,分别是:RA level、Supervisor level、Domain expert ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果