GitHub App - 搜索 News

13 小时

前段时间，来自斯坦福团队研究人员通过多智能体强化学习（multi-agent RL），训练LLM掌握战略性社交推理，结果发现，使胜率比标准强化学习提升一倍。

6 小时

就在刚刚，DeepSeek 官网 X 帐号终于更新了（上一次更新还是在 1 月 28 日），官方下场推荐了部署 DeepSeek-R1 的设置。DeepSeek 强调官方部署的版本跟开源版本模型完全一致。

我们知道，对于复杂问题的求解，人脑启动的是一套叫作系统2的能力，也就是慢思考的能力。碰到一个难题的时候，通常不是开口报答案，而是分几个步骤，如果思路不对，还会重新探索，直到解决成功为止，如何让模型学会慢思考呢？我们采用的方法就是强化学习。大家一定听说 ...

14 小时

YOLO 系列模型的结构创新一直围绕 CNN 展开，而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO ...

商业新知 on MSN1 天

扳指头一算，DeepSeek“哪吒闹海”到现在，居然才刚刚1个月整？！这场春节暴击的余波未平，就在今天，国内大模型六小强之一的阶跃星辰，用一场Step UP生态开放日来回应被搅动的风云—— 卷技术，更要卷落地。

在这篇文章里，我从一个社会科学博士生的视角出发，详细介绍了自己在日常科研中对于AI的使用经验与体会。我将AI在社科中的应用（与影响）分为了5个层次，分别是：RA level、Supervisor level、Domain expert ...

一些您可能无法访问的结果已被隐去。