资讯

近日,中国科学技术大学本科校友、美国哈佛大学博士生陈勇超和所在团队以 Qwen-3B/7B/14B 为初始模型, 用多步监督微调(SFT,Supervised Fine-tuning)和群体相对策略优化(GRPO,Group Relative ...