资讯

这款AI性能拉满、配置几近“堆满”的中大型智能电动SUV,打破了外界的预期。毕竟在发布前一段时间,小鹏几乎把所有聚光灯都打在了“高成本”标签上:自研图灵芯片、与华为联合打造的AR-HUD,以及将72B大模型蒸馏上车的VLA+VLM模型。
作为Mistral推出的首个基于纯强化学习(RL)训练的推理大模型,Magistral采用改进的Group Relative Policy Optimization(GRPO)算法。 通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算,在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。