7B模型仅9任务训练超越671B!上交大开创AI自主设计AI新范式
2025-06-21
上海交大与上海人工智能实验室团队开发的ML-Agent智能体,通过7B参数模型仅在9个任务上训练,就超越了671B参数的Deepseek-R1智能体。该智能体采用'经验学习'新范式,通过强化学习自主优化AI算法,减少人类干预,实现跨任务泛化能力。研究攻克了探索增强微调、高效强化学习和定制奖励模块三大技术难题,标志着AI自主设计AI的新范式突破。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
