首页 >> 传统 > 商业 >

CMU 团队推出元强化微调:提升大语言模型推理能力的新范式

2025-03-14 11:32:18 来源:网易 用户:顾霞烟 

近日,卡内基梅隆大学(CMU)研究团队提出了一种名为“元强化微调”(Meta-Augmented Fine-tuning, MAF)的新方法,旨在显著提升大型语言模型(LLMs)的推理能力。该技术通过结合元学习与强化学习,使模型能够更好地适应复杂的推理任务。

MAF的核心思想是利用少量标注数据生成多样化的情景,并通过强化信号优化模型参数。具体而言,在训练过程中,模型首先基于初始权重生成多个虚拟实例作为“教师”,然后利用这些教师指导目标模型的学习。这种机制不仅增强了模型对未知问题的理解能力,还减少了对大规模标注数据集的依赖。

实验结果显示,采用MAF方法后,模型在逻辑推理、数学计算及常识判断等任务上的表现均优于传统监督学习方式。此外,由于其灵活性强且易于扩展至其他领域应用,MAF有望成为未来提升AI系统智能水平的重要工具之一。

这项工作标志着从单一任务导向向多任务通用化转变的新趋势,为构建更强大的认知型人工智能奠定了基础。研究人员表示将进一步探索如何将此框架应用于跨模态或多模态场景中以实现更加广泛的实际价值。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章