K8凯发官网,k8凯发人生赢家一触即发,K8凯发国际旗舰厅奶茶官网

  • k8凯发人生赢家一触即发
  • 10步优化超越强化学习仅需1条未标注数据!后训练强势破局

    发布时间2025-06-07 04:22:16 来源:小编 阅读次数:

      研究结果暗示■★■◆,EM通过强化高概率推理路径来增强模型的置信度★■◆◆,表明EM可能是一种轻量级的信心校准方法。未来的研究需要开发更精确的评估协议来量化EM的校准效应★★■,深入理解其背后的机制。

      经过EM训练的模型在四个数学推理基准上的平均性能随着生成温度的升高总体呈现上升趋势■◆◆★★。

      辛选集团旗下主播无限期停播,时隔7个月富坚义博再次更新春色寄情人广东体育彩票去年筹集公益金91★◆◆★★■.56亿元心博天下开户银河国际官网app9570下载yobo平台皇冠大转盘

      训练初期,EM训练损失迅速下降■◆◆■,模型的数学推理性能也随之提升然而,大约在训练进行到10步左右时★◆,模型的性能达到了顶峰◆◆。

      05月28日★■★◆★■,登山还能坐自动扶梯?福建冠豸山体验一站式登顶★★,bbin官方网站,bet8九州平台安全吗★★★◆■◆,龙8国际体育APP,mg线日◆★■◆◆,多名中国游泳运动员药检呈阳性? 外交部回应,乐鱼彩票官网查询,优博登录◆■■◆,优德免费试玩,ManBetX官网手机

      广泛实验表明,「温度」是影响EM训练和推理表现的关键因素,且在推理阶段与强化学习呈现相反趋势。

      【新智元导读】无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能显著提升大模型在推理任务上的表现,甚至超越依赖大量数据和复杂奖励机制的强化学习(RL)★■★■★。EM通过优化模型的预测分布■★★★,增强其对正确答案的置信度,为大模型后训练提供了一种更高效简洁的新思路。

      因此★■■■,RL训练的模型表现出与EM相反的趋势:性能随着采样温度的升高而提升★◆★◆■■。

      05月28日秘鲁学者谈APEC■★★◆:中国是全球经济体系中的关键角色竞技宝网址英皇游戏app美高梅官网app澳门有捕鱼游戏机吗

      在生成和采样时,这种向右的Logits偏移是有益的■★★◆■★,增加了高概率的候选token数量★■★■◆◆,扩展了模型能够遵循的「高概率路径」◆■■,从而潜在地增强了模型的整体生成能力★■■★。

      通过对这些高概率但不正确的token进行降权(reranking),RL降低了其排序位置,从而导致整体Logits分布向左偏移★■◆★。

      研究人员在论文中深入分析了one-shot EM的有效性,发现其与强化学习具有相似的核心特性◆■◆■,但从logits偏移角度来看,其对模型行为的引导方向相反■◆■。

      Logits偏移的差异■★,可以通过分析Logits分布的偏度(Skewness)进行量化。

      05月28日,议联主席:应实地了解中国◆★,而不只是★■◆◆■“阅读新闻■★■◆■”■◆★★■,竞彩高赔计划单,永利 新登录 网址是多少,贝搏app安卓★◆★,下载365手机

      EM在数学推理任务上表现出色,但能否泛化到对话、摘要、代码生成等其他领域,还需要进一步的实验验证。

      EM 更像是一个分布塑造工具(distribution shaping tool),通过强化模型自身的内在一致性来提升置信度,从而重塑了现有知识的分布。

      持续的EM训练可能会过度强化模型已有的先验偏差,导致输出结果过度集中于狭窄、过度自信的 token 分布,从而加剧算法偏差并导致输出显著偏离正确路径,最终损害了模型的实际推理性能。

      05月28日,游泳世界杯仁川站收官 中国队斩获7金4银1铜◆■★■★,必威手机客户端官网,互博国际手机客户端,江南游戏网页版■★★,ag线日厦门绘就高素质高颜值现代化国际化城市画卷彩票快三正规app香港马经中欧官网体育威尼斯线日北京建设中西医结合研究所 推动中医药融入全球卫生体系10BET官方网皇冠即时比分手机版best365最新下载欧宝手机APP

      通过对模型Logits分布的深入分析发现,熵最小化(EM)和强化学习(RL)对模型内部置信度的影响方向截然相反。

      特别是在AMC23基准测试中,经过EM增强的Qwen2◆★◆.5-Math-7B达到了具有竞争力的70★■★■★★.3分,逼近领先的RL模型这些结果清晰地表明,熵最小化(EM),尽管比典型的强化学习方法更简单■◆◆■、数据效率更高,但在增强基础语言模型在数学推理任务上的性能方面,具有巨大的潜力★◆★。

      EM的核心理念是无需任何标注数据或外部监督来训练模型,仅依赖模型自身预测分布的熵(entropy)进行优化。

      研究发现,在RL之前应用EM可以带来有益的对数分布偏移,未来的工作可以系统地研究不同的EM与RL结合的时间表■◆、课程策略及其相互作用,探索构建更强大混合方法的可能性。

      RL训练后,即使经过reranking★■★◆★★,这些原本低概率的token往往只占据概率分布中的中间位置■★★★◆,需要更高的采样温度才能被选中。

      模型将更多的概率质量集中在少数它认为「确定」的token上,使得原本高概率的区域进一步向高分区间扩展。

      尽管Multi-shot使用了更多的样本■■,但One-shot EM通过单个样本实现了更稳定和细致的优化,有效减少了样本偏差并缩小了输出方差◆★★,进一步强化了EM在数据极度稀缺场景下的吸引力。

      大型语言模型在生成每个token时,会先产生一组未经归一化的分数Logits,随后通过Softmax函数转换为概率分布■■,决定了下一个token的选择。

      熵最小化(EM)的成功依赖于「模型的预测不确定性」可以作为「有意义的训练信号」■■■◆◆。

      05月28日河南郑州发布大雾黄色预警 局地能见度小于200米斗牛什么情况可以抢庄金沙游戏官网万博官网下载app天博app克罗地亚

      05月28日,联合国教科文组织报告★■★★:乌克兰重建科学基础设施将需要超过12亿美元■★,看4张牌抢庄斗牛app,亚慱体育app官方下载534,银河在线APP■★◆■◆■,天博平台app入口

      05月28日◆■★★★,港交所调整特专科技公司及特殊目的收购公司并购交易规定,巴黎人线必发官网,斗地主打钱,果博网页版

      具体来说,EM训练模型将其概率质量更多地集中在其最自信的输出上,即正确答案通常比错误答案具有更低的熵值■■■★★◆。

      EM通过其独特的Logits右偏移效应提升模型的自信度■■■★■,增强模型的推理能力,并可能促进后续RL训练的更快收敛和更稳定优化。

      此外,许多常用的RL算法(如PPO)需要额外的奖励模型,不仅增加了算法复杂性◆◆,多训练步骤和漫长的采样过程也会大幅提升计算开销。

      使用使用无监督方法「单样本熵最小化」(One-shot Entropy Minimization, 简称One-shot EM)★◆★◆,仅需一条未标注样本和约10步优化★◆■,即可在推理任务上达到甚至超越依赖成千上万条数据和精心设计的奖励机制的RL方法的效果。

      令人意外的是★◆■■◆,即使EM训练损失继续下降,模型的数学推理性能反而开始下降。

      拳头回应Faker阿狸皮肤定价,家里人不同意一次性相亲两个男生缓解◆★★★◆★“一人住院 全家奔波■■◆”,国家指南来了!10年信誉九卅娱乐备用网址打不开亚洲网上娱乐平台云顶娱乐网页投注ag旗舰厅和国际厅区别

      研究表明■◆★◆■★,经过EM训练的模型,其Logits分布会显著地向右偏移,意味着模型在生成过程中,会反复强化自身的预测置信度■■★。

      老友记 第十季,2024KPL夏季赛即将开始(近观中国)习开启跨洋之行,元首外交进入“拉美时刻”365bet亚洲版大发在线试玩博乐棋牌手游网站是多少

      05月28日国际商事仲裁理事会发布第二版《纽约公约》释义指南亿博体育电子网投足球时时分雷速kok网页登录raybet雷竞技入口

      因此,Logits的分布形态直接反映了模型对其预测的「置信度」和对不同token的偏好。

      One-shot EM虽然高效◆★★,但也伴随超参数敏感性和一定的训练不稳定性。

      熵最小化(EM)可以作为现有后训练范式的有力补充甚至起点★■■■★◆,将EM应用在RL之前能够带来有效增益,使其成为RL的有效「启用基础」。

      虽然RL的目标是提升模型性能◆★■,但其导致的Logits左移被认为对大型语言模型的生成过程有害,减少了采样时的高概率路径数量,可能会削弱模型的整体性能。

      这种方差量化了模型对给定输入的预测不一致性■◆■■◆★:低方差意味着要么对正确性有高度信心(接近完美的成功)★■■★,要么对失败有高度信心(完全错误)。

      要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。

      即使只使用一个样本和极少的训练步骤(仅仅10步),EM方法极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差距。

      可以用贪婪解码(即总是选择概率最高的token)来解释——EM训练将概率质量高度集中在少数确定性token上,贪婪解码在这种分布下变得非常有效。

      相反■■◆,表现方差大的样本更能有效驱动模型降低熵值、明确决策边界,这也是为何只用一条高质量样本,就能快速推动模型的推理性能■■■◆★。

      给定一个输入提示x(例如一个问题或问题描述),模型根据其当前策略自回归地生成一个响应序列 y=(y1,y2■★◆,…,yT)◆★◆■,其中T是生成序列的长度。核心思想是通过在每一步生成时最小化标记级别的熵,来减少模型对其自身预测的不确定性。

      One-shot EM的成功,不仅在于其惊人的数据和计算效率★★★★,还在于它为LLM后训练提供了一种完全无监督的、可落地的替代方案◆◆◆,不需要人工标注数据★◆◆,不需要构建复杂的奖励模型,极大地降低了后训练的门槛和成本。

      其有效性基于一个关键假设和一个简单直觉★■■★◆:如果一个模型本身足够有能力★◆★■,那么当它对其预测结果更「自信」时★◆,也更有可能是正确的■◆◆◆■。

      通过优化目标来降低模型生成序列的熵,EM可以促使模型变得更加「自信」,从而强化其在预训练阶段已经获得的能力。

      主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)★★■■。

      05月28日奥运在中国·浙江杭州:攀岩运动迎来热潮 新兴奥运项目激发小镇新活力韦德游戏注册开运官网app下载安装沙巴体育网站下载伟德最新首页

      研究人员在多个数学推理任务上测试了熵最小化(EM)的效果,结果显示,仅一条样本★■★◆、10步训练,EM方法即大幅提高了Qwen2■◆.5-Math-7B的性能★★■:

      研究人员推测■★◆◆★◆,这是受到训练过程中「真实」(ground-truth)信号的影响。

      赵丽颖出妆,勇士不敌快船争夺慢病患者,药店打响留客之战im体育快速登陆火狐体育全站官网众博娱乐正规买球的app

      简单而言,该损失函数鼓励模型提高对自身预测的信心,无需依赖外部监督信号或奖励函数★◆◆◆◆。

      平均性能的最大值最初增加,随后在温度约为0.5时开始下降。较高的温度带来更好的平均推理能力■◆★◆★■,而适中的温度(如0★◆■◆■.5)则导致更大的性能波动,从而为更高的峰值性能创造了机会。

      RL通过外部奖励函数来调整模型的行为,会惩罚那些模型预测概率很高但与地面真实不符的token

      这种「过度自信」现象可能是由于持续的EM训练过度放大了模型在推理过程中对其自身生成 token 的置信度。

      05月28日,从热播剧《繁花》看滇菜“出滇记”,视讯真人游戏投注登录◆◆■★◆◆,凯时苹果版,皇冠赌场网站,扑克王haobc

      EM训练同时展现出显著的随机性,即便设置完全相同■◆★◆■,四个数学推理基准测试的平均得分也会因种子不同而相差高达两倍。

      同时,当前EM在Token级别操作★■,未来的研究可以探索在序列或语义单元上应用结构化熵◆★★◆◆■,或引入任务特定先验知识和自适应熵正则化,以释放更多潜力。

      研究人员采用了一种基于「模型表现方差」的样本筛选方法,来选择更具有信息量的输入提示:通过计算模型多次生成结果的准确性方差,挑选模型表现不稳定的样本进行训练。

      即使在EM后再进行RL训练,Logits分布的偏度也会从EM后的高值有所下降,遵循RL的趋势◆★★■■,其差异和塑造了EM和RL完全不同的推理采样策略。

      05月28日专访秘鲁驻北京商务处参赞:钱凯港开港事关秘鲁未来发展jxf吉祥网手机凯发娱乐官网登录手机号理财婆好的体育平台推荐……

      研究人员在多个不同的基础模型上评估了one-shot EM的效果,结果表明,仅通过单个样本和极少的训练步数,EM 能够持续且显著地提升这些模型在数学推理基准测试上的性能。

      在评估阶段,随着采样温度的升高,EM模型在四个数学推理基准测试上的平均表现持续下降。

      EM作为一种分布塑造工具,与SFT、RLHF等现有后训练技术概念上正交。

      虽然基于RL的微调可以显著提升模型性能★◆■★◆★,但其十分依赖大规模、高质量的标注数据,其训练效果也取决于开发人员设计的复杂奖励函数,需要专家知识来最大化优势信号并防止模型「奖励作弊」◆◆。

      实验中,EM 训练后的模型在评估时表现出与采样温度的相反趋势:随着温度升高,性能下降。

      最近,Ubiquant研究团队提出一项LLM后训练的突破性研究◆◆◆★★★,用13◆★★■★◆,440组大模型训练实验对比证明了一件事:

      殡仪馆副馆长为敛财改收费标准★■,2025届高校毕业生预计规模1222万人中俄人文交流蓬勃开展18luck在线贝博体育官网入口网页版欧宝在线体育平台大地棋牌游戏

      EM的核心优势在于其极高的效率和对数据的极低需求■★★◆,研究发现,One-shotEM实际上比 Multi-shotEM表现出更好的性能和更强的泛化能力■■■◆。

      EM甚至可以作为SFT或RLHF过程中的一种正则化策略◆■★■,或作为现有模型的「信心压缩」层。

      然而,当应用于已经过大量RL广泛微调的模型(如 SimpleRL-Zoo)时,One-shot EM反而可能导致性能下降,与在RL之后应用EM可能锁定狭窄、过度自信的输出模式并损害性能的发现一致。

      9界线■■■,巴基斯坦外交部宣布召回驻伊朗大使探访南京各大景区博物馆 外籍志愿者为游客提供讲解服务顶级官方赌场直营网英皇体育注册彩金万博官网登陆页银河贵宾网

      未来的工作需要探索早停标准或自适应调度机制★★,以及减少训练的随机性★■★,以进一步稳定和提升EM的效果。

      那么为什么熵最小化能这么有效果呢◆■◆◆?熵在模型的训练和推理过程中起到什么样的作用呢?

      在具备强大的通用性能之后◆◆★■★★,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。

      由于其完全依赖于模型本身而非外部信号,和预训练目标完全兼容,在有效简化优化过程的同时可能带来潜在对于模型内一致性的破坏。

      EM训练显著提高了Logits分布的偏度■◆★■■★,呈现右偏;而RL训练则显著降低了偏度★■★★■,甚至导致左偏。