当面对复杂的数学问题时,大脑会自动开始一种特殊的思维方式。首先,分析问题,然后逐步猜测,最后得到答案。这个过程似乎很简单,但这对于人工智能来说是一个巨大的挑战。最近,Google的DeepMind研究团队在该领域取得了重要进步,其发现发表在2024年的《自然机器智能》中。由阿维·辛格(Avi Singh)和约翰·舒尔曼(John Schulman)等研究人员领导的这项工作揭示了AI系统如何学会进行复杂的推论,例如人类。这项研究就像教学生极为聪明但没有经验的方法解决难题。传统的AI系统记住很多信息,但经常证明能够面对需要多个推理步骤的复杂问题。研究人员发现,关键是通知您要记住更多答案,但教他们如何思考问题。他们开发了一种名为“ Pro的新方法”“这不仅集中在AI是否给出正确的答案上,还集中于AI的推理是否在解决问题的过程中是否合理。研究人员选择了数学推断为他们的测试场景,因为数学问题的数学问题将数学问题定为逻辑结构,并且可以清楚地评估学生的培训,并允许对他们进行培训的培训。他们在数学上做出了多项培训。他们是否正确地设计了数学的方法。但还仔细地验证了解决问题的所有步骤,以及AI推理的主要挑战Le选择先教基本概念,然后演示解决问题程序,并最终使学生反复练习。但是,传统的培训方法不会教给学生解决问题的思维过程,而是直接向学生传达回应。这就是一切。研究人员发现,现有的大规模语言模型在许多任务中都很好地工作,但通常存在需要严格逻辑推理的问题。这些模型可以在解决问题过程中突然“跳到”答案,或者推理链中可能存在错误。学生可能已经获得了正确的结果,因为他们记得了类似问题的答案,但实际上他们不了解解决问题的原则。 DeepMind团队意识到,要为AI真正主导推理,有必要改变他们的训练方式。他们提出了一个重要的观点。而不是仅专注于最终答案是否正确,而是最好在绘制答案的过程中将IA的推理集中在每个步骤中。这种思想的变化就像是“面向 – 面向 – 面向的”教学方法。为了实现这一目标,研究团队开发了令人难以置信的评估系统。在此系统中,AI解决方案问题的每个步骤都将收到详细的评论。如果AI在推理的特定步骤中犯了错误,则系统将立即表示问题。您将需要您重新恢复AI。此方法需要大量的手动注释工作,研究人员必须仔细检查AI生成的所有推理步骤以确定其校正。这种细致培训方法有效地产生了重大改进。 AI系统的准确性不仅得到了改善,而且更重要的是,它开始显示出更稳定和可靠的推论。当他们面临新问题时,这些受监控和训练的系统可以更好地应用推理原则学会了,而不是简单地相信记忆模式。 2。过程监督和学习加强:改变AI的思维方式。研究团队开发的中央技术称为“过程监督和增加学习”。这个名字听起来很复杂,但实际上,其背后的原理非常直观。我们可以将Ello视为非常详细的个人教练。教练不仅告诉运动员他们如何在最终表现中工作,而且还分析了每个运动的细节,并指出应标准化和改进的运动。我会选择它。 AI的传统培训通常仅在完成整个系统后才收到评论。例如,如果AI想解决数学问题,则传统方法仅在给出最终响应后才说出它是正确或不正确的。但是,过程加强学习是完全不同的,并在AI推断的每个步骤中提供了反馈。当AI写第一个林e推理,系统评估了此步骤是否正确。随着AI继续推断,系统评估下一步。这个过程一直持续到解决问题为止。这种方法的优势很明显。在解决数学问题时,研究他们认为第三步中存在错误,但最终两个错误彼此取消,因此他们得到了正确的答案。尽管传统的评估方法认为学生做得很好,但过程监督方法有助于确定问题并纠正学生的不正确推理步骤。为了实现这一复杂的监督,研究人员必须构建大量标记的数据。他们雇用了大量训练有素的得分手,他们仔细检查了AI产生的每个推理步骤。分数确定推理中的每个步骤在逻辑上是否符合数学原理,还是与上一步一致。这个过程在洛杉矶非常缓慢和密集BOR,但这是实现高质量流程监督的必要条件。在获得足够的数据得分后,研究团队训练了“专业过程评估模型”。该模型就像一个自动检查员,可以评估AI推理步骤的质量。该评估模型允许系统在AI推理过程中提供真实的时间注释,从而导致AI考虑正确的方向。强化学习技术在这里起着重要的作用。通过加强学习,AI系统可以根据每个步骤获得的评论来调整其推理策略。如果AI确定任何推论方法都可以获得积极的反馈,则倾向于在类似情况下采用此方法。相反,如果某些推论方法通常会导致负反馈,则AI将逐渐避免使用此方法。 3。实验设计:数学研究小组设计的方法的新过程,研究团队设计了Careand进行了一系列实验,以验证监督增加学习的影响。他们选择数学推断为主要测试区域,但这种选择并不是巧合。数学推理具有几个独特的优势。首先,数学问题具有正确且不正确的明确标准,并且没有主观判断的模棱两可的领域。其次,数学推断需要严格的逻辑链,并且每个步骤都必须基于先前的结果。最后,可以精确控制数学推断的复杂性,从简单的算术到复杂的几何测试。实验中使用的数据集包含不同级别难度的数学问题。研究小组始于小学的简单算术,并逐渐扩展到代数和中级学校的几何形状,甚至包括大学一级的数学技能。这种渐进的难度设计是如何组织完整的数学课程AI中的原始成绩,这使您能够逐渐获得基础知识的复杂推理技能。在实验过程中,研究人员将AI系统分为两组以进行比较。第一组使用传统的培训方法,仅在给出最终响应时才收到评论。第二组使用最近开发的过程加强学习方法来获得每个推论阶段的详细反馈。两个AI系统使用相同的基本模型和培训数据,但唯一的区别是反馈方法。为了确保实验结果的可靠性,研究团队还设计了各种评估指标。除了最基本的响应精度外,我们还评估了INF过程,逻辑一致性和适应新问题的能力的合理性。这种多维评估方法,例如从不同角度观察对象,可以更完整地了解AI系统的实际能力。 t他的实验结果表明,使用增加过程的学习训练的AI系统在所有指标中都效果很好。答案不仅显着改善,更重要的是,这些系统的推理过程变得更加稳定和可预测。当他们面对一种在培训中看不见的新问题时,他们使用了理论正确做出回应的推理原则,您也可以找到一个。过程监督培训尤其值得注意,可以显着提高AI系统的“可解释性”。传统系统Tiethey就像黑匣子一样,我不明白答案将如何看待。但是,通过流程监督培训的AI系统清楚地表明了他们的推理步骤,例如在考试期间编写详细的问题解决过程的学生。这种透明度对于需要高可靠性的应用程序方案非常重要。 4。提前结果:实验结果AI的推理能力的重大提高使研究团队兴奋。在竞争激烈的数学测试中,使用过程监视过程处理的AI系统将精度速度从41%的原始速度提高到73%。这是一个质的飞跃。更令人印象深刻的是,这种改进不是通过增加模型的大小或培训数据量来实现的,而是通过对这些结果进行深入分析后改善培训方法的方法,研究人员发现了几种重要趋势。首先,解决了几个步骤推理的问题使IA系统更加可靠。过去,AI在推论链中的特定链接中可能有错误,最终响应是完全不正确的。现在,即使存在复杂的问题,AI也可以在逻辑上维护它,连续性,推理步骤基于以前的正确结果。其次,IA系统表现出从示例中学习的更强能力并将其应用于其他示例。当您遇到一种在训练中看不到的新类型的问题时,经过AI传统训练的问题通常是毫无防备的,因为它主要基于记忆模式。但是,通过流程监督培训的AI可以使用精湛的推理原则在家庭子问题中划分探险标题并逐渐解决。研究小组还发现,过程监督培训对各种难度的问题产生了积极影响。在更简单的问题中,AI系统的错误率几乎降至零。对于中间故障问题,精度增加了20-30%。即使是最困难的问题也有10-15%的改善。这种全面的改进是,过程监督培训是对基本技能机制暴露的伊瓜斯特拉的推理。除了改善定量指标外,研究人员还观察到了AI推断质量的质量改善。解决问题的过程gen通过训练有素的系统通过对流程的监督进行的,更清晰,更容易理解。就像对优秀学生的任务一样,每个步骤都有明确的目的,并且没有良好的基础。这种变化不仅提高了答案的精度,而且还大大提高了AI系统的可靠性。为了证明这些改进的普遍性,研究人员还测试了其他类型的推理任务的新方法。结果表明,过程监督的互补学习不仅对数学推理有效,而且在逻辑推理和解决科学问题方面具有良好的结果。这表明他们发现的是一种新的AI培训范式,具有广泛的适用性,不仅是针对特定问题的解决方案。 5。技术细节:对过程监督的工作机制的详细理解。为了真正了解加强学习在过程监督中的力量,您必须对其T更深入地了解回声细节。整个系统的核心是一种复杂的反馈机制。这就像一位经验丰富的老师,他可以认识到学生思维过程中的所有细微变化。建立反馈系统是一般研究中最困难的部分。研究团队需要创建一个准确评估推理质量的模型。该模型必须能够理解数学逻辑规则,确定几个常见的推理错误并确定推理过程之间的一致性。为了训练这样一个复杂的评估模型,团队收集了成千上万的手动标记推理步骤示例。标签过程本身是一个很棒的项目。研究小组雇用了具有数学经验的专业得分手,以提供严格的培训。得分手必须学会识别不同类型的推理错误,包容性错误,逻辑跳跃和概念上的混乱。我们还需要了解细致的推理的性质,不太懒惰或太难。在获得足够记录的数据后,研究人员使用深度学习技术培训了过程评估模型。该模型的架构经过精心设计,以考虑单个推理步骤的精度和整个推理链的一致性。该模型不仅确定推理中的特定步骤是否正确,而且还考虑了此步骤是否符合上一步,以及它是否旨在解决问题。我会进步。增强学习算法在该系统中起着重要作用。研究人员采用了改进的战略梯度算法,使他们能够根据每个步骤的反馈信号调整AI推理策略。与传统的增强学习不同,这里的奖励信号并不稀少(仅在任务结束时给出),而是密集的(每个步骤中都有反馈)。这种密集的奖励在很大程度上加油tes学习过程,并允许IA更快地主导正确的推理模式。为了避免人工智能系统的过度调整培训数据,研究团队还引入了各种标准化技术。当然,他们使用策略允许AI从简单的问题开始,并逐渐朝着复杂的问题发展。他们还采用了敌对的训练方法,并有意给他一些困难来训练他以识别他并避免常见的推理错误。另一个重要的创新是“推理路线搜索”机制。尽管传统的AI系统生成的传统系统很少生成一个推理序列,但新系统可以同时探索多个可能的推理路线,并选择继续进行的最有希望的路线。就像一个国际象棋棋手一样,他同时考虑了多个运动,并在下棋时选择了最好的步骤。这种搜索机制大大提高了AI的可能性可以找到正确的解决方案。 6.应用程序的观点:从实验室转变为现实世界,这项研究的重要性远远超出了学术工作的范围,并为在现实世界中应用AI提供了新的可能性。对过程监督的互补学习不仅提高了人工智能的推论能力,而且还使AI的决定更加透明和可靠。这对于许多重要的应用领域非常重要。在教育领域,这项技术有望彻底改变在线学习经验。传统的AI导师系统可用,可以确定用户的响应是否正确,但不能指出思考过程中的问题。基于流程的教师可以根据过程进行分析 – 实时解决学生的步骤,并迅速发现不正确的想法。科学研究是另一个潜在的应用领域。科学发现很大EN需要复杂的逻辑推理和假设检验,并且过程校正培训系统在这方面表现出很大的潜力。研究人员开始研究技术在特定科学问题上的应用,例如化学反应和药物分子设计的预测。 AI不仅可以给出预性结果,而且可以清楚地解释预测的基本概念。对于科学家来说,这具有巨大的价值,以验证和改善AI的建议。在软件开发领域,流程监督和增加学习也提供了应用程序的观点。编程本质上是一个逻辑推理过程,程序员必须将复杂的问题分为一系列简单的步骤。如果IA编程参与者可以掌握此推论能力,他们可以更好地了解程序员的意图并生成高质量的代码。更重要的是,AI解释了编写代码本身的逻辑,帮助Pro语法者了解和维护代码。金融部门也是潜在应用的方向。财务分析需要基于大量数据的复杂推论,而主管离子受AI训练的系统提供了一个透明的分析过程。当AI提出投资决策时,不仅结论得出的结论,还提供了分析的每个步骤的详细说明,包括所考虑的因素以及如何权衡各种风险。这种透明度对于需要严格监督的金融业极为重要。医学诊断是另一个令人兴奋的应用领域。诊断疾病时,医生必须彻底查看各种信息,例如症状,测试结果,病史等。这个过程本质上是一个复杂的推断。流程监督受培训的AI系统可以模拟此诊断推理过程,提供诊断结果并提供详细说明诊断基本概念的s。这种可解释的诊断系统可以是强大的助手PFor医生,尤其是在资源领域。研究小组还想象着更广泛的应用的潜力。在法律领域,AI可以帮助律师对案件的分析和法律解释。在工程设计中,AI可以帮助工程师进行复杂的计算和优化。在科学教育中,AI帮助学生了解复杂的科学概念和原理。所有这些应用都有一个共同的功能。我们不仅要求您给出正确的答案,还需要为可靠的推理过程提供AI。 7.挑战和局限性:对技术发展过程和强化学习的监督的实际考虑,表现出巨大的潜力,但研究团队清楚地认识到这项技术面临的挑战和局限性。这些挑战就像在当时开发技术的道路上的石头Ology,必须克服一个。最重要的问题是计算机成本大幅增加。传统的AI培训只需要对最终结果的反馈,但是对过程的监督需要对每个推进步骤进行详细评估。这意味着培训过程需要更多的计算机资源和时间。研究小组估计,过程监督培训的计算成本大约是传统方法的计算成本的3-5倍。对于资源有限的研究机构和公司来说,这是一个很大的负担。数据注释的复杂性是另一个重要的挑战。为了培训高质量流程评估模型,研究人员需要大量的推理段落数据进行专业评分。这些注释任务不仅需要太多的tiempo,而且需要大量工作,而且还需要标记具有相应的体验。在数学推理领域,标记需要一个SOLID数学基础。当在其他领域应用时,标记还需要掌握相应的体验。获得此高质量标签数据非常昂贵。您还应该考虑到这是一个必须回答的问题。当前的研究主要集中于相对标准的数学推理领域,其数学推理具有明确的规则和标准响应。但是,在许多实际应用中,推理过程可能更复杂和主观。例如,在文学分析,艺术创作和商业决策等领域,很难定义“正确”推理的通过。如何扩展过程监督技术这些更开放和主观的领域仍然是一个问题。该模型的可伸缩性也面临证据。当前的实验主要是在相对简单的问题中进行的。如果问题的复杂性急剧增加,则INFERence链可能很长,包括数十个或数百个步骤。如何做到这是一个技术问题,可以在漫长的推理链中维持有效的监督和培训。同时,随着推理步骤的增加,累积错误的问题变得更加明显。研究人员还注意到了一个有趣的现象。它可以限制AI的创造力。在严格对该过程的监督下,AI倾向于采用标准化的推理途径,这可以防止创新的问题解决方法,同时提高精度。如何在保证质量质量的同时保持适度的灵活性是一个需要平衡的问题。评估标准的主观性也是一个挑战。尽管数学推理存在相对客观的标准,但即使在这一领域中,仍然对推理步骤和表示方法的确定性仍然存在某些主观判断。不同的得分手可以给出不同等级的同一INFE出口步骤,这种不一致会影响训练效果。 8。未来的发展:技术进化的可能途径可以期待未来,并且可以预期,增加的学习监督学习技术可以在多个方向上取得进步和改进。研究人员开始探索几种有前途的发展途径,可以促进AI推理能力的发展。自动注释是重要的开发地址。信任手动注释现在是昂贵且困难的CIL。研究小组正在研究使用AI帮助或交换手动注释的可能性。他们想象的是针对特殊“标记”的培训,该培训可以理解不同的推理模式,并自动评估推理步骤的质量。此自动标签添加了它,它可能不像手动标签那样精确,它可以大大降低成本并提高大型应用程序的生存能力。多模式推理是Anoth令人兴奋的方向。尽管当前的研究主要关注文本推断,但许多现实世界中的问题都需要结合不同的信息表格,例如文本,图像和数据表。研究团队正在寻找将流程监督技术扩展到多模式推理方案的方法。例如,在解决几何问题时,AI需要了解文本解释,并分析几何数字并有机地结合视觉信息和逻辑推理。层次推理体系结构是一个具有巨大潜力的技术方向。研究小组计划建立一个多个级别的推理系统,该系统负责在不同级别的抽象中推断任务。基础层处理基本的逻辑操作,中间层负责战略规划,并且上层对问题进行了一般分析。这种层次结构不仅提高了推理的效率,而且还提高了ES在每个级别上都会更加精确和具体的监督。个性化推理方式的种植也是一个有趣的研究地址。不同的人有不同的思维习惯和推理方式。有些人喜欢细致的分析,而另一些人则喜欢直观的跳跃。研究人员寻求允许AI系统适应不同用户的推理偏好的方法,并使用用户可以在保证逻辑精度的同时理解和接受的推理方法。联合推理是另一个有希望的方向。研究团队提供了多个协作以解决复杂问题的AI系统。每个AI系统都可以专门研究不同类型的推理,并最终通过相互讨论和验证得出可靠的结论。一个论点。该联合推理模型不仅提高了解决问题的准确性,而且通过系统之间的相互监督来提高推理的质量。实际 – 时间推理优化也是技术发展的重要方向。尽管当前的系统取决于先前训练的推理过程知识,但研究团队正在研究AI在推理过程中可以动态学习和调整的可能性。如果AI发现任何推理方法对特定问题无效,则可以调整实际时间策略并测试其他方法。领域之间知识的传递是提高系统实用性的重要技术。研究小组期望AI在该领域中学到的推理技能可以转移到其他相关领域。例如,可以将通过数学推理学到的逻辑分析技能应用于科学问题,并且可以使用以编程为主的分解技术来解决管理问题。最终,Google DeepMind的这项研究表明了AI技术开发的新讲话。工艺监督增强剂T学习代表了对AI能力的更深入的了解,而不仅仅是改善技术。通过关注AI的思维过程以及最终结果,研究人员找到了提高AI推理能力的新方法。这种技术进步的重要性远远超出了学术研究的范围。如果AI系统可以作为人类做出清晰而有条理的推理,那么它们可以成为更多地区人类的伴侣。无论学生是否了解复杂的概念,帮助科学家探索未知地区还是帮助专家做出重要的决定,具有强大推理能力的AI都起着关键作用。当然,技术的发展绝不是没有问题的导航。挑战CAS计算机成本,数据注释和普遍性要求研究人员继续努力解决这些问题。但是,正如研究团队所表明的那样,每个技术进步都提供了解决这些挑战的新想法和工具。有理由相信更多的回音弓箭手将参与该领域,并且持续的改进和技术改进将使AI系统能够执行更成熟和更实用的复杂推论。这项研究提醒我们,AI的开发不仅仅是使机器更强大,还使机器更容易理解和可靠。如果您能清楚地了解AI的想法以及为什么可以与AI更好地工作,以解决人类面临的各种挑战。这可能是这项研究的最深含义。 QAQ1:PR监督和加强学习与传统培训方法有什么区别?答:AI的传统培训仅意味着在完成任务后告诉AI正确或不正确的答案,并查看测试分数。过程监督强化学习在AI推理的每个步骤中都提供反馈,因为它验证了解决问题并指示他们在哪里的学生的所有步骤工作良好以及有问题的地方。这样,它不仅可以让您知道答案,还可以学习正确的思维过程。 P2:在现实世界应用中,这项技术面临的主要挑战是什么?答:主要挑战包括计算机成本的显着增加(传统方法的3-5倍),许多专家需要写下数据以及如何扩展到更具主观性领域。在技术素化学之前,主要在具有数学推理等明确标准的领域有效,但是需要进行更多的研究来在更多的开放领域(例如文学分析和艺术创作)应用更多的研究。 P3:在可以处理互补监督学习的哪些领域,您会创造真正的价值吗?答:这项技术在教育,科学研究,软件开发,财务分析和医学诊断领域具有巨大潜力。例如,在教育中,人工智能可以指导学生解决学生问题的想法IME,作为个人老师。在医疗保健方面,AI可以对诊断基础提供详细的解释,并成为医生的可靠助手。一个重要的优势是AI不仅给出答案,而且还清楚地解释了推理过程。
特殊声明:先前的内容(在照片和视频中关闭(如果有),则已由Auto-Media平台NetEase的用户收取和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。