哈希力量归集文库路径访问: 首页 > 通用人工智能 > 学界观察 • 分析短评

人工智能解决数学题:“大力未必出奇迹”

张双虎 ☉ 文 收录源:中国科学报 2021-11-18 @ 哈希力量

【小哈划重点:孙茂松解释说,让人工智能解决数学应用题还是有难度的。当前的人工智能技术都是基于大数据的一种概率式推断模型,其内部并没有深刻的理解机制。】

大模型可能是人工智能发展的一个突破口,但参数量并非是通向人工智能的唯一途径。XBT哈希力量 | 消除一切智能鸿沟

日前,人工智能研究机构OpenAI的研究人员使用新方法,训练出一个会做数学题的系统——GPT-f。它能像真正的学生一样,解决90%的数学应用题。在提供的数据集中进行的小样本测试表明,9至12岁学生测试正确率为60%,该系统测试正确率为55%。XBT哈希力量 | 消除一切智能鸿沟

这个仅60亿参数的GPT-f,在解决数学应用题方面,效果直逼参数规模高达1750亿的GPT-3。在业界认为人工智能的大模型时代已经到来的背景下,这是否能引发大家的一些“冷思考”?XBT哈希力量 | 消除一切智能鸿沟

不俗的成绩XBT哈希力量 | 消除一切智能鸿沟

去年6月,OpenAI推出GPT-3。这个能完成对话、搜索、写作等多项任务的大模型一面世就引起轰动。尤其在文本生成方面,GPT-3的表现几乎可以与人类的作品媲美。XBT哈希力量 | 消除一切智能鸿沟

在训练GPT-f时,研究人员创建了高质量、高多样性、中等难度和自然语言的答题形式的数据集(GSM8K)进行反复训练。测试结果发现,这个仅60亿参数的GPT-f准确率翻倍,甚至优于拥有1750亿参数、采用微调方法的GPT-3模型。XBT哈希力量 | 消除一切智能鸿沟

“GPT-f能达到这个效果还是有些出乎意料。”清华大学人工智能研究院常务副院长孙茂松对《中国科学报》说,“但它并未提出非常深刻的问题,没那么让人惊喜,也不必做过度解读。”XBT哈希力量 | 消除一切智能鸿沟

孙茂松解释说,让人工智能解决数学应用题还是有难度的。当前的人工智能技术都是基于大数据的一种概率式推断模型,其内部并没有深刻的理解机制。比如,曾轰动一时的GPT-3本身是个语言模型,它看过大量人类创作的作品,包括互联网上发表的文章,所以它能在写文章、自然对话、语义搜索甚至自动编程等方面有着不俗的表现。然而,它很难完成需要精细理解的多步骤推理任务,比如解决小学阶段的数学应用题。XBT哈希力量 | 消除一切智能鸿沟

“做数学应用题首先要正确理解题意,才能把题做出来。”孙茂松说,“虽然实现这一任务对人类来说很简单,但对人工智能而言目前尚缺乏一个有效的理解机制,尽管类似GPT-f这样的模型可以推导出正确的答案,但难免也会产生严重的逻辑错误。”XBT哈希力量 | 消除一切智能鸿沟

让人工智能在复杂逻辑条件下,具备解决问题的能力,模型必须具有判别自身错误的能力,并谨慎地执行之后的过程。为此,OpenAI的研究者用一个训练“验证器”来判断模型完成的正确性。XBT哈希力量 | 消除一切智能鸿沟

OpenAI的GSM8K数据集由8.5K高质量小学数学应用题组成,每个问题需要2到8步解决,涉及加减乘除运算,难度近乎9至12岁小学生的数学题。在测试阶段,这个验证器会生成多个候选解决方案并选择排名最高的一个。XBT哈希力量 | 消除一切智能鸿沟

“我没想到GPT-f能得这么高分,即使它取得30多分我也觉得合理。”孙茂松说,“它能把这件事做得跟小学生及格分数差不太多的确很不容易。”XBT哈希力量 | 消除一切智能鸿沟

不公平的对比XBT哈希力量 | 消除一切智能鸿沟

时至今日,参数规模达1750亿的GPT-3仍被人们视为“大力出奇迹”的结果。而仅凭新的“验证”方法,只有60亿参数的GPT-f就在数学“考试”中胜出。大模型的算力和数据的“千斤”,真的不如算法“四两”么?XBT哈希力量 | 消除一切智能鸿沟

专家认为,用更小的参数规模达到和大模型差不多的效果的确不错,但仅拿数学“考分”来对比并不公平。XBT哈希力量 | 消除一切智能鸿沟

“从论文上看,两者方法上并没有本质的不同。”孙茂松说,“GPT-f是针对特定的任务做了调整,针对数学语料做过专门训练,用验证的方法反复‘折腾’数据,让它发挥较大的效益。”XBT哈希力量 | 消除一切智能鸿沟

与之相比,GPT-3是自然语言处理方面的模型,就像一个擅长写作的“文科生”,做数学题不是它的强项,它也没有专门针对这个问题的语料库进行训练。XBT哈希力量 | 消除一切智能鸿沟

“这(GPT-f)算是一个算法的创新吧。”中科院自动化研究所模式识别国家重点实验室研究员王金桥对《中国科学报》说,“GPT-3相当于一个通用模型,有比较开放的数据集,里面数据杂乱,什么都有。现在GPT-f虽然只用8.5K的数据集和60亿参数,但它的数据质量特别高,而且针对于小学数学题进行训练,相当于一个专有领域的模型。”XBT哈希力量 | 消除一切智能鸿沟

虽然用了更小的参数量,但GPT-f在算法和数据两个方面都做了改善。为解决逻辑关系,GPT-f加了一个验证模块,但同时也带来了新的问题。XBT哈希力量 | 消除一切智能鸿沟

“现在它仍然缺乏可解释性。”王金桥说,“即使我知道它验证的答案是正确的,但不知道验证的中间步骤对错,不知道它是怎么推理出来的。”XBT哈希力量 | 消除一切智能鸿沟

OpenAI在论文中所展现的10个数学实例也表明,使用验证方法比单纯扩大参数表现得更加智能,但缺点是并不稳定。XBT哈希力量 | 消除一切智能鸿沟

专家认为,任何一项技术的发展,都要经历兴起、成熟再到落地的过程。从发展规律来看,大模型刚刚兴起,大家正在围绕模型体量及模型体量带来的推动效应展开探索。从目前发展阶段来说,这种拥有巨量数据和更强算力的大模型表现“更突出,贡献还是会更大一些”。XBT哈希力量 | 消除一切智能鸿沟

“大模型可能是人工智能发展的一个突破口,但参数量并非是通向人工智能的唯一途径。”清华大学教授、智源研究院学术副院长唐杰告诉《中国科学报》,“OpenAI 60亿参数的GPT-f表现出众,也说明算法、算力或数据任何一方面都有可能在未来发展中,在特定条件下取得优势。”XBT哈希力量 | 消除一切智能鸿沟

不可能精通所有领域XBT哈希力量 | 消除一切智能鸿沟

在人工智能技术解决数学问题方面,我国也有类似的研究,但国内多是用传统的小模型并针对具体问题进行研究。研究者要先知道问题是什么、其关键的逻辑关系是什么,然后针对这类题设计方法,“分而治之”。XBT哈希力量 | 消除一切智能鸿沟

这相当于一类题型用一种方法解决,而GPT-f的强大之处在于它能用一些中间标签进行验证推理,并根据中间结果总结出一套规律,应用于所有的数学题。XBT哈希力量 | 消除一切智能鸿沟

“从GPT-f的表现可以看出,高质量的数据资源非常重要。”王金桥说,“数据能让人工智能‘见多识广’。”就像人类想取得好成绩需要“刷题”一样,人工智能也需要见识各种“题型”(数据),然后从中总结规律和学习推理关系。XBT哈希力量 | 消除一切智能鸿沟

“对于提升人工智能效果来说,首先是数据规模要大、质量要高。”王金桥说,“其次,还要有大的参数规模,这样才能避免训练出一个‘死记硬背’的数学模型;第三,我们要利用计算中心的算力,发展专用和通用两类大模型。”XBT哈希力量 | 消除一切智能鸿沟

王金桥解释说,从利于实际应用的角度出发,目前应针对某一专门领域或场景来设计模型,每个模型解决一个或一类任务。XBT哈希力量 | 消除一切智能鸿沟

“即使像人类这样,有非常厉害的大脑,并最终拿到博士学位,也只能是某个小领域的专家,不可能精通所有领域。”王金桥说,“‘学得越好、领域越小’,大模型也是这样,因此要分两个层次发展,一是针对某一行业或领域的知识、数据形成的专用大模型;二是发展通用普适性的超级大模型。”XBT哈希力量 | 消除一切智能鸿沟

人类在掌握某项技能时,有个“1万小时”定律,即要成为某领域的专家,至少要学习和练习1万小时。同样,人工智能模型也需要针对某一领域的知识、数据进行专门训练,并结合大的算力取得优异的表现。XBT哈希力量 | 消除一切智能鸿沟

相关论文信息:XBT哈希力量 | 消除一切智能鸿沟

https://arxiv.org/pdf/2110.14168.pdfXBT哈希力量 | 消除一切智能鸿沟

https://github.com/openai/grade-school-mathXBT哈希力量 | 消除一切智能鸿沟

《中国科学报》 (2021-11-18 第3版 信息技术)XBT哈希力量 | 消除一切智能鸿沟

(收录有删节)XBT哈希力量 | 消除一切智能鸿沟



收录源追溯链接或暂略


本文收录后固定可引用URL链接
    http://www.haxililiang.com/toutiao/redian/34202.html


☉ 文库同一主题内容智能推荐 ☉
哈希力量 ☉ 人机智能科普文库