出品 | 搜狐科技
作者 | 潘琭玙
8月24日,在好未来20周年直播活动中,CTO田密宣布好未来自研的数学领域千亿级大模型MathGPT开启内测。
(资料图片)
好未来介绍,MathGPT是面向全球数学爱好者和科研机构,以解题和讲题算法为核心的数学垂直领域的大模型,也是国内首个专为数学打造的大模型。
MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答。在与GPT-4、文心一言的横向对比中,MathGPT在数学应用题能力上表现优于文心一言、不如GPT-4。
作为垂直于教育的数学领域大模型,MathGPT比起通用大模型能够更细致地拆解题干、提供重难点提示,也将有助于学生更好地吸收知识点。
田密表示,“好未来在数学的数据和业务上有20年的积累,有大量的教育数据的积累和持续生产教育数据的能力,所以选择做这个难而正确的事情。”好未来希望用自己在数学和AI上的多年积累,做好AI大模型时代的数学基础工作。
小学数学考试能拿90分
此前,国内外巨头的大模型都被冠上“文科生”的名号,在翻译、内容概括摘要、理解文本和生成对话等方面表现出色,但涉及逻辑与计算问题时会出现胡言乱语的情况。
好未来团队指出,大模型“偏科”问题是因LLM模型的自身特点决定的。他们此前表示,“LLM大模型来自对海量语言文本的训练,因此最擅长语言处理。”
基于此,好未来的MathGPT结合大语言模型和计算引擎,大语言模型负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以提高题目解答正确率。
进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。
用户可以选择不同类型的数学题目进行针对性训练,也可以直接通过底部的对话框向MathGPT提问。用户可以通过文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。
搜狐科技随机选取了一份小学数学考卷的前10题,包含简单的几何、找规律以及算数题,MathGPT能够回答正确9题,并且梳理出了解题逻辑以及考点。
会解函数,不会解方程
据MathGPT官网显示,MathGPT的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问,暂未开放数学之外的问答互动。
搜狐科技随机搜索一套高中数学题,通过图片提问的方式输入指令。
在五个题目中,仅有第三题的几何图片无法直接转化为文字指令,其他四题MathGPT均能够准确将公式与数学符号转化为文字。
在准确率上,四题答案均正确,并且解题过程完整,包含了分析题干、详解题目,也提炼出了题目所考核的知识点,但其中两题的分析过程语言出现了英文。
但在解方程时,搜狐科技输入两道简单的一元一次方程求X或Y值的题目,其中一题MathGPT答案错误,并且解题方法也是错误混乱的。
第二题虽然MathGPT给出了正确的结果,但在解答过程中的推理都是错误的。
数学应用题解答能力不如GPT-4、优于文心一言
根据MathGPT技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,好未来的MathGPT取得了多项测试的最高分数。同时,MathGPT在C-Eval的初高中的全科测试集合上也均有不错的表现。
基于此,搜狐科技选取三种不同难度的应用题,同时对MathGPT、GPT-4和文心一言进行测试。
在难倒一众大模型“文科生”的鸡兔同笼题目上,搜狐科技以“鸡兔同笼,头共20个,足共62只,求鸡与兔各有多少只?”该题目对三个大模型进行测试,均回答正确。其中,文心一言与MathGPT的解题逻辑相比GPT-4会更简洁易懂。
(文心一言答鸡兔同笼)
(GPT-4答鸡兔同笼)
(MathGPT答鸡兔同笼)
同时,MathGPT的优势在于,通过【分析】、【详解】与【点睛】三个模块拆解数学题进行解析,分析题干并且总结知识点,同时也给到了第二种解题方法“方程解答”。
第二题是以设X,列一元一次方程式解答的应用题,题干为:“杰森往池塘水面上的扔一块石头。石头在池塘表面反弹三下。如果第二次弹跳是第一次弹跳距离的一半,第三次弹跳是第二次弹跳距离的四分之一,弹跳之间的总距离是 65 英寸,那么岩石在第一次弹跳时移动了多少英寸?”
结果表明,GPT-4的答案与解题过程正确,文心一言的解题过程与答案均错误。MathGPT在设X与列出方程的步骤是正确的,但是在解方程的过程中出现错误。
(文心一言答案)
(GPT-4答案)
(MathGPT答案)
第三题能够以等量代换的逻辑解答,题干为:“1个苹果=2个梨,3个梨=4个橙子,6个橙子=7个香蕉,56个香蕉等于多少个苹果?”
结果显示GPT-4过程与答案正确,文心一言解题逻辑正确但答案错误。MathGPT能够总结出题目知识点是等量代换,但解题思路与分析均错误。
(文心一言答案)
(GPT-4答案)
(MathGPT答案)
田密认为,大模型的本质,是一种更高效的、从数据中学习知识并加以应用的方式。在AI能力的加持下,“学生自学+AI答疑”的新型学习方式成为可能。MathGPT作为垂直大模型,在答案之外能够更详细地总结出解题思路、思考方式以及对题目的考点、难点、关键点进行提示。但若要真正成为“AI家教“,辅助学生完成自学,在准确率上仍有较大提升空间。
据田密介绍,随着内测的顺利进行,MathGPT的解题能力将得到持续提升,基于MathGPT的产品级应用也正在加速研发中,将于近期发布。
关键词: