"AI家教"上线？搜狐科技实测好未来MathGPT：小学数学考试能拿90分

出品 | 搜狐科技

作者 | 潘琭玙

8月24日，在好未来20周年直播活动中，CTO田密宣布好未来自研的数学领域千亿级大模型MathGPT开启内测。

(资料图片)

好未来介绍，MathGPT是面向全球数学爱好者和科研机构，以解题和讲题算法为核心的数学垂直领域的大模型，也是国内首个专为数学打造的大模型。

MathGPT是否意味着“AI家教”成为可能？搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答。在与GPT-4、文心一言的横向对比中，MathGPT在数学应用题能力上表现优于文心一言、不如GPT-4。

作为垂直于教育的数学领域大模型，MathGPT比起通用大模型能够更细致地拆解题干、提供重难点提示，也将有助于学生更好地吸收知识点。

田密表示，“好未来在数学的数据和业务上有20年的积累，有大量的教育数据的积累和持续生产教育数据的能力，所以选择做这个难而正确的事情。”好未来希望用自己在数学和AI上的多年积累，做好AI大模型时代的数学基础工作。

小学数学考试能拿90分

此前，国内外巨头的大模型都被冠上“文科生”的名号，在翻译、内容概括摘要、理解文本和生成对话等方面表现出色，但涉及逻辑与计算问题时会出现胡言乱语的情况。

好未来团队指出，大模型“偏科”问题是因LLM模型的自身特点决定的。他们此前表示，“LLM大模型来自对海量语言文本的训练，因此最擅长语言处理。”

基于此，好未来的MathGPT结合大语言模型和计算引擎，大语言模型负责理解题目、分步解析，并在合适的步骤自行调用计算引擎，以提高题目解答正确率。

进入MathGPT首页，有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。

用户可以选择不同类型的数学题目进行针对性训练，也可以直接通过底部的对话框向MathGPT提问。用户可以通过文字或图片方式上传数学题，即可得到对话式的解答反馈，也可以通过“随机来一题”的按钮，随机生成数学题目并由系统给出解答。

搜狐科技随机选取了一份小学数学考卷的前10题，包含简单的几何、找规律以及算数题，MathGPT能够回答正确9题，并且梳理出了解题逻辑以及考点。

会解函数，不会解方程

据MathGPT官网显示，MathGPT的数学计算能力已覆盖小学、初中、高中的数学题，题目类型涵盖计算题、应用题、代数题等多个类型，还可以针对题目进行追问，暂未开放数学之外的问答互动。

搜狐科技随机搜索一套高中数学题，通过图片提问的方式输入指令。

在五个题目中，仅有第三题的几何图片无法直接转化为文字指令，其他四题MathGPT均能够准确将公式与数学符号转化为文字。

在准确率上，四题答案均正确，并且解题过程完整，包含了分析题干、详解题目，也提炼出了题目所考核的知识点，但其中两题的分析过程语言出现了英文。

但在解方程时，搜狐科技输入两道简单的一元一次方程求X或Y值的题目，其中一题MathGPT答案错误，并且解题方法也是错误混乱的。

第二题虽然MathGPT给出了正确的结果，但在解答过程中的推理都是错误的。

数学应用题解答能力不如GPT-4、优于文心一言

根据MathGPT技术报告显示，在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中，好未来的MathGPT取得了多项测试的最高分数。同时，MathGPT在C-Eval的初高中的全科测试集合上也均有不错的表现。

基于此，搜狐科技选取三种不同难度的应用题，同时对MathGPT、GPT-4和文心一言进行测试。

在难倒一众大模型“文科生”的鸡兔同笼题目上，搜狐科技以“鸡兔同笼，头共20个，足共62只，求鸡与兔各有多少只?”该题目对三个大模型进行测试，均回答正确。其中，文心一言与MathGPT的解题逻辑相比GPT-4会更简洁易懂。

（文心一言答鸡兔同笼）

（GPT-4答鸡兔同笼）

（MathGPT答鸡兔同笼）

同时，MathGPT的优势在于，通过【分析】、【详解】与【点睛】三个模块拆解数学题进行解析，分析题干并且总结知识点，同时也给到了第二种解题方法“方程解答”。

第二题是以设X，列一元一次方程式解答的应用题，题干为：“杰森往池塘水面上的扔一块石头。石头在池塘表面反弹三下。如果第二次弹跳是第一次弹跳距离的一半，第三次弹跳是第二次弹跳距离的四分之一，弹跳之间的总距离是 65 英寸，那么岩石在第一次弹跳时移动了多少英寸?”

结果表明，GPT-4的答案与解题过程正确，文心一言的解题过程与答案均错误。MathGPT在设X与列出方程的步骤是正确的，但是在解方程的过程中出现错误。

（文心一言答案）

（GPT-4答案）

（MathGPT答案）

第三题能够以等量代换的逻辑解答，题干为：“1个苹果=2个梨，3个梨=4个橙子，6个橙子=7个香蕉，56个香蕉等于多少个苹果？”

结果显示GPT-4过程与答案正确，文心一言解题逻辑正确但答案错误。MathGPT能够总结出题目知识点是等量代换，但解题思路与分析均错误。

（文心一言答案）

（GPT-4答案）

（MathGPT答案）

田密认为，大模型的本质，是一种更高效的、从数据中学习知识并加以应用的方式。在AI能力的加持下，“学生自学+AI答疑”的新型学习方式成为可能。MathGPT作为垂直大模型，在答案之外能够更详细地总结出解题思路、思考方式以及对题目的考点、难点、关键点进行提示。但若要真正成为“AI家教“，辅助学生完成自学，在准确率上仍有较大提升空间。

据田密介绍，随着内测的顺利进行，MathGPT的解题能力将得到持续提升，基于MathGPT的产品级应用也正在加速研发中，将于近期发布。

关键词：