GPT-4满分通过MIT本科数学考试！这套提示词火了

奥飞寺的房子

量子比特|公众号

没想到麻省理工数学考试被GPT-4破了？！

突然有人在最新论文中高调宣布：

GPT-4关于MIT的数学和EECS（电气工程与计算机科学系）本科学位考试，证明能力完全符合毕业要求。

并妥妥得满分！

要知道，测量这个结果的不是别人，正是麻省理工学院、波士顿大学和康奈尔大学的研究团队。

而且比上一代王者GPT-3.5还要强。同样的测试，它只成功了三分之一。

论文一出，顿时吸引了无数目光。

GPT-4看似黑客行为，自然引起了众多网友的感慨。

比GPT-3.5好得多，是的！

就说吧，以后有没有比GPT-4更强的模型就可以解决学术问题了？

有网友晒出了自己在网上冲浪的“新锐”，玩了一个YannLeCun这两天吐槽“GPT-4智商不如狗”的梗：

GPT-4开挂MIT考试

具体来说，GPT-4这次参加了这样一个测试：

研究团队策划了一个包含4,550个问题和解决方案的数据集。

这4,550个问题和解决方案来自麻省理工学院数学系和EECS学生需要学习以获得本科学位的课程问题集、期中和期末考试。

包括：

6-1：电气科学与工程；

6-2：电气工程与计算机科学；

6-3：计算机科学与工程；

6-4：人工智能与决策；

18-1：普通数学；

18-2：应用数学；

18-3：纯数学；

18-C：数学和计算机科学。

问题全部来自MIT数据集，随机生成228道题，不涉及图像和已有解。

题目难度从易到难依次为：习题、习题、期中考试、期末考试、实验、专题。

按题型排序，题目难度从易到难依次为：编程、开放式、选择题、数值、表达式、图像。

这次不仅有GPT-4和GPT-3.5参加考试，还有-13B、LLaMA-30B和LLaMA-60B。

这4个大型模型之所以被选为测试参赛者，是因为它们是“state-of-the-art大型语言模型”。

从表中数据可以看出，调优后的GPT-4得分最高，得分率为100%；表现最一般的是LLaMA-30B，只拿到了30%的分数。

值得注意的是，原来的GPT-4版本开箱即用，完全没有调优，在这次MIT考试中也取得了90%的成绩。

调优过程，包括Few-Shot+CoT+Self-+。

从最终测试结果的表格数据我们可以看出，从左到右每增加一个链接，调优后的GPT-4分数就会提升一个档次。

此外，研究团队还对提示框进行了工程优化。具体“法术”如下：

等等，评分者是GPT-4本人？

看到这样的结果，不少网友都觉得LLM在数学考试中的进度有点快。

2年前，AI在小学数学题上苦苦挣扎。

类似于“小明种了5棵柠檬树，每棵树每年得到6个柠檬，10年一共得到多少个柠檬”。

去年初，MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究称，通过将数学问题转化为等价的编程问题，GPT-3的兄弟Codex可以掌握高数，达到MIT本科水平。

我从麻省理工大学本科基础数学课程中随机抽取了6道样题。6门课程每门课程随机抽取25道题，加上来自ACT级别（美国高考）数据集的60道题。

AI总共回答了210个问题。

不过有人提出，AI做到的“麻省理工本科水平”其实是Codex在做语言题而不是数学题——

因为在当时的评测中，Codex是负责读写的，不包括。

所以，这一次GPT-4的表现极其出色，真是妙极了~

好吧，我知道你急着要表扬它，但先别急着表扬它，因为很快就有人发现了一些“奇怪”的东西。

主要有2个主要插槽。

首先值得质疑的是训练数据集没有完全发布。

这也意味着无法证明数据集中的4550个问题和解在GPT-4训练集中不存在。

也就是说，如果GPT-4在预训练阶段就已经接触过试题，那么它最终会打出满分，不会出现意外。

难怪有网友毫不客气地yygq，认为GPT-4得到这样的结果，一定是数据集被纳入了训练数据。

第二个slot是GPT-4最终100%的得分率。好像哪里不对？？？

仔细一看，论文2.6节有一个关键点：

该团队对数据集上的开源大型模型进行了微调，“给定一个问题Q、一个基本事实解决方案S和一个LLM答案A，我们使用GPT-4自动对模型响应进行评分。”

在实践中，每个大模型都会生成这个测试的答案，然后发送GPT-4进行评分，评分在0-5之间。

所以给GPT-4打满分的其实是GPT-4本身。

啊，这……难说没有王破卖瓜吹牛的嫌疑。

此外，许多人抱怨需要为GPT-4提供“好的提示”才能使其获得满分。

什么是“好建议”？似乎无法定义。

甚至有人喊话，要把这些题丢给MIT数学和EECS的学生去做，不断给他们“好提示”，让人类学生也能100%拿分……

还有一件事

一个小彩蛋：

在整个测试中，基本可以部署运行在笔记本电脑上的运-13B的得分率也达到了48%。

这个分数不仅比型号更大的LLaMA-65B高出近10个百分点，就连MIT微调后的LLaMA-30B也更高。

人们不得不对模型大小和能力之间的相关性进行一些思考

参考链接：

[1]

阅读更多内容

GPT-4满分通过MIT本科数学考试！这套提示词火了

相邻资料

最新课程

栏目专题

古诗词

孕期知识

期货投资

PHP编程

HTML5前端（CSS,JS,UI）

最新课程

名人专题

曾仕强

翟鸿燊

周鸿祎

张锦贵

周思敏

相邻资料

最新课程

AI学习圈 2024-AI学习圈：替代你的不是AI，而是会用AI的同事，让AI为你打工

AI作图 AI作图全能实战班：0基础开始 ai创意/ai摄影/ai置景/ai后期 (55节+资料)

兰彦岭 兰彦岭课程合集：《鬼谷子大商之道》+《兰彦岭讲鬼谷子》

华杉 华与华32个高增长模型，华杉领衔教学让产品立刻卖

胡渐彪 人性管理课 找对方向，做好引领，做聪明的管理者

陈译辉 波浪理论与图形分析法入门至精通

张萌 青创张萌财富的智慧第七期2024年

张景明 《以病案精讲内科常见病》之脾胃系统疾病

杨舒 十二脏腑调养160节

陈杰森 ‬清源高级创业实战课，手把手教你创业实战案例拆解公司治理

栏目专题

最新课程

名人专题

兰彦岭兰彦岭课程合集：《鬼谷子大商之道》+《兰彦岭讲鬼谷子》

华杉华与华32个高增长模型，华杉领衔教学让产品立刻卖

胡渐彪人性管理课找对方向，做好引领，做聪明的管理者

陈译辉波浪理论与图形分析法入门至精通

张萌青创张萌财富的智慧第七期2024年

张景明《以病案精讲内科常见病》之脾胃系统疾病

杨舒十二脏腑调养160节