GPT-4满分通过MIT本科数学考试!这套提示词火了

搜搜小姐姐 搜搜小姐姐
来源:互联网

奥飞寺的房子

量子比特|公众号

没想到麻省理工数学考试被GPT-4破了?!

突然有人在最新论文中高调宣布:

GPT-4关于MIT的数学和EECS(电气工程与计算机科学系)本科学位考试,证明能力完全符合毕业要求。

并妥妥得满分!

要知道,测量这个结果的不是别人,正是麻省理工学院、波士顿大学和康奈尔大学的研究团队。

而且比上一代王者GPT-3.5还要强。同样的测试,它只成功了三分之一。

论文一出,顿时吸引了无数目光。

GPT-4看似黑客行为,自然引起了众多网友的感慨。

比GPT-3.5好得多,是的!

就说吧,以后有没有比GPT-4更强的模型就可以解决学术问题了?

有网友晒出了自己在网上冲浪的“新锐”,玩了一个YannLeCun这两天吐槽“GPT-4智商不如狗”的梗:

GPT-4开挂MIT考试

具体来说,GPT-4这次参加了这样一个测试:

研究团队策划了一个包含4,550个问题和解决方案的数据集。

这4,550个问题和解决方案来自麻省理工学院数学系和EECS学生需要学习以获得本科学位的课程问题集、期中和期末考试。

包括:

6-1:电气科学与工程;

6-2:电气工程与计算机科学;

6-3:计算机科学与工程;

6-4:人工智能与决策;

18-1:普通数学;

18-2:应用数学;

18-3:纯数学;

18-C:数学和计算机科学。

问题全部来自MIT数据集,随机生成228道题,不涉及图像和已有解。

题目难度从易到难依次为:习题、习题、期中考试、期末考试、实验、专题。

按题型排序,题目难度从易到难依次为:编程、开放式、选择题、数值、表达式、图像。

这次不仅有GPT-4和GPT-3.5参加考试,还有-13B、LLaMA-30B和LLaMA-60B。

这4个大型模型之所以被选为测试参赛者,是因为它们是“state-of-the-art大型语言模型”。

从表中数据可以看出,调优后的GPT-4得分最高,得分率为100%;表现最一般的是LLaMA-30B,只拿到了30%的分数。

值得注意的是,原来的GPT-4版本开箱即用,完全没有调优,在这次MIT考试中也取得了90%的成绩。

调优过程,包括Few-Shot+CoT+Self-+。

从最终测试结果的表格数据我们可以看出,从左到右每增加一个链接,调优后的GPT-4分数就会提升一个档次。

此外,研究团队还对提示框进行了工程优化。具体“法术”如下:

等等,评分者是GPT-4本人?

看到这样的结果,不少网友都觉得LLM在数学考试中的进度有点快。

2年前,AI在小学数学题上苦苦挣扎。

类似于“小明种了5棵柠檬树,每棵树每年得到6个柠檬,10年一共得到多少个柠檬”。

去年初,MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究称,通过将数学问题转化为等价的编程问题,GPT-3的兄弟Codex可以掌握高数,达到MIT本科水平。

我从麻省理工大学本科基础数学课程中随机抽取了6道样题。6门课程每门课程随机抽取25道题,加上来自ACT级别(美国高考)数据集的60道题。

AI总共回答了210个问题。

不过有人提出,AI做到的“麻省理工本科水平”其实是Codex在做语言题而不是数学题——

因为在当时的评测中,Codex是负责读写的,不包括。

所以,这一次GPT-4的表现极其出色,真是妙极了~

好吧,我知道你急着要表扬它,但先别急着表扬它,因为很快就有人发现了一些“奇怪”的东西。

主要有2个主要插槽。

首先值得质疑的是训练数据集没有完全发布。

这也意味着无法证明数据集中的4550个问题和解在GPT-4训练集中不存在。

也就是说,如果GPT-4在预训练阶段就已经接触过试题,那么它最终会打出满分,不会出现意外。

难怪有网友毫不客气地yygq,认为GPT-4得到这样的结果,一定是数据集被纳入了训练数据。

第二个slot是GPT-4最终100%的得分率。好像哪里不对???

仔细一看,论文2.6节有一个关键点:

该团队对数据集上的开源大型模型进行了微调,“给定一个问题Q、一个基本事实解决方案S和一个LLM答案A,我们使用GPT-4自动对模型响应进行评分。”

在实践中,每个大模型都会生成这个测试的答案,然后发送GPT-4进行评分,评分在0-5之间。

所以给GPT-4打满分的其实是GPT-4本身。

啊,这……难说没有王破卖瓜吹牛的嫌疑。

此外,许多人抱怨需要为GPT-4提供“好的提示”才能使其获得满分。

什么是“好建议”?似乎无法定义。

甚至有人喊话,要把这些题丢给MIT数学和EECS的学生去做,不断给他们“好提示”,让人类学生也能100%拿分……

还有一件事

一个小彩蛋:

在整个测试中,基本可以部署运行在笔记本电脑上的运-13B的得分率也达到了48%。

这个分数不仅比型号更大的LLaMA-65B高出近10个百分点,就连MIT微调后的LLaMA-30B也更高。

人们不得不对模型大小和能力之间的相关性进行一些思考

参考链接:

[1]

相邻资料

阅读 下载数 0