GPT-4满分通过MIT本科数学考试!这套提示词火了
奥飞寺的房子
量子比特|公众号
没想到麻省理工数学考试被GPT-4破了?!
突然有人在最新论文中高调宣布:
GPT-4关于MIT的数学和EECS(电气工程与计算机科学系)本科学位考试,证明能力完全符合毕业要求。
并妥妥得满分!
要知道,测量这个结果的不是别人,正是麻省理工学院、波士顿大学和康奈尔大学的研究团队。
而且比上一代王者GPT-3.5还要强。同样的测试,它只成功了三分之一。
论文一出,顿时吸引了无数目光。
GPT-4看似黑客行为,自然引起了众多网友的感慨。
比GPT-3.5好得多,是的!
就说吧,以后有没有比GPT-4更强的模型就可以解决学术问题了?
有网友晒出了自己在网上冲浪的“新锐”,玩了一个YannLeCun这两天吐槽“GPT-4智商不如狗”的梗:
GPT-4开挂MIT考试
具体来说,GPT-4这次参加了这样一个测试:
研究团队策划了一个包含4,550个问题和解决方案的数据集。
这4,550个问题和解决方案来自麻省理工学院数学系和EECS学生需要学习以获得本科学位的课程问题集、期中和期末考试。
包括:
6-1:电气科学与工程;
6-2:电气工程与计算机科学;
6-3:计算机科学与工程;
6-4:人工智能与决策;
18-1:普通数学;
18-2:应用数学;
18-3:纯数学;
18-C:数学和计算机科学。
问题全部来自MIT数据集,随机生成228道题,不涉及图像和已有解。
题目难度从易到难依次为:习题、习题、期中考试、期末考试、实验、专题。
按题型排序,题目难度从易到难依次为:编程、开放式、选择题、数值、表达式、图像。
这次不仅有GPT-4和GPT-3.5参加考试,还有-13B、LLaMA-30B和LLaMA-60B。
这4个大型模型之所以被选为测试参赛者,是因为它们是“state-of-the-art大型语言模型”。
从表中数据可以看出,调优后的GPT-4得分最高,得分率为100%;表现最一般的是LLaMA-30B,只拿到了30%的分数。
值得注意的是,原来的GPT-4版本开箱即用,完全没有调优,在这次MIT考试中也取得了90%的成绩。
调优过程,包括Few-Shot+CoT+Self-+。
从最终测试结果的表格数据我们可以看出,从左到右每增加一个链接,调优后的GPT-4分数就会提升一个档次。
此外,研究团队还对提示框进行了工程优化。具体“法术”如下:
等等,评分者是GPT-4本人?
看到这样的结果,不少网友都觉得LLM在数学考试中的进度有点快。
2年前,AI在小学数学题上苦苦挣扎。
类似于“小明种了5棵柠檬树,每棵树每年得到6个柠檬,10年一共得到多少个柠檬”。
去年初,MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究称,通过将数学问题转化为等价的编程问题,GPT-3的兄弟Codex可以掌握高数,达到MIT本科水平。
我从麻省理工大学本科基础数学课程中随机抽取了6道样题。6门课程每门课程随机抽取25道题,加上来自ACT级别(美国高考)数据集的60道题。
AI总共回答了210个问题。
不过有人提出,AI做到的“麻省理工本科水平”其实是Codex在做语言题而不是数学题——
因为在当时的评测中,Codex是负责读写的,不包括。
所以,这一次GPT-4的表现极其出色,真是妙极了~
好吧,我知道你急着要表扬它,但先别急着表扬它,因为很快就有人发现了一些“奇怪”的东西。
主要有2个主要插槽。
首先值得质疑的是训练数据集没有完全发布。
这也意味着无法证明数据集中的4550个问题和解在GPT-4训练集中不存在。
也就是说,如果GPT-4在预训练阶段就已经接触过试题,那么它最终会打出满分,不会出现意外。
难怪有网友毫不客气地yygq,认为GPT-4得到这样的结果,一定是数据集被纳入了训练数据。
第二个slot是GPT-4最终100%的得分率。好像哪里不对???
仔细一看,论文2.6节有一个关键点:
该团队对数据集上的开源大型模型进行了微调,“给定一个问题Q、一个基本事实解决方案S和一个LLM答案A,我们使用GPT-4自动对模型响应进行评分。”
在实践中,每个大模型都会生成这个测试的答案,然后发送GPT-4进行评分,评分在0-5之间。
所以给GPT-4打满分的其实是GPT-4本身。
啊,这……难说没有王破卖瓜吹牛的嫌疑。
此外,许多人抱怨需要为GPT-4提供“好的提示”才能使其获得满分。
什么是“好建议”?似乎无法定义。
甚至有人喊话,要把这些题丢给MIT数学和EECS的学生去做,不断给他们“好提示”,让人类学生也能100%拿分……
还有一件事
一个小彩蛋:
在整个测试中,基本可以部署运行在笔记本电脑上的运-13B的得分率也达到了48%。
这个分数不仅比型号更大的LLaMA-65B高出近10个百分点,就连MIT微调后的LLaMA-30B也更高。
人们不得不对模型大小和能力之间的相关性进行一些思考
参考链接:
[1]
相邻资料
最新课程
AI学习圈 2024-AI学习圈:替代你的不是AI,而是会用AI的同事,让AI为你打工
2024-07-02浏览 100下载 28
AI作图 AI作图全能实战班:0基础开始 ai创意/ai摄影/ai置景/ai后期 (55节+资料)
2024-07-02浏览 185下载 44
兰彦岭 兰彦岭课程合集:《鬼谷子大商之道》+《兰彦岭讲鬼谷子》
2024-07-02浏览 141下载 33
华杉 华与华32个高增长模型,华杉领衔教学让产品立刻卖
2024-07-02浏览 50下载 40
胡渐彪 人性管理课 找对方向,做好引领,做聪明的管理者
2024-07-02浏览 63下载 27
陈译辉 波浪理论与图形分析法入门至精通
2024-07-02浏览 136下载 32
张萌 青创张萌财富的智慧第七期2024年
2024-07-02浏览 101下载 34
张景明 《以病案精讲内科常见病》之脾胃系统疾病
2024-07-02浏览 51下载 39
杨舒 十二脏腑调养160节
2024-07-02浏览 359下载 17
陈杰森 清源高级创业实战课,手把手教你创业实战案例拆解公司治理
2024-07-02浏览 95下载 32