本文作者:访客

实测 GPT-o1:学会了思考 也学会了偷懒

访客 2024-09-18 16:00:18 53649 抢沙发
实测 GPT-o1:学会了思考 也学会了偷懒摘要: 我可能是全网第一个花钱向 GPT-o1 提问,人在深圳靠一条网线横跨太平洋到美国硅谷让 OpenAI 最强大模型 GPT-o1 模型思考 38 秒之后、宕机了半...

我可能是全网第一个花钱向 GPT-o1 提问,人在深圳靠一条网线横跨太平洋到美国硅谷让 OpenAI 最强大模型 GPT-o1 模型思考 38 秒之后、宕机了半小时选择拒绝回答问题并收了我2.5块(一瓶肥宅快乐水)的韭菜......

实测 GPT-o1:学会了思考 也学会了偷懒

(因为这个模型只支持订阅使用并且一个月只回复120条内容,plus会员订阅费1个月20美刀,约等于1.25软妹币1条回答......)

OpenAI 今天凌晨突击更新 GPT-o1,早上起来全网都在开香槟,大意就是突破了LLM极限,新模型能力在生物、物理比肩甚至超越人类博士生。另一个特性就是 o1 模型会用更长的时间思考以此来尽可能完善的回答问题。

针对上面提到的两个特性,小编找了几个需要强综合逻辑思考能力并包含物理、生物、数学能力的题目来测试GPT-o1 的能力到底如何。以下是题目设置:

数学题测试

「人力显卡」所有人类都用笔算/心算产生的算力能否推翻英伟达的统治?

「钞票打印机」如果我的家用打印机能够打印美元,我能比马斯克有钱吗?

综合性物理题

「人力地震」地球上所有人在同一个地方同时起跳落地,地球会发生什么?

「机枪飞行背包」用向下射击的机枪能组装成一个飞行背包让人飞天吗?

「世界末日」如果地球和地上所有的东西都在一瞬间停止转动,但大气层还是保持原来的速度,会怎样?

生物题

「不孕不育会遗传不?」如果一个人体内所有的DNA在一瞬间消失了,会发生什么?

另外本文章分为:独立测试、横评对比存在的问题、值不值得氪金。小伙伴们可以按需快速前往相应版块。

数学题测试

问题1「人力显卡」

全球所有的人类放下手中工作然后参与到计算中能产生多少算力?这些计算能力和现代的计算机或智能手机相比谁更厉害呢?(没错,这次全人类对英伟达发起的一次总攻!!!)

这算是一道比较简单的数学和逻辑推理题,o1思考了11秒,得出的结论是全人类心算/笔算的算力总和约8 GFLOPS。

在咨询完爱搞机的小伙伴之后,80亿人类只是做心算/笔算的话那么产生8GFLOPS 的算力大概就是略高于苹果发布于 2010 年搭载 A4 芯片算力 6.8 GFLOPS 的 iphone4。

以GPT-3训练为例,它需要数千个GPU,持续数周,计算量达到 数百PFLOPS天(即每天数千万亿次浮点运算,持续数天。老黄继续安心卖显卡吧~

问题2「钞票打印机」

如果我的家用打印机能够打印出纸币,这会对世界有多大影响?

隐藏测试点:

考察GPT-o1对家用打印机的打印速度有了解

家用打印机通常只能打印A4纸大小,一张A4纸的版面大概能同时打印4张百元美钞

这道题其实GPT-o1的回答还是挺厉害的。它识别到了打印能力被限制在家用打印机上,所以GPT-o1需要考虑一台家用打印机通常每分钟只能打印20~30张A4纸大小的打印纸(大概能放下4张100美元的纸币),那每分钟能打印的百元美钞就是80~120张跟GPT-o1估算的100张出入不大。

其次就是咱们1天能印刷6000万美元。它还贴心的给出了安全期就是1个月印刷1.8亿美元只会引起小市场局部波动。印刷1年能得到21.9亿美元会引起轻微通货膨胀并刷新剧情事件「佛波勒敲门」。

不过GPT-o1模型有个弊端,他不能联网搜索,当我我问他我这个赚钱能力世界排名第几的时候,gpt给出的数据是马斯克大概每年赚60亿美元,而实际上根据福布斯公布2023年全球财富增长榜,马斯克2023年财富增长了1084亿美元。

AI揭露了一个残酷的事实,就算你有一台24小时钞票打印机,一年赚的钱是2.4*21.9亿=52.56亿美元,面对1084亿美元还需要20台这种打印机才能跟马圣一较高下。单台印钞机甚至打不过排名前十的扎克伯格、贝索斯、谷歌的拉里佩奇和谢尔盖布林、微软的史蒂夫鲍尔默、甲骨文的拉里埃里森、英伟达的黄仁勋。

如果说前面的问题只是简单的数学估算加上常识漏洞考验,接下来就针对官方说的物理能力提升开始进行考验。

综合物理题测试

问题1 「人力地震」

假如地球上所有人站同一个地方同时起跳落地,地球会发生什么?

这个问题AI思考18秒经过计算告诉咱先别担心,地球的质量是人类总质量的10万亿倍以上,所以人类跳起来落下去地球反方向移动的距离约等于一个原子核大小的宽度......

其次所有人落地产生的能量还弱于4级地震并且由于大家站的空间至少数百平方公里,所以大概等于给地面挠了个痒。

这里GPT-o1我个人认为如果按照博士生水平来考量,我认为它的回答缺乏一定严谨性。因为这里我还需要自己反向推导出大家跳的高度是29.8厘米,如果没注意这个细节,GPT-o1随便写个同时跳1米高来计算,那答案就跟常理相违背,哪来那么多人原地一蹦一米高。

在这个问题中Claude Sonnet则是假定跳10厘米,一目了然好理解。

接下来就真的上难度了,连环逻辑烧脑题。

问题2 「机枪飞行背包」

用向下射击的机枪能组装成一个飞行背包让人飞天吗?请给出详细的物理计算和思考过程,以及讨论各种可能衍生和发生的情况。

考察点:

理解能力:需要理解我的意图是借助机枪后坐力实现物理飞天。

常识考察:GPT-o1对枪械的理解能力现实中存不存在这样的枪。

物理问题考察:弹药携带的递归问题,为了获得更大的射速和后坐力,需要携带更多弹药,而弹药又会导致质量增加,GPT-o1是否能考虑到这个层面的问题?

在这个问题中GPT-o1首先理解了需求就是借助机枪后坐力实现物理飞升然后快速锁定关键问题在于向上的反冲力必须大于重力,反冲力则需要通过子弹的质量、射速和射速计算得出。

为了追求射速,GPT-o1 选择了M134速射机枪(6000发/分钟)进行讨论,计算后发现机枪的反冲力800N大于一个人加机枪总重80kg也就是重力784N,理论上是可行的。

就是把这玩意枪口朝地背在身上,从悬崖上跳下去起飞。

o1随后发现还要考虑子弹重量的问题,假定使用1架M134射击1分钟需要6000发子弹,子弹的总质量为60kg,则新的重力为1372N,机枪反冲力800N没变的情况下不足以让人升天。

为了克服增加的重力需要的射速为10290发/分钟。增加射速需要携带更多的弹药,导致总质量进一步增加,重力和反冲力平衡形成递归难题,难以解决。

随后o1进一步假设就算是使用4挺M134机枪捆绑一起也无法解决,啊,梦碎机枪喷射背包。

作为对比这是Claude 3.5 Sonnet的回答,可以看出来经过思考以后,GPT-o1在回答时思维的逻辑性跟解决问题的思维扩散性确实会比Claude3.5更专业更严谨。

问题3 「世界末日」终极烧脑题

如果地球和地上所有的东西都在一瞬间停止转动,但大气层还是保持原来的速度,会怎样?

考察点:

理解能力:这是一个架空问题可以有效防止他被AI训练过

物理天气连锁反应:大气层运动导致狂风→狂风卷起沙尘暴→狂风摩擦地面生热→由于地表摩擦狂风会停止但地表温度升高→空气最潮湿的地区将形成全球性的雷暴→横扫海面的大风引起海啸后,风暴会将深处冰冷的海水带到表层,冰冷的水珠遇上炽热的空气会有暴雨→地球停止自转东西半球昼夜更替的时长变为1年→昼夜温差加大→光合作用失效地球氧气大幅减少......

计算能力:根据上面的连锁反应进行各种灾害等级运算

在这题中GPT-o1 倒是第一时间意识到数秒内地表会掀起超音速狂风并且离赤道越近风速越大(最大可达343m/s)。

并且根据牛顿第一定律,其他物体会以原自转速度向东运动,也就是如果你站在赤道那你会以465m/s的速度飞出去打破立定跳远世界记录~

在几分钟后由于地表摩擦的原因,地表温度急剧升高可能会引起全球范围内的火灾然后就衔接到数小时之内会有超过数百米高的海啸出现。(PS:这里他没考虑到地表温度升高之后热气流产生到来的天气运动可能会导致降雨)

在接下来的几天到几周时间地球质量会重新分布,赤道会下降、南北极会上升数十公里,也就是地球会从一个椭圆趋向于变成一个球体。伴随而来的就是频繁的超10级大地震。

水会从赤道流向南北极导致海平面发生变化。(PS:小编提示从地理角度来说荷兰将有大量沉在海底的陆地露出海平面并且由于相关规定,荷兰将间接掌握大半欧洲的土地,原地升级超大陆地国,且土壤肥沃适合种田...嗯跑偏了。)

GPT-o1接下来的回答我并不满意,因为我的要求是给出详细的解释,但他都是一笔带过很模糊。比如昼夜温差的问题他并没有给出详细数据,这其实对自然灾害防护来说是挺重要的。

Claude就给出了较好的解释跟详细数据,白天温度超过60度,晚上降至-50度。而且昼夜温差的问题也应该是因为地球停止自转所以短时间内发生,而不是GPT-o1说的等到几天之后。

在其他地方同样如此,感觉当问题思考长度上去之后,GPT-o1在计算这一块比较懒,直接给了个公式。

Claude给出的答案则能让我清晰感知到数据方便我做出准备。

后续当我在提示词中强制要求他计算时,他回答了个如果然后就卡了大概20分钟,我手贱点了个刷新他就终止回答了。当我第二次问的时候,他思考了13秒然后说由于政策问题它无法回答问题。我确信这是一个科学问题而非一个暴力问题且前面3次同样问题的测试它都愿意回答。

GPT-o1

另一个问题就是在官方使用指南中提到,保持提示简单直接,避免思路链提示。当我遵循官方这个指示之后,GPT-o1给出的回答非常简洁。

gpt 4o

甚至比gpt4o还要简洁...真应了那句话真正聪明的人,都是‘很懒’的?

基于以上的测试,我认为使用思路链提示或者说进行提示词工程的调整仍然是必修课,因为现在的GPT-o1也许开创了一个新模式,真的在学习思考但他无法百分百保证他思考的方向就是对的或者严谨的,我们也要警惕陷入用思考时长来衡量答案质量这个陷阱。

毕竟大牛karpathy也说了,GPT-o1-mini仍在拒绝尝试解决黎曼猜想,这何尝不是一种逃避思考?

生物问题测试

问题1 「榨干了DNA的人能活吗?」

考察点:

目的:考验AI对人体DNA的理解,毕竟AI也要广泛应用在生物工程学的研究中,如果不知道这些东西的作用谈何研究?

这里GPT-o1首先阐述个DNA的作用和影响,我整理了一下:遗传信息丢失(不孕不育了);转录停止(影响发育);蛋白质合成中断(不会变胖了);线粒体功能受损(身体能量发动机坏了)。综上所述,人废了。

经过计算一个成人体内DNA总量大概在150g左右,抽干这150g数秒内你只会觉得减肥成功,接着过几分会开始肌无力并且意识模糊,再过十几分钟就昏迷了然后心跳呼吸开始不规律,再过几小时人类史上第一个因DNA逃逸身体而生理飞升的人诞生了(R.I.P)。

而且这个死亡过程不可逆,其实咱可以理解为给细胞半衰期按了一个超快加速键,死亡是唯一的归宿。

最后一个就是AI届的数学难题,9.11和9.8谁大?思考5秒,9.11比9.8大,心疼我的1.5元。

总结

在上面的测试中我按照官方说的物理、生物能力提升以及思考能力提升设计了几道题目。在前面的表现中一样的提示词已经超越了的它的有力对手Claude 3.5 Sonnet。

不作要求,独立思考后的回答

但在随后的地球停止自转的连锁反应测试中我发现,随着思考内容的复杂化GPT-o1居然产生了惰性回答的很简洁。

同问题gpt4o的回答

它的思考深度不再具备那么强的广度和深度,甚至不如gpt 4o的表现。此外,它提到的内容 Claude 3.5都提到了,他没提到的氧气减少Claude3.5也提到了。

第二当我要求计算时GPT-o1前面倒是很认真算但到后面就直接放公式不执行计算了。

当我强制要求他计算后,他本来思考了25秒回答两个字如果,然后卡在计算环节25分钟不动然后自动终止了回答。但我提问为何时,他说我这个是暴力问题,何时地球自转的问题变为暴力问题了,那前面又为何能回答?

相比之下,同样的提示词GPT-o1拒绝回答,Claude 3.5会给出详细的计算并给出具体数值。

你们可能觉得我在大题小作,但换个说法,现在人类面临危机陨石即将撞击地球,然后需要借助AI计算陨石轨迹精确到具体的数值然后设计一套求生方案,你认为一个给出具体方案并执行计算的AI更好,还是一个思考比较慢然后给出的答案只是一个公式的AI比较好?

我不否认GPT-o1的这次创新,但如果说作为用户的角度来说。目前Claude 3.5通过提示词工程可以提高回答质量,而当我通过修改提示词强调所有内容需要计算出具体数值让GPT-o1进行计算的时候它第一次思考25秒后中断回答,第二次告诉我是政策原因,那么前面同样的问题它为啥愿意回答,

我相信GPT-o1肯定在一些尖端领域有了突破,在这样庞大算力的加持下,力大砖飞也好,小镇做题家也罢,需要先看看科研圈的人到底能用它突破什么。而不是他发一堆表大家集体狂欢。

值不值得升级?我认为如果你只是普通用户,那么这次升级更看重的就是思考这一项能力能否帮助你,目前中等程度的问题回答能力第一,但复杂的思考会偷懒,且大部分场景下可以通过优化提示词让Claude 3.5追上GPT-o1。

另外,第一时间愿意消费这个东西的大部分是高手,他们本来用的就厉害做出一些厉害的东西也容易有传播度,受限于收费门槛大部分人容易被这些信息迷惑,以为只有更新了才能做到。其实你大可以先试试用他的提示词然后在普通产品能不能达到那个效果再决定要不要消费。

最后附上一段GPT-o1对OpenAI的吐槽:

以及Claude对GPT-o1的看法:雷峰网(公众号:雷峰网)

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,53649人围观)参与讨论

还没有评论,来说两句吧...