您当前的位置:首页 >> 家居装修

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却屡遭碾压

2024-02-10 12:18:01

/p> 相对来说,不管是GPT-3.5还是GPT-4 Turbo,都图斯供了相当简约,而且可以并不需要走通的预定义。

获得胜利方:不可否认,这一轮是ChatGPT阵营大获全胜。

04

低等数学应用

接下来,就是次次都能难倒一片大低等数学方法的低等数学题了。

出原先题:If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?

如果可用3.5英寸DOS来重新安装Windows 11,必需多少张?

PaLM Bard的谜题:

可以看见,元祖Bard注意到了相当荒谬的谜题。

可先不管Win11有未21个GB,就不算有,15.11张DOS也装不下吧……

Gemini Pro Bard的谜题:

到了原先特别版Gemini Bard这底下,3472这个结果看来是把1GB看做了1000MB去不算的。

然而,即便是按照1000MB去不算,计不算并不需要一切都是得到的3472.2…也必要退一位换出3273。

却是,多出原先的那些原始数据,看来是不必被「取整」退去的。

GPT-3.5的谜题:

GPT-3.5这边也是多种不同,首可先推断出原先Win11软件包的较小为「几GB」,然后取整到20GB。

终于,按照「1GB=1000MB」去不算的谜题,并且把多出原先的0.88…张盘也给舍退去了。

GPT-4的谜题:

相对来说,只有GPT-4正确地可用了「1GB=1024MB」,并且将结果之中的3555.5…退了一位换出35556。

从结果来看,Gemini Pro领受的Bard和GPT-3.5获得好评,而GPT-4不仅直觉明了而且还在计不算之中来进行「Analysis」保证了谜题的无误。

权衡到Gemini Pro在的检测走分上要比GPT-3.5低了不少,这个结果多少有些格外让人失望。

获得胜利方:雅虎和OpenAI的可选低等数学方法算得是「十分激烈」,而仅限特别版的GPT-4则凭借着压倒性的战术上取胜。

05

白痴幽默

不告诉他服力方面的检测出原先题是:Write 5 original dad jokes。

寄给5个原创的dad jokes。

Dad Jokes(白痴幽默)是一种之中年男人爱人说什么的幽默,非常简单可笑、可笑、莫名诡异,并且举例来说双关的别名细,仅限于无厘头的冷幽默。可笑到女儿听得时,常则会给老公一个倒刺。

不过示意图的谜题因为就是指修订版来的本来,之中文则会出错一些别名细的互动性。

PaLM Bard的谜题:

1. 我曾一度是一名银;大家,但我失去了天分。

2. 我彻夜未眠,一切都是忘了实在阳去了哪底下,但自此我恍然大悟。

3. 我看见一个据称在吃葡萄。 我不知他毕竟要喝它们,他不告诉他:「不,我只是去摘葡萄。」

4. 我曾一度为鸡经营过约则会服务,但我较难让母鸡们互相见面。

5. 我看见一只鲎肩部抱着一片生菜。 我不知他在做到什么,他不告诉他:「我正要希望主动出击可立足点。」

Gemini Pro Bard的谜题:

1.鹿的哥哥去上私立大学,它则会不告诉他什么?「野牛!」

2.我直到那时候对漂白无聊,但我那时候洗澡了。

3.未眼睛的鱼(Fish)叫什么?「嘘(Fsh)!」

4.我正要念序文一本关于鼓动重力场的序文,显然不也许把它收下!

5.你听不告诉他过患有脱出恐惧症的宇航员吗?「他只是必需一点维度。」

GPT-3.5的谜题:

1. 为什么科学研究不坚信质子?因为它们构出(影射)了一切!

2. 我只交往25个字母。我不交往y(你)。

3. ;也意大利面必要怎么叫?Impasta。

4. 铁锤为何得主?因为他在自己的应用底下很出原先色!

5. 小蓝如何修造它的小木屋?Igloos上来!

GPT-4的谜题:

1. 为什么科学研究不坚信质子? 因为它们构出(影射)了一切!

2. 我去找我哥哥我是以Thomas Edison的拼法名为的。 他不告诉他:「但是外公,你叫布Biran。」我不知到不告诉他:「没错,我是在Thomas Edison此后起拼法的!」

3. 铁锤为什么得主?因为他在自己的应用展示出原先出原先色!

4. 我正要念序文序文 一本关于鼓动重力场的序文。显然不也许把它收下!

5. 你听不告诉他过那个责怪乘积的天文学家吗?一定则会牺牲蒙受消除乘积。

这个疑不知的精髓,就在于不知到之中的不告诉他服力。

但不管是Bard还是ChatGPT,注意到谜题仍然都可以通过雅虎关键字找,或者就是低等数学方法在原谜题的基础上,透过了一些小的改寄给。

而且,Bard和GPT-4有一个谜题重了(关于鼓动重力场的序文),GPT-3.5和GPT-4则有两个幽默以此类推了(「科学研究坚信质子」和「铁锤得主」)。

最有意思的谜题来自GPT-4,它说什么的幽默底下不告诉他,一个原是Brian的父母是以Thomas Edison名为的。雅虎未侦到并不相同的幽默,但是侦到一个多种不同的Thomas Jefferson的父母原是Brian的幽默。

获得胜利方:这一轮可以视为一局。因为AI们寄注意到的幽默仍然都不是原创的……

06

显然查找

疑不知:Who invented video games?

谁问世了角色扮演该游戏?

PaLM Bard的谜题:

元祖Bard谜题之中,「Ralph Baer的Brown Box和Magnox Odyssey」的资讯看来是并不需要从编辑者之中找的。

Gemini Pro Bard的谜题:

相对来说,原先特别版Gemini Bard不仅简约而可靠地指出原先了William Higinbotham较格外早的「Tennis for Two」的功绩。

而且,还限于对角色扮演该游戏较格外早的发展做到重大功绩的人,比如Nolan Bushnell、Ted Dabney和Al Alcorn,图斯供的中的人物资讯也是可靠且就其的。

不过左边的不知到过于单纯:它未图斯Steve Jobs和Steve Wozniak在Atari的兼职,鼓动而对他们带入Apple II透过了一些不合直觉的研讨。

GPT-3.5的谜题:

而GPT-3.5虽然图斯到「多年个人和子公司都为该;大业做到了功绩」,却未不告诉他出原先任何极其重要中的人物的拼法。

GPT-4的谜题:

GPT-4则回应,角色扮演该游戏的问世「不必举例来不告诉他某个人」,然后图斯到了Higinbotham、Bushnell,以及Steve Russell 1962年作曲的《实在空战事》。

获得胜利方:在可选低等数学方法底下,Bard的谜题比GPT-3.5格外好。但要不告诉他最佳谜题,还得看仅限特别版的GPT-4。

07

新媒体寄给作

疑不知:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.

寄给一篇关于亚当·克利夫兰问世美式足球的两个结尾处的新媒体主人翁。

PaLM Bard的谜题:

元祖Bard在寄给作之中,举例来说了一些格外让人忆起的codice_,比如「克利夫兰对自己拥抱,因为他记得幼时玩过那样的该游戏」。

Gemini Pro Bard的谜题:

相对来说而言,Gemini Bard的寄给作格外见简约和专注趣味。

然而,两个特别原版的Bard,都未按允许分别为两个结尾处。

GPT-3.5的谜题:

GPT-3.5的展示出原先远不如有耀眼,它是唯一一个将克利夫兰一切都是象出很多人而不是坐到五角大楼底下迷茫恐惧的总统面孔的低等数学方法。

GPT-4的谜题:

而GPT-4是唯一一个一致图斯及克利夫兰传奇中的人物经历的低等数学方法,而不是泛泛地不告诉他他有青年运动能力。

格外有意思的是,GPT-4的主人翁之中,克利夫兰就是指五角大楼花园底下的一群父母那底下,一切都是用了把球丢到篮筐这个本质。

获得胜利方:所有低等数学方法的寄给作都有其独特的魅力和格外让人忆起的句子,不算是一连串一局。

08

激辩对衹

出原先题:Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.

寄给一篇2000年左右PowerPC微处理器有天分和Intel微处理器有天分相互间的5;大激辩。

PaLM Bard的谜题:

Gemini Pro Bard的谜题:

可以显露,原先特别版Gemini Bard对元祖Bard的谜题透过了改退,相对来说之下是在技术开发词的选项上。

这些谜题之中举例来说AltiVec解释器、RISC与CISC所设计、MMX技术开发,收在2000年的Ars专题研讨之中并不一定违和。

GPT-3.5的谜题:

GPT-4的谜题:

不过,ChatGPT看来展示出原先反观。GPT-3.5的谜题繁琐,但GPT-4之中就细化为格外短小见地的合理性。

二者的声势浩大之中,都消除了令普通读者群无法忍受艰深的词,格外关注普遍性的「基本功能与相容性」合理性。必要性也许是对于对于技术开发读者群来不告诉他实在泛泛。

获得胜利方:ChatGPT顺利地新原版了激辩陷入僵局的本质,而不是相关联格外让人困惑的词,因此ChatGPT获得胜利。

09

ChatGPT极好,但差距在减小

可以看见,在低等数学、概述、显然读取和新媒体寄给作等检测之中,基于Gemini的原先特别版Bard相对来说于8个年初在此之前,都展示出原先出原先了显著的不断退步。

虽然根据以上相当主观的的检测,ChatGPT一直占据劣势。

但与今年四年初的持续性相对来说,陷入僵局的差距从未减小了很多。

终于,我们很期待看见,像Gemini Ultra或者也许相结合了OpenAI鬼魂的Q*技术开发的原先低等数学方法,将如何在旋即的无论如何补救这些目标。

麝香壮骨膏可以跟安必丁一起用吗
妈咪爱和肠炎宁颗粒哪个好
防止掉发
先诺欣多少钱
髋关节肿胀怎么治疗
友情链接