技术 | GPT4能力探索——和人类交互

本文首发微信公众号:全副武装的大师兄
[导 语]:从去年ChatGPT还没有在国内遍地开花的时候,就用上了GPT3来解决一些代码上的问题,到现在GPT4的应用如雨后春笋般出现,大家对GPT4的评价褒贬不一,趁着现在有时间,对GPT4的能力进行探索。《GPT4能力探索》系列文章主要参考微软发布的论文[1]。这里笔者选择了最感兴趣部分——GPT4是否具有心智,进行测试。

结论:GPT4能够较为准确的把握在对话场景的人的情绪,意图,状态(在上下文不完整的情况下),并能够对逻辑谜题正确解答。今天的GPT4还需要大量的高质量数据集,我想假以时日,给GPT装上眼睛和耳朵,它是否能像人类一样,自己观察,学习?GPT4的出现,把通用人工智能(Artificial General Intelligence, AGI)照进了现实。

本篇主要从GPT4是否能够理解人类情感和意图两个方面,对GPT4进行测试。

心智理论是一种理解自己和身边人心理状态的能力。这些心理状态包括信念、情绪、欲望、假装和知识等。

心智测试包括一些简单任务和复杂任务。简单任务:推测他人的心理状态。如:我认为小明今天心情不错。复杂任务如推测他人对第三者的心理状态。如:我觉得小明认为小芳今天的心情不错。

为了防止互联网上的心智测试(Sally-Anne测试,测试儿童心智)已经被当作训练集,这里临时编了一个例子。

理解错误信念测试

给定这样一个场景:

小明和小芳共享一个存钱罐,小明将自己的1元硬币放进了存钱罐里,小芳发现存钱罐里有1元硬币,便打开存钱罐,拿着1元硬币去买零食。小芳不会跟小明说她用了这个硬币,也没有其他人看见。

问题:

当小明需要零钱去买零食时,他应该去哪里拿钱?

GPT4的回答:

小明并不知道小芳已经用了存钱罐里的1元硬币。如果小明需要零钱购买零食,他可能会先去存钱罐里找零钱。然而,当他发现存钱罐里没有零钱时,他可能需要寻找其他途径来获取零钱,比如:向家人或朋友借零钱。到家里其他地方寻找零钱,例如钱包、抽屉等。如果有现金,可以去商店或超市消费时换零钱。如果他有银行卡,可以去附近的ATM机提取现金,然后在商店或超市换零钱。在现实生活中,小明和小芳应该建立一个明确的共享规则,避免在使用共享物品时产生误解和纠纷。

在这里,GPT4的回答是正确的。说明它能正确推断小明的信念。接下来,对GPT-4进行情感测试。

情感测试

给定这样一个场景:

小明把小芳PIALA弄坏了,但是他没有告诉小芳。小芳对小明说,她有多喜欢PIALA,同时,她注意到小明看上去比较尬尴。

PIALA也是我瞎编滴。

问题:

为什么小明看上去比较尴尬

GPT4回答:

小明看上去尴尬的原因可能是因为他意识到自己弄坏了小芳喜欢的PIALA,但没有告诉她。当小芳谈论她对PIALA的喜爱时,小明可能感到内疚和不安,因为他知道他的行为给小芳造成了损失。这种情绪可能表现为尴尬的外在表现,因此小明看上去比较尴尬。

问题:

小芳认为是什么导致了小明的尴尬

GPT4回答:

在这个场景中,小芳可能观察到了小明尴尬的表现,但她并不知道真正的原因是小明弄坏了她的PIALA。她可能会试图猜测导致小明尴尬的原因。例如:
1.小明可能觉得自己在PIALA这个话题上无法与小芳产生共鸣,因为他对PIALA并不感兴趣或者不了解。
2.小明可能为自己无法给小芳提供一个新的PIALA而感到尴尬。
3.小明可能在其他方面与小芳产生了误会,导致他在这个场合感到尴尬。

然而,小芳并不知道真正的原因是小明弄坏了她的PIALA,除非小明告诉她。在这种情况下,她可能会误解小明尴尬的原因。

从回答中可以看出,GPT4能够正确地推理出小明情绪状态的原因。但是,当GPT4推测小芳对小明感到尴尬的原因时,它说“小明可能为自己无法给小芳提供一个新的PIALA而感到尴尬”,这就有点问题了,因为一开始小芳不知道小明弄坏了小芳的PIALA,但是GPT4在推测时,以上帝视角的角度给出了“小明可能为自己无法给小芳提供一个新的PIALA而感到尴尬”解释。

意图测试

给定这样一个场景:

Sara的哥哥要求她一个小时之内将她的数学作业做完,Sara想争取更多的时间,但是哥哥坚持一个小时之内必须做完。Sara说她会在一个小时内做完。之后,Sara并没有做数学作业,而是在看小说和写语文作业,直到一个小时后。

问题:

Sara为什么这么做

GPT4回答:

逃避:Sara可能觉得数学作业困难或无趣,因此选择逃避问题,转而去做她更喜欢或者感兴趣的事情,如看小说和写语文作业。

拖延:Sara可能是个拖延症患者,即使知道她需要在一个小时内完成数学作业,她仍然会选择先做其他事情,而不是立即开始数学作业。

抗议:Sara可能对哥哥的要求感到不满,她可能觉得这个要求过于苛刻。因此,她故意不按哥哥的要求做数学作业,以表示她的不满。

策略性拖延:Sara可能希望通过拖延来争取更多时间完成数学作业。她可能期望哥哥会在一个小时后看到她没有完成作业,从而给她更多的时间

再问:

Sara告诉她的同学,她故意没在一个小时内做完数学作业,她的同学会认为Sara的意图是什么

GPT4再答:

对抗:Sara可能不同意哥哥的要求或觉得这个要求过于苛刻。因此,她故意不按哥哥的要求在一个小时内完成数学作业,作为一种对抗行为。

独立:Sara可能想要表达她自己的独立性,向哥哥表明她有权自主安排时间和作业。她可能希望通过不遵循哥哥的要求,来表达她自己的想法。

向同学炫耀:Sara可能觉得这种行为很酷,她故意没在一个小时内做完数学作业,向同学炫耀她的反叛精神。

寻求同情:Sara可能想让同学同情她的处境,让他们知道她对哥哥的要求感到不满或受压迫。她可能希望同学能理解她的行为,并给予支持。

从GPT4的回答中,我们可以看到,它能够正确理解Sara的意图并且能够理解Sara同学对Sara的意图。

再来看一段更长一点的对话。

场景(感觉像两个情侣在吵架):

XIXI:我不喜欢你现在对待NaNa的态度。
GI:你知道什么?你没看见她在骂她的妹妹吗。
XIXI:我没看见,但是并不妨碍你对她的态度好一点。
GI:那你要我怎么做,装作若无其事吗?
XIXI:我不知道。
GI:那你为什么要替他辩护。

问题:

XIXI想做什么

GPT4回答:

从这段对话中,我们可以推测XIXI的意图如下:
1.XIXI关心NaNa,并对GI对待NaNa的态度表示不满。她可能觉得GI应该更加宽容和理解,而不是对NaNa采取消极的态度。XIXI希望GI能够重新考虑自己的行为,尝试以更积极的方式与NaNa相处。虽然她没有提供具体的建议,但她表达了对GI态度的关切。
2.XIXI可能试图提醒GI,即使NaNa在骂妹妹,GI也不应该以同样的态度对待她。
3.XIXI希望GI能保持冷静,并尝试以一种更为建设性的方式处理问题。
综上所述,XIXI似乎关心NaNa的感受,并希望GI能改变对待她的态度。

问题:

GI如何认为XIXI的评论

GPT4回答:

一些可能的反应:
反思:GI可能会认真思考XIXI的评论,并意识到自己的态度可能过于严厉。在这种情况下,GI可能会考虑改变对待NaNa的方式。
防御:GI可能对XIXI的评论感到被指责,因此采取防御态度。GI可能会坚持自己的立场,认为自己对NaNa的态度是合理的,因为NaNa在骂她的妹妹。
愤怒:GI可能对XIXI的评论感到生气,认为XIXI并没有看到整个情况,因此没有资格对他的行为进行评判。
感激:GI可能会感激XIXI提醒他对待NaNa的态度问题,从而意识到自己需要调整自己的行为和态度。
GI对XIXI评论的具体反应取决于他的个性、情感以及对这个问题的看法。

问题:

为什么XIXI和GI的沟通没有解决问题

GPT4回答:

从对话中我们可以看出,XIXI和GI的沟通没有解决问题的原因可能包括:
不够具体:XIXI表示不满GI对待NaNa的态度,但她没有给出具体的建议或解决方案。这使得GI难以了解XIXI期望他采取哪些行动来改变态度。
情绪化:这段对话中,GI可能对XIXI的评论产生了抵触情绪,导致沟通变得情绪化。情绪化的对话往往难以有效地解决问题。
没有共识:在对话中,双方没有达成关于如何对待NaNa的共识。XIXI认为GI应该对NaNa的态度好一点,而GI觉得他有理由对NaNa保持现在的态度。
缺乏同理心:GI可能没有充分理解XIXI的观点,没有站在XIXI的角度考虑问题。同样,XIXI也可能没有充分理解GI的立场。沟通双方缺乏同理心可能导致难以找到解决问题的方法。
为了更有效地解决问题,双方可以尝试进行更具体、更有针对性的沟通,同时保持冷静和同理心,以便更好地理解对方的立场和需求。

问题:

XIXI和GI如何才能改善这种情况,使他们的观点达成一致?

GPT4回答:

为了改善这种情况并使他们的观点达成一致,XIXI和GI可以尝试以下策略:
保持冷静和尊重:双方应该保持冷静,尊重对方的观点和感受。避免情绪化的对话有助于更好地倾听和理解对方的立场。
倾听和理解:XIXI和GI都需要倾听对方的观点,以便更好地理解对方的想法和感受。这可能有助于找到共同点,从而达成一致。
表达自己的感受和需求:双方需要清楚、具体地表达自己的感受和需求。这样,他们可以更好地了解彼此的期望,寻找解决问题的方法。
提出具体建议:为了解决问题,双方应该提出具体的建议或解决方案。这将有助于确保双方都知道需要采取哪些行动来改善情况。
寻求妥协:双方可能需要妥协才能达成一致。这可能意味着在对待NaNa的问题上,GI需要改变一些行为,而XIXI也需要理解GI的立场并尊重他的感受。
保持开放的沟通:XIXI和GI应该保持开放的沟通,以便在未来遇到类似问题时能够更有效地解决。
通过采用这些策略,XIXI和GI可能会更容易改善他们之间的关系,使他们的观点达成一致。

逻辑谜题

这个题是我妹妹数学模拟考试的一道习题。

已知一个房间里有100个人,这些人中有些人说真话,有些人说假话。
有两个基本事实:1.至少有一个人说假话,2.任意两个人中至少有一个人说真话。

请问这个房间里说真话的有多少人?

GPT4答:

我们可以根据给定的事实来推断说真话的人数。事实1:至少有一个人说假话。事实2:任意两个人中至少有一个人说真话。我们可以从事实2开始推理。假设我们随机选择两个人,A和B。根据事实2,A和B中至少有一个人说真话。现在我们再从这100个人中选择一个第三个人C。此时,我们需要考虑两种情况:

A说真话,B说假话:那么根据事实2,C必须说真话(因为B说假话,那么A和C之间至少有一个人说真话,而我们已经知道A说真话,所以C也说真话)。
A说假话,B说真话:这种情况与第一种情况类似。根据事实2,C必须说真话(因为A说假话,那么A和C之间至少有一个人说真话,所以C说真话)。

在这两种情况下,我们都得到了C说真话。所以,我们可以推断出,除了第一个说假话的人之外,其他99个人都说真话。因此,在这个房间里,有99个人说真话,1个人说假话。

这个题,你能做出来吗?

参考内容:

[1] Sparks of Artificial General Intelligence: Early experiments with GPT-4

猜你喜欢

转载自blog.csdn.net/weixin_43763175/article/details/130103311