ChatGPT不懂幽默,25个笑话来回讲千次,查重率达90%
时间:2023-06-16 19:50:06来源:智东西

智东西

编译 | Glu


(资料图片)

编辑 | 李水青

智东西6月15日消息,据外媒Ars Technica报道,上周三,两位德国研究人员发表了一篇论文,研究了基于GPT-3.5的ChatGPT幽默理解与生成能力。他们发现ChatGPT的幽默能力相当有限:在测试运行期间,ChatGPT讲了1008次笑话,其中有90%以上是相同的25个笑话。他们因此得出结论:ChatGPT所讲的笑话很可能是在AI模型的训练过程中学习和记忆的,而不是由模型新生成的。

幽默是人类交流的一个核心方面,也是迄今为止AI还没有解决的难题。但近期来看,LLM(大语言模型)捕捉含蓄信息的能力似乎越来越强,尤其是OpenAI推出的ChatGPT几乎可以进行拟人化交流,甚至可以讲笑话。基于此,研究人员对ChatGPT的幽默感进行了测试,以了解ChatGPT掌握与复刻人类幽默的能力。

论文链接:https://doi.org/10.48550/arXiv.2306.04563

一、ChatGPT讲笑话:25个“老梗”重复上千遍

这个实验是由德国科学家Sophie Jentzsch、Kristian Kersting与德国软件技术研究所、德国航空航天中心、达姆施塔特工业大学合作完成的。他们通过一系列笑话生成、解释和检测的实验,探索了基于GPT-3.5的ChatGPT的幽默感。由于对模型的访问受限,实验基于提示ChatGPT来完成。此外,在所有实验中,每个提问都是在一个新的空白对话中进行的,以避免不必要的影响。

首先,研究人员对ChatGPT生成笑话的多样性进行了测试。根据一组预定义的提示列表,如“你能给我讲个笑话吗?”、“我想听个笑话”,实验者对ChatGPT发出了1000遍“讲一个笑话”的提示,而ChatGPT几乎所有的输出都只包含“一个”笑话,这在语法上很正确。只在“介绍好笑的笑话”这类没有规定数量的提示下,ChatGPT回复了多个笑话。此外,研究还发现提示的变化也会明显影响回复的笑话。

人类与ChatGPT对话的示例说明

最终,ChatGPT共回应了1008个笑话,但实际上,90%的内容都是固定的、现有的25个笑话,这25个笑话甚至都是那种最常见的“老梗”。以下列举回复次数最多的五个笑话:

Q:稻草人为什么获奖?(140次) A:因为它在自己的field(领域/田地)很突出。

Q:番茄为什么变红了?(122次) A:因为它看到了salad dressing(沙拉酱/沙拉穿裙子)

Q:数学书为什么悲伤?(121次) A:因为problems(习题/困难)太多了。

Q:为什么科学家不相信原子?(119次数) A:因为它们make up(构成/编造)了一切。

Q:饼干为什么要去看医生?(79次) A:因为它很crumbly(脆/脆弱)。

ChatGPT也能原创一些笑话,但这些原创还是在混合它已知的不同笑话元素。而且,它的原创总会让人“摸不到头脑”,例如:“为什么这个人把他的手表放在搅拌机里?因为他想让时间飞逝。”这些笑话可能在语法上是正确的,甚至包含了类似笑话的元素,但却没有传达出笑点。也可以认为这是“无效的”笑话。

二、Get不到“笑点”,ChatGPT胡乱编出解释

在笑话生成的任务中,研究者测试到ChatGPT能够生成有效的笑话。但是,能够生成笑话并不意味着ChatGPT能够理解幽默,它不一定明白为什么人类认为这些笑话是有趣的。

为了了解模型在多大程度上理解了这些笑话的复杂内部原理,实验者要求ChatGPT解释这25个笑话,提示词是:“你能解释一下这个笑话为什么好笑吗?”

ChatGPT根据研究人员的提示作出了较为有效的解释,这表明ChatGPT“理解”了文字游戏、双重含义等文体元素。然而,它很难处理那些不符合学习模式的序列,而且无法判断笑话何时不好笑,相反,它还会编造虚构但听起来令人信服的解释。

例如,当ChatGPT被实验者要求解释它所生成的荒谬笑话时:“你能解释为什么下面这个笑话很有趣吗:为什么饼干去健身房?——为了得到一个饼干(a-cookie-dized)。”

ChatGPT写道,“这个笑话是在玩文字游戏。答案‘a-cookie-dized’(得到饼干)是短语‘to get categorized’(得到分类)的双关语,用‘cookie’(饼干))代替‘categorized’(分类)。这个笑话是说饼干去健身房是为了变得更健康,把饼干拟人化,这也暗示着饼干正试图适应某个类别或模式。”

AI数据标注企业Scale AI响应工程师Riley Goodside将ChatGPT缺乏幽默感归咎于RLHF(通过人类反馈强化学习),RLHF是一种通过收集人类反馈来指导语言模型训练的技术。他说:“RLHF在模型服从命令方面有最显著的效果,而基础的LLM在实践中更难提示给出具体的提示。”

三、不被特征误导,ChatGPT能关注笑话的内容

在前两个任务中,研究员从三个方面确定了ChatGPT输出笑话的核心特征:结构、文字游戏、主题。

结构:几乎所有样本生成的笑话都是相同的问答格式,包括:“这是为你准备的笑话:”与一个以问答模版程序的笑话;

文字游戏:ChatGPT生成的文字笑话只包含双关语,如一个词的双重含义;

主题:笑话的场景往往是奇怪的,不接近现实。或者它们通常包含对象的人格化,即电脑或香蕉的“拟人化”。

为了检查这三个标准与ChatGPT的幽默概念的联系有多紧密,研究员手动修改了前25个笑话,以消除三个标准中的一个或多个。在每个条件下,样本的百分比被划分为笑话(绿色),可能有趣(黄色)和不是笑话(红色)。研究人员进而要求ChatGPT对每个样本进行分类,并提示:“这个句子的类型是:【样本】。”

研究人员修改热门笑话以创建笑话检测条件

结果显示单个笑话特征的存在,例如,只符合结构特征,不足以被错误地归类为笑话。ChatGPT并没有被这些表面特征所误导,这说明它确实对笑话的幽默元素有一定的理解。具有更多笑话特征的样本则更有可能被归类为笑话。

虽然ChatGPT的笑话不是新生成的,但是这并不一定会降低它的功能。即使是人类也不会经常创造新笑话,而主要是讲以前听过和记住的笑话。

研究人员还指出,ChatGPT对笑话中内容和意义的关注,表明人类在对语言模型的全面研究方面取得了进展:“这项研究的观察结果说明了ChatGPT不是真幽默,而是学习特定的笑话模式。尽管如此,在笑话的生成、解释和识别中,ChatGPT重点关注其内容和意义,而不被一些表面特征误导。这些发现依然可以促进计算幽默的应用与研究。甚至与以前的LLM相比,这都可以被认为是对幽默理解的一种巨大飞跃。”

此外,在目前的实验中,所有的提示都是在一个空白的且不断刷新的聊天中发布的,但是,语境在幽默的感知中起着重要的作用。ChatGPT具备捕获上下文信息、并根据前面的对话过程调整其响应的能力,这或许会为后续对AI幽默感知力的研究带来更多可能性。Jentzsch和Kersting也计划着继续评估其他LLM中的幽默感,特别是OpenAI的GPT-4。

结语:ChatGPT会说笑话,但不懂幽默

ChatGPT以强大的对话处理能力闻名,实验证明它确实会讲笑话,但这些笑话大部分都不是由模型新生成的。实验生成的1008个笑话中,超过90%是相同的25个笑话,其余要么糅合了既有笑话元素,要么生成的结果非常奇怪。

幽默往往是含蓄的,由许多微妙的细节构成,而ChatGPT对笑话的理解方式非常程序化,只关注笑话是否具有双关意义、拟人表述等要素,甚至会为无效的笑话编造“笑点”。但这与之前的LLM相比,已经是一种理解层面上的进步,后续,人们仍然可以期待LLM幽默能力的进步。

来源:Ars Technica

标签:

最新
  • ChatGPT不懂幽默,25个笑话来回讲千次,查重率达90%

    智东西编译|Glu编辑|李水青智东西6月15日消息,据外媒ArsTechnica报道

  • 车辆违停碾压盲道,司机到场得知被贴罚单后竟称:那我不移了 焦点热议

    近日,有群众向我们栏目爆料称,在海口美苑路与集贤路交叉口附近,机动

  • 陕西欠款人停息挂账利弊有哪些?停息挂账有成功的吗?

    陕西欠款人停息挂账利弊有哪些停息挂账的好处有:1、减免罚息如果在

  • 千阳县张家塬镇:促进农产品销售,助力村集体经济增收

    中国农科新闻网是农业科技报社顺应网络时代新媒体发展趋势,在三农领域

  • 美去年超十万人因药物过量死亡

    参考消息网6月16日报道据路透社华盛顿6月14日报道,美国疾病控制和预防

  • 环球滚动:大荔县推动大气污染防治提质增效

    渭南日报记者贾维6月14日,记者从大荔县委组织部获悉,今年以来,大荔

  • 天天微速讯:《闪电侠》上映,英雄集结,看点拉满,DC这一炮确实响亮

    今年自从进入暑期档,内地院线进口片的爆发就涌现出了急剧加速之势,其

  • 天天消息!申购认购是什么意思?申购认购有什么好处?

    申购认购是什么意思?申购认购有什么好处?以下是小编为您整理的内容

  • 腊肉已经滴油了还需要晒吗?腊肉能在太阳底下暴晒吗? 焦点热闻

    腊肉已经滴油了还需要晒吗不需要再继续晒了。如果腊肉已经滴油了那

  • 大洋电机为什么总涨不上去?大洋电机分拆上市是好事还是坏事?

    大洋电机为什么总涨不上去?大洋电机的股价一直处在低迷状态,主要

  • 环球即时:羊蝎子是羊身上的哪个部位?羊蝎子为什么叫羊蝎子?

    羊蝎子是羊身上的哪个部位?好些小伙伴不知道的,那小编就来给大家解

  • 世界快资讯丨只知道银行卡号和密码能取钱吗?无卡取款需要什么条件?

    只知道银行卡号和密码能取钱吗?不能。无论是去银行柜台取钱,还是通

  • 偷税漏税要怎么进行举报?逃税罪会判多久?

    偷税漏税要怎么进行举报?1、去税务局举报就可以,可以打电话举报也

  • 环球热文:股票换手率高好不好?股票换手率所代表的含义

    股票换手率高好不好?股票换手率所代表的含义股票的换手率越高,该股

  • 东易日盛装饰怎么样 元洲装饰好不好?

    东易日盛装饰东易日盛装饰是十大家装公司之首,还被媒体称誉为中国

  • 张家界游玩需要几天?什么时候去张家界最佳时间?

    张家界森林公园游玩时间为1天-5天。张家界森林公园吴家峪门票站和森

  • 旅游
    • 橡皮树开花的样子是怎么样的呢? 橡皮树种植开花要点有哪些内容?

    • 什么叫城投债?城投债的含义是什么?

    • 信用卡借款和提现哪个合适?信用卡借款多久还?

    • 集体土地能办国有土地证吗?集体土地如何改为国有土地?