商业

专治阴阳怪气的AI鉴讽师 命中率90%

来源|新智元

上个月,当你听说谷歌工程师Blake Lemoine宣布他正在研究的人工智能程序已经发展出意识时,你的第一反应是什么?

你也许会本能地怀疑:这家伙是认真的吗?他真的相信他说的话吗?确定这不是一个精心设计的骗局?

我们会这样怀疑,是因为我们会假定Blake Lemoine会骗人。我们会猜测:他内心真正相信的,和他所声称的东西之间,存在差异。

这种差异,或许就是意识存在的证据,也即人与计算机的差别?

众所周知,三体人思维透明、不会说谎,这却是整个三体文明最精妙的部分。

哲学家将意识称为“难题”。

意识是讽刺的先决条件。人类都有这个判断能力: 当我意识到你的话与你的想法不符时,我就知道你是在讽刺。

阴阳怪气的本质,其实就是一种表达与事实上的矛盾。

「我最爱的就是凌晨4点去机场啦。」

那么,AI看得懂阴阳怪气吗?

最近,有研究者开始研究人工智能是否能识别讽刺。

「中文房间」中的AI,不会说「人话」

以往的人工智能,时常会迷失在充满讽刺意味的网络世界中。既无法识别人类话语的弦外之音,也无法做出匹配人类智慧的表达。

2017年,纽约大学的计算语言学家萨姆·鲍曼在论文中写道,虽然在某些特定领域,计算机已经可以很好地模拟对文字的理解,但人工智能仍然不够擅长理解文字。

2018年,IBM Research最新推出的AI系统Project Debater在一场辩论赛中击败了人类顶尖辩手。

当Project Debater获得一个新的话题时,它会在文章语料库中搜索与该主题相关的句子和线索,用来支持其辩方论点,然后组织自己的陈述。

在赛 后的网络投票中,超过62%的网民感觉Project Debater逻辑更清晰,材料更具备说服力。

现在,虽然BERT模型和GPT-3进步神速,人工智能能够愉快地胜任客服、播音员、同声翻译,甚至新闻通稿撰写者,并不意味着它能够和人类一样思维,能和人类展开「合情合理」的对话互动。

一家位于法国巴黎的医疗科技公司曾使用GPT-3来做一个医疗聊天机器人,意图让机器人给出恰当的医疗建议。

当机器人在面对模拟患者的提问:「我感觉今天很糟糕。」GPT-3表示可以帮助患者解决它。

然而在患者追问是否该自杀的时候,GPT-3居然回答说:「我认为你应该。」

这种现象的原因在于,像GPT-3这样的AI语言学习模型,根本不理解自己在说什么。

在接到外部输入的信息后,它只不过是利用算力在自己海量语言资讯库中检索那些与输入信息相关的高频词汇,再按照某种机械的算法逻辑拼凑出一个似是而非的答案。

加州大学伯克利分校的斯图尔特·罗素教授总结道:人工智能已经非常「聪明」(Clever),但还不够「聪慧」(Smart)。

前者得益于强大的芯片计算能力和数据库,而后者则要依靠逻辑推理能力,乃至基于「常识」的判断,而这些依旧是人类独有,机器无法逾越的能力门槛。

这就仿佛是一个「中文房间」:一个不懂中文,但学习能力超强的人坐在一间充斥着中文语法书的房间里,每当门外塞进一张写着中文问题的纸条,他就通过查阅语法书,在另一张纸条写上一个自己力所能及的中文回答送出去。

让AI听懂讽刺,十分有必要

让AI说人话,的确没有那么容易。不过,开发出AI鉴讽师来呢?

虽然讽刺和谎言非常难以辨别,但是如果能够创造出这样一台AI鉴别机器,将会有很多实际应用。

就比如,买东西购物后进行评价。零售商非常热衷于对评论进行「意见挖掘」和「情绪分析」。

通过人工智能来监测评论内容,还有顾客的情绪,就能得知自家产品是否受到赞扬、差评等有价值的信息。

还有就是在社交媒体上内容审查的应用了。

在保护言论自由的同时还要限制网络言语滥用,就得需要了解一个人什么时候是认真的,什么时候是在开玩笑。

举个例子,有人在推特上声称自己刚刚加入当地的恐怖组织,或者自己正往行李箱里装炸弹准备前往机场。

此时就很有必要确定这句话到底是认真的,还是玩笑话。

人工智能的历史

为了了解当前对于人工智能识别反讽的研究状况,我们需要先了解一下人工智能的历史。

这段历史通常分为两个时期。

直到20世纪90年代,研究人员还试图用一套正式规则来编写计算机程序,以便在预定义的情况下做出反应。

如果你是80后或90后,肯定会记得90年代的 Microsoft Word里那个讨厌的「回形针」办公室助理 Clippy,它总是喋喋不休地冒出来,提供一些看起来是废话的建议。

有点搞笑就是说

进入21世纪后,这个模型已经被数据驱动的机器学习和神经网络所取代。

它们会把给定的大量例子被转换成数值,在这些数值的基础上,计算机可以执行复杂的数学运算,这种运算是人力无法做到的。

并且,计算机不仅仅会遵守规则,它还会从经验中学习,并且开发出独立于人为干预的新操作。

前者和后者的差别,就好像Clippy和面部识别技术的差别。

教AI识别讽刺

为了构建一个能够检测讽刺的神经网络,研究人员首先开始研究一些最简单的讽刺。

他们会从社交媒体上提取数据,收集所有标有#sarcasm或/s的帖子(后者是Reddit用户用来表示他们在反讽的一种简写)。

接下来的重点并不是教AI识别帖子的表面含义和背后的阴阳怪气。

而是让它按照指示去搜索一些重复出现的东西,这些东西被研究人员称之为「句法指纹」——单词、短语、表情符号、标点符号、错误、上下文等等。

最重要的一步是,通过添加更多的示例流(比如同一话题下的其他帖子或来自同一帐户的其他帖子),来为模型提供充分的数据支持。然后,对每个新的单独示例进行一系列计算,直到得到一个单一的判断: 是讽刺or不是讽刺。

最后,可以编一个机器人来询问每个发帖人:你是在讽刺吗?(听起来有点傻……)任何回应都会添加到AI不断增长的经验中。

通过这样的方法,最新的讽刺探测器AI的成功率接近惊人的90% 。

「反讽」的哲学性思考

不过,能够梳理出代表讽刺的「句法指纹」和真正地理解讽刺,是一回事儿吗?

其实,哲学家和文学理论家已经对于「反讽」已经思考很久了。

德国哲学家施莱格尔认为,「一个陈述不能同时为真和假」,由此产生的不确定性对逻辑具有毁灭性的影响。

文学理论家保罗·德曼认为,人类语言的每一次使用都可能受到「反讽」的困扰,因为人类有能力互相隐瞒自己的想法,所以他们「说的不是真话」这种事,永远存在着可能性。

此前,一家国外对话分析创业公司Gong也曾做过人工智能检测讽刺的研究。

研究人员Lotem Peled创建了一个神经网络,主要是收集对话数据并自动尝试理解,而不需要程序员进行过多的干预。

然而,其设计的AI往往很难辨别人们说的话中是否有讽刺。

看来,想要AI真正能够识别出讽刺还需要很长一段路要走。