征稿要求:
1.论文符合本刊宗旨与学术规范,具备较新的学术观点,使用较新的文献资料。评论性文章观点鲜明,语言生动,分析深刻,能够及时反映、探讨学界及业界的热点问题。
2.所投稿件为作者本人 撰写并未曾在其他刊物公开发表过。
3.稿件一律用电子邮件附件形式发送到电子邮箱:guangdianyanjiu@yeah.net
4.附件请用Word文件,并注明文件名及作者名。
5.稿件篇幅:论文原则上以6000字以内为宜;评论文章控制在1500字左右。
6.稿件应注明作者的真实姓名、职称(职务或学位)及工作单位、详细通讯地址及邮编、联系电话(手机最佳)和电子邮箱。
来稿的处理流程是什么?
1.请勿一稿多投,也不要重复投稿。
2.收到稿件后,本刊编辑部认为符合要求或基本符合要求但仍需修改的,会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的,可自行对稿件另作处理。
3.因经费有限,编辑部对特约稿件支付超标稿酬,一般稿件只能略付薄酬。
文章格式有什么讲究?
1.标题。主题用1号黑体;副题用3号宋体。居中。
2.作者姓名,用四号楷体,右对齐。
3.文本提要,小四号楷体,200字以内;关键词,小四号楷体,3-5个。
4.正文,用5号宋体。1级小标题用小4号幼圆体,居中;2级小标题用5号黑体,左对齐并缩进两个汉字;3级小标题用5号楷体,左对齐并缩进两个汉字。
5.鉴于本刊区别于其他学刊图文特色 建议作者供稿时提供文章相关图片及作者照片,并确保图像精度。
6.文末标出作者单位及职称(或学位、职务),若有多个作者,用分号隔开;
7.注释一律采用尾注形式。注释二字,用小5号黑体。注释条目各项顺序依次为:作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期(《书名》第几页,某年版),用小5号楷体。
8.为节约篇幅,一般采用注释形式的文章,不再单独一页设立参考文献。
AI主播如何在新闻播报中实现情感化表达
引言
2024年6月27日,笔者受邀主持第29届上海电视节“白玉兰对话”电视论坛之“聚焦媒体新质生产力——AIGC使用与治理对话会”。与会各方从不同角度介绍了生成式人工智能对于媒体产业的激发与交融,百度智能云和商汤科技分别展示了其最新的数字人技术在广告、电商、文化、传播等领域的应用。其中有关AI新闻主播的演示引发了笔者进一步的思考。
艾媒咨询数据显示,2023年中国虚拟人带动的产业市场规模和核心市场规模分别为3334.7亿元和205.2亿元,预计2025年将分别达到6402.7亿元和480.6亿元,呈现强劲的增长态势。[1]近年来,越来越多的虚拟主播开始出现在各类平台上,人工智能技术的飞速发展更推动其转型为“AI主播”。正如此次对话会的嘉宾所介绍的,在广告和电商领域,一些AI主播已展露比真人更强大的吸粉和变现能力。那么在新闻传播领域,AI主播除了能够做到演示中展现的精准播报,是否也能通过情感化的表达吸引更多的受众?技术的迭代升级又将对其产生哪些影响?笔者基于理论、实证研究和专家访谈,试图在本文中探讨上述问题。
一、AI主播的定义和技术路线
AI主播是指通过计算机图形学、计算机视觉、动作捕捉、语音合成、神经网络渲染、多模态交互等技术手段创造,经过模型训练后以人工智能算法驱动使用的,具有真人主播多重特征的数字人。据智能视觉公司叠境科技首席技术官张迎梁介绍,目前广泛使用的AI主播,按美术风格区分,有二次元形象和贴近真人的“超写实”两种。根据呈现的视觉效果,则可以分为以下两类。
1.2D:采集一段5-10分钟的真人视频,通过网络训练模拟嘴部、脸部、身体等动作,复刻出二维平面的特定真人形象;
2.3D:用扫描、动作捕捉、面部捕捉、手绘等方式采集大量3D数据,通过3D建模和骨骼绑定,生成三维立体主播形象。
在实际应用中,这两种AI主播各有其特点及适用的场景。
2D 3D
优势 数据采集简单快速,制作简单快捷,外在和真人非常接近,制作成本低(几千至一万元人民币起) 可以做比较复杂的动作,可呈现多机位拍摄的效果, 数 字资产编辑便捷——人物造型可随时变换,不会产生肖像权争议
劣势 无法实现多角度运镜拍摄,表情和动作简单重复,数字资产编辑难度大——比如变换发型、服装、配饰等过程复杂,效果较差,可能产生肖像权争议 形象逼真 度低,技术要求高,制作复杂、周期长,计算资源消耗大,制作成本高(是2D的十倍以上)
适用场景 需要高度还原真人形象,简化风格、固定机位和需求的场景,如直播带货等 避免使用真人形象,需要变换机位和造型风格等复杂场景,如多人同场互 动、沉浸式三维展示等
二、AI主播在新闻中的应用与局限
AI主播在新闻传播中的应用仍处于探索阶段,目前最常见的是用于新闻资讯的播报。在播出前,编辑将文稿输入系统,系统根据文稿生成语音。在这一阶段,编辑通常会进行试听,如果需要,会对文稿进行修改或标注,例如标出多音字的读法、加入停顿符号等。确认生成的语音正确无误后,就可以利用语音驱动AI主播做出相应的口型、表情、动作等并进行实时播报。由于AI主播可以突破真人主播的生理极限,实现连续不间断地播出,并且不需要耗费时间在通勤、妆造、备稿上,更可以同时以多个分身出现在不同的节目中,因此可大大提高制作和传播效率。许多媒体也正是出于“降本增效”的目的选择采用AI主播。
但是,AI主播的播报有一个特征:准确流畅却没有情感。AI主播的语音、表情、手势、动作基本都较“标准化”,不随新闻内容中的情感发生变化。这一方面是受现有技术的制约,另一方面也受制于传统上对“新闻播报”的刻板印象,以为新闻主播就是应该中立、严肃、不带感情色彩。实际上,有效的传播往往不仅要传递新闻中的信息,也要传递其中所蕴含的情感,AI主播的情感化表达能力欠缺在一定程度上削弱了其传播效果。
三、新闻主播情感化表达的案例剖析
新闻媒介引导社会舆论,不仅通过对新闻事实的报道反映,有时还必须提出一系列鲜明、深刻的观点。[2]因此,媒体常常通过情感化的手法触发受众的情感共鸣,进而影响他们的态度和观点,产生“润物细无声”的效果。在这个过程中,主播的情感化表达是一项重要手段。
根据“情绪感染理论”,[3]受众觉察到主播的情绪表达时,会模仿其表情、声音和身体语言,从而产生与对方相似的情绪体验。
例如,笔者近期录制了一则“中国国家领导人再访塞尔维亚”的短视频。文稿中既对塞尔维亚安排的最高规格的迎接做了描述,也对“中国驻南联盟大使馆遭北约轰炸”“塞物资急援汶川地震灾区”“中国医疗专家组驰援塞尔维亚”等两国在特殊时期的铁杆友谊作了回顾。作为上述新闻事件的经历者,笔者即使在多年后再次接触相关报道内容,仍然觉得刻骨铭心,所以在录制的时候,下意识地流露出了内心的情感。事后在短视频平台的留言中,观众们对中塞友谊表达了高度的赞赏和美好的祝愿:“塞尔维亚,我们的真朋友!”“中塞相亲、万里为邻,中塞铁杆友谊长存!”“鲜血和生命造就的友谊!”“雪中送炭时,患难走过来的才是真友谊!”……
同时,一些观众对主持人的表现予以好评:“主持人表达情感和共情很赞,表情和眼睛都有变化”“感觉主持人眼含泪水”“主持人共情了,我刷着,眼角也一样湿润”“声情并茂,真情实感的流露,中塞钢铁般的友谊”“主持人饱含热泪,看着看着就泪眼婆娑了” ……
类似上述案例中的情感化表达,目前的AI主播还很难做到,无论播报的内容是中性的还是带有丰富的感情色彩,其播报状态往往都是“波澜不惊”“缺乏感情”。人们从一个对受众脑电波进行监测的实验中发现,[4]在中文语境中,相比真人主播,AI主播的声音对受众大脑形成的刺激要小很多,尤其是带有情感性的新闻,真人播报时,受众大脑内的工作记忆区更倾向于与新闻内容发生接触和互动,而AI播报时,则更倾向于不产生这样的接触和互动。
四、AI新闻主播实现情感化表达的要素分析
主播对新闻的情感化表达,是将对新闻在信息和情感层面的内在理解,转化为语言、表情、动作等一系列外在表现的过程,是通过认知、情绪和行为三个系统的协调配合而形成的。[5]
1.文稿
情感化表达的基础,是理解文稿中蕴含的情感元素。上海交通大学清源研究院张晓凡博士长期研究文本分析和多模态决策,据她介绍,情感分析是自然语言处理中的经典任务,要求大模型去判断情感、意图是相对简单的,它可以把文本内容精准对应到表示情感的词汇。另外,角色扮演是大语言模型推理阶段提示工程的经典组成部分之一。大模型本体应该不带偏见和感情,但是因为见过足够的数据,所以可以按照用户的提示要求扮演各种类型的人,并站在这些“人设”的立场表达情感。
为了验证AI“大脑”对情感的理解,笔者尝试就“中国羽毛球队获得汤姆斯杯冠军”的新闻与大模型进行讨论。考虑到之后还要进行语音测试,笔者选择国内深耕语音合成技术的科大讯飞公司最新的认知智能大模型“讯飞星火”进行了以下文字交流。
可以看出,AI的“大脑”能够准确感知并提炼出文本中的情感要素,并且能够解读出多种层次的情感。而当给到它不同的人设提示时,它解读出的情感会发生变化。因此,AI主播要理解文稿中的情感应该没有很大障碍。
2.语音
语音是新闻主播进行情感化表达的重要工具。为测试人工智能生成的语音对情感的表现力,笔者让上述模型朗读三段包含不同感情色彩的文稿,内容涉及羽毛球队夺冠、地震伤亡、飞船发射成功,结果生成的语音在感情色彩上基本没有区别,都比较中性。随后,笔者增加输入提示,请模型用“高兴”“悲伤”“激动”的语气朗读对应的新闻。这一次,生成的语音能较好地表现“高兴”、“激动”,但却无法表现“悲伤”。笔者又进行了多轮类似的实验,结果基本一致:对于正向情感,语音模型可以较好地表达;对于负向情感,尽管会自动添加语气词等加以辅助,但仍然无法表达出来,甚至会出现以开心的口吻讲述悲伤内容的情形。随后,笔者又对另一款专注于为用户提供私人助理和情感支持服务的AI语音聊天机器人Pi进行了测试。Pi由美国硅谷初创公司Inflection AI于2023年5月发布,其共情能力获得了来自用户和全球业界、投资界的高度评价。其主要特征是能用口语化的交流方式为用户提供情感陪伴,表达上简明扼要、幽默创新。笔者询问其能否用带有情感的语音说话:
Pi在回复中表示,作为人工智能,它无法用带有情感的声音说话。它可以理解并且讨论情感,但无法像人类一样通过声音来表现情感。它的声音只能维持中性,但可以通过说话的内容和基调来传达情感。显然,其背后的算法刻意绕开了语音中的情感问题。
情感化语音合成的难点在哪里?笔者就此采访了清华大学电子工程系张超教授。张超的主要研究领域为多模态语言处理和认知计算神经科学。他解释说,难点之一是如何定义情绪的类型,又如何去进行区分,这在心理学上是一个尚未解决的问题。要做情感化语音合成,首先要给数据加上情绪标签,比如“开心”“快乐”“哀伤”,但这些情感标签是非常个人和主观的,对同一段音频数据,可能每个人打出来的标签都有所不同。国际上比较常用的数据集,如IEMOCAP、MSP-PODCAST,打标呈现出的差异也很大。这样一方面会增加构造模型的技术困难,另一方面会导致用户对机器人通过语音表达的情感有不同感受。
对于情感化语音合成这块“难啃的硬骨头”,学术界和工业界一直在努力攻克。北京时间2024年5月14日,美国OpenAI公司发布了全新的旗舰大模型GPT-4o。“o”是英文omni的缩写,意为“全能”,该模型可以通过文字、语音、视觉进行多模态实时推理。在演示中,以其为技术基础的“世界上最聪明的AI聊天机器人”ChatGPT展现了强大的语音共情能力。它的平均语音响应时长为320毫秒,基本接近人类间的对话,而且自带情感,比如在打招呼时非常热情,会笑、会显得尴尬,还会自嘲。它能听懂用户的语气和情绪,相应生成不同的情感表达。当被要求用三种不同程度的戏剧化表达和声音来呈现同一个故事,包括讲述和演唱时,效果和真人演员不相上下。在视觉能力上,用户还可通过摄像头给它“看”到我们的物理世界,并基于所看到的内容展开对话。
那么,GPT-4o是如何让语音富有情感的呢?张超教授认为,GPT-4o应该是在语音的感知、语言理解和语音生成方面突破性地形成了一个端到端化的模型。此前的模型GPT-4的训练方法一般需要拆解为若干个不同的模型构造流水线:先将人类语音用自动语音识别技术转化成人类可读的文字,然后将文字输入GPT-4基于文本的大语言模型,最后再基于GPT-4生成的文本用语音合成技术合成音频。而GPT-4o可能是给大语言模型接入了能够直接接收语音、视觉输入的编码器和直接生成语音的解码器,这就等于给“大脑”连上了耳朵、眼睛和嘴巴,可以在同一个模型里进行多模态的学习。这样一方面可以加快系统的响应速度,更容易将文本对话中一问一答的对话形式改进为真正类似人类对话的多人、流式(边听边理解)、无轮次(可以随时插入和打断等)形式,并减少可能在系统不同模块间产生的错误传播;另一方面避免了文本化过程中遗漏人类语音中的韵律、发音和说话人身份等信息,因而难以真正理解人类情感现象的发生。
机器学习语音情感的过程可以简化理解为,将文本输入,同时加入与文本对应的人类语音,并且提取语音中体现情感因素的副语言元素,如语气、语调等,对表示语义和发音的文本进行扩充,训练语音合成模型,从而生成能准确体现文本情感的语音。而通过对大量高质量数据的训练,模型可以学会在说特定的话时应该搭配什么样的情绪。在实际进行情感对话的过程中,还需要从人类语音中动态提取韵律等关键信息,再让机器进行动态调整,相当于模拟人类对话的共情过程。从演示效果看,张超教授推测GPT-4o的模型训练中加入了一定的人工控制,比如可以通过用户的语音指令,使其“戏精附体”或模仿机器人的音色,为文本内容赋予丰富的情感。
有技术专家表示,在AI语音合成技术中,实现真人般自然表达的另一大挑战是,机器生成的语音往往过于流畅,缺乏真人在说话时可能出现的停顿、犹豫等非流畅因素。[6]使用者则普遍反映,虽然AI能通过提取声音素材找到真人的气息发声特点,但仍缺乏某种情感上的共鸣,生成的成品质量十分“稳妥”,却千篇一律。[7]张超教授说,除了受模型能力制约外,还可能有两个原因。一是早期模型能力较弱,当时对数据的标准化要求很高,会找一些专业播音系老师进行非常标准化的录制,刻意要求其音色音调语速高度稳定,否则模型合成出来的效果就很差。建这些音色库非常贵,所以出于商业考量,目前国内市场应用中很多还是在使用这些老的音色库,生成的语音就比较“标准化”。相比之下,因为近年来模型能力增强了很多,一些正在新建的音色库,可以使用更丰富的自然语音数据训练,生成出的语音也就更为自然。第二,一些大公司担心语音中加入情感,可能有通过情感操纵用户的风险,所以特意不涉及这一块,以避免法律上的纠纷。这次GPT-4o的感知+情感效果确实非常震撼,也许会刺激一些公司改变想法。
既然技术上的壁垒已被逐渐突破,这是否意味着情感语音模型很快能接入到AI主播这类应用,我们将听到有情感的语音播报了呢?张超教授认为,语音是一种可以识别个人身份的信息,并且人类说话比起文字书写要更随意、更普遍,因此语音本身比文本更为敏感。尤其目前真人声音克隆的技术已经很成熟,只要采集用户几秒的语音数据,就能生成高度逼真的语音,一旦这些技术整合起来,有可能造成重大的安全隐患,所以现阶段国外的语音模型不太可能被大量接入国内的自然场景来使用。当然,国内学术界以及工业界如字节、科大讯飞、腾讯、思必驰等公司也一直在做情感语音合成技术研发,得意音通等公司则在做鉴别机器合成伪造语音的工作。GPT-4o的出现也许会加速我们自己在语音方面的研发,促进相关技术在更多领域和场景进行应用和尝试。
3.通过表情和动作传达情感
除了语言,表情、手势、动作等非语言类表达也是主播用以传递情感的重要工具。目前大多数AI新闻主播的表情和动作比较有限,基本是根据采集的视频或3D数据循环使用,重复性较高。其次,由于语音本身缺乏情感,而表情动作又是依靠语音驱动,所以很难体现出情感。随着情感化语音合成技术的突破,AI主播的非语言类情感化表达是否也有望突破呢?笔者就此采访了上海科技大学信息科学与计算机学院许岚博士。许岚主要研究领域为动静态三维重建与理解、个人数字资产化和沉浸式全息立体通信,其课题组目前正在使用“多模态指导下的共语生成”方式探索非语言类情感表达。具体做法是,通过采集60个小时的真人表演3D数据,对每条数据添加简要的情感性描述标签,例如“陶醉地唱歌”“开心地舞蹈”“激动地说话”等,再提取音频和视频特征,将其和情感标签一起训练一个生成式模型,该模型架构类似文生视频模型Sora。在使用时,用户需要输入一个简单的描述,比如“用悲伤的语气朗读”,同时输入一段符合该描述的真人语音,模型就能驱动AI数字人做出相应的表情和动作了。目前模型可以做出肩部以上的动作和表情,预计今年可以完成全身动作的生成。
随着GPT-4o的发布,我们是否可以做到无需人工标注,也不需要提供真人音频,就能由AI生成与文稿中情感同步匹配的语音、表情和动作呢?许岚认为这个目标可以实现。以AI新闻主播为例,可能还要采集更多的微表情和手势数据进行训练,但未来系统整合后,可以实现AI主播基于新闻文稿的内容,生成类似GPT-4o语音模型的情感化语音,再以语音去驱动微表情和手势、动作,形成立体的、富有情感的新闻播报。
许岚团队的研究针对的是3D数字人,在工业界也有不少正在进行中的针对2D数字人情感化表达的开发应用。美国AI数字人公司Synthesia在2024年4月发布了“全球首批富有表现力的AI数字人”模型。
据公司首席技术官Stark介绍,[8]该模型通过每周采集60-80名演员的表演数据持续进行训练。不同于传统AI主播生成模型只能循环使用所采集数据中原有的表情和动作,新模型可以自动生成全新的表情、手势和动作,大大丰富了数字人的非语言类表达,因此也更容易匹配和体现不同的情感。目前,这家公司推出了9位不同角色设定的AI主播,可支持130种以上语言,主要用于培训、营销、用户指导、客服等场景,但仅有一个正面胸部以上的景别。笔者输入不同的文本测试了其中的几位AI主播,其脸部、头部、肩部的动作比目前广泛使用的AI主播更丰富自然,对于不同的情感,也能通过微表情的变化较为明显地表现出来,但有时会出现表情变化和情感的匹配不完全准确的情况,比如“似笑非笑、似哭非哭”的表情难以到位,整体上仍有较大提升空间。
五、结语
艾媒咨询发布的《2024年中国虚拟数字人产业发展白皮书》[9]显示,超过七成的受访者看好包括AI主播在内的虚拟主播的未来发展,而传媒是人们最期待看到其应用的领域。
尽管截止目前,AI主播在新闻播报中仍给人较强的机械感,尚无法体现新闻事件中的情感内涵,但是随着端到端语音合成大模型和非语言类表达的共语生成模型等技术的迅速发展迭代,AI主播的大脑、语言和身体将被打通,将能够像真人主播一样进行丰富的情感化表达。尽管它并不是用人类的方式去“理解”情感,但超越人类的学习和模仿能力,使其可以表现出和真人一样的情感,同样可以使受众产生情感共鸣,达到传播的效果。当然,本文中采访的人工智能专家都提到了实际应用中可能遇到的问题,例如怎样确保数据安全以及技术不被滥用。同时他们也提醒,大模型的训练和生成对算力的要求很高,芯片技术是一大制约因素。要生成能全方位展现情感的AI主播,目前如果不使用云服务器,本地生成的硬件和算力成本很高,因此,除了人工智能技术本身,也需要密切关注芯片等硬件领域的发展。
1982年,科幻作家弗诺·文奇首次提出“技术奇点”这一概念。他将“技术奇点”设定为人工智能超过人类智力的时间点,之后科技将井喷式发展,地球进入“后人类时代”。[10]也许人工智能尚未全面超越人类智力,但“奇点”已经离我们越来越近。正如在第29届上海电视节“聚焦媒体新质生产力——AIGC使用与治理对话会”上预发布的《2023—2024全球人工智能媒体发展研究报告》中所指出的,在强化主体性的同时,如何实现“人机和谐共生”,迎接和拥抱下一个新时代,这是值得每一个媒体人应该深思的课题。
(作者为上海广播电视台融媒体中心新闻主播)
注释
【1】艾媒咨询 《2024年中国虚拟数字人产业发展白皮书》 https://www.iimedia.cn/c400/99947.html
【2】让理论与舆论同向发力同频共振http://www.xinhuanet.com/politics/2016-05/31/c_129029472.htm
【3】Hatfield, E., Cacioppo, J. T., & Rapson,R. L. (1993). Emotional contagion. Current Directions in Psychological Science, 2(3), 96-99. https://doi.org/10.1111/1467-8721.ep10770953
【4】Gong, C (2023). AI voices reduce cognitive activity? A psychophysiological study of the media effect of AI and human newscasts in Chinese journalism. Front. Psychol. 14:1243078. doi: 10.3389/fpsyg.2023.1243078
【5】刘聪慧,王永梅,俞国良,王拥军.(2009). 共情的相关理论评述及动态模型探新,心理科学进展, 17(5), 964-272.
【6】专家访谈汇总:OpenAI语音模型,阿尔法工场,https://new.qq.com/rain/a/20240402A03DYW00
【7】Voice Engine模拟人类声线,隐私问题或成重要路卡?https://baijiahao.baidu.com/s?id=1795664184665492681&wfr=spider&for=pc
【8】Learn about the Express-1 AI avatar model. (2024). https://www.synthesia.io/avatars
【9】艾媒咨询 《2024年中国虚拟数字人产业发展白皮书》 https://www.iimedia.cn/c400/99947.html
【10】Vinge, V.(1982). "The Coming Technological Singularity." Presentation at the NASA Confer-ence on the Long-Term Survival of Mankind, NASA Ames Research Center, Moffett Field, Cali-fornia, United States.