征稿要求：

1．论文符合本刊宗旨与学术规范，具备较新的学术观点，使用较新的文献资料。评论性文章观点鲜明，语言生动，分析深刻，能够及时反映、探讨学界及业界的热点问题。

2．所投稿件为作者本人撰写并未曾在其他刊物公开发表过。

3．稿件一律用电子邮件附件形式发送到电子邮箱：guangdianyanjiu@yeah.net

4．附件请用Word文件，并注明文件名及作者名。

5．稿件篇幅：论文原则上以6000字以内为宜；评论文章控制在1500字左右。

6．稿件应注明作者的真实姓名、职称（职务或学位）及工作单位、详细通讯地址及邮编、联系电话（手机最佳）和电子邮箱。

来稿的处理流程是什么？

1．请勿一稿多投，也不要重复投稿。

2．收到稿件后，本刊编辑部认为符合要求或基本符合要求但仍需修改的，会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的，可自行对稿件另作处理。

3．因经费有限，编辑部对特约稿件支付超标稿酬，一般稿件只能略付薄酬。

文章格式有什么讲究？

1．标题。主题用1号黑体；副题用3号宋体。居中。

2．作者姓名，用四号楷体，右对齐。

3．文本提要，小四号楷体，200字以内；关键词，小四号楷体，3-5个。

4．正文，用5号宋体。1级小标题用小4号幼圆体，居中；2级小标题用5号黑体，左对齐并缩进两个汉字；3级小标题用5号楷体，左对齐并缩进两个汉字。

5．鉴于本刊区别于其他学刊图文特色建议作者供稿时提供文章相关图片及作者照片，并确保图像精度。

6．文末标出作者单位及职称（或学位、职务），若有多个作者，用分号隔开；

7．注释一律采用尾注形式。注释二字，用小5号黑体。注释条目各项顺序依次为：作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期（《书名》第几页，某年版），用小5号楷体。

8．为节约篇幅，一般采用注释形式的文章，不再单独一页设立参考文献。

首页 > 重要推荐

从模仿到超越：元宇宙视野下AI虚拟主持的具身融合

虚拟形象的AI智能主持人与真人主持一样，承载了机器之于“真人”的媒介延伸，是一种“媒介即讯息”的新表达。它受到人类科学所未能触及的深层心智领域的限制。目前，人工智能的认知受阻于多变的人类意向。科技界对AI智能的深度神经网络研究（Deep Neural Networks）突破了机器对“人”在外部形态上的简单模仿，使AI主播从人类“知识的存在形式”向人类“思维的存在形式”演进。2020年7月以来，日本科学界“多模态人工智能”技术的应用使人工智能可以通过图像、声音和文件等多种数据作出高水平判断，大幅缩小“AI”与“人”之间的认知差异。IBM和IMT研发的“Watson AI Lab”着重对多模态人工智能进行研究。OpenAI公司的“InstructGPT”团队进一步改进了算法，于2022年年底发布了与人类思维方式无限接近的人机对话测试版本ChatGPT，高度仿真了人类的谈话思考模式，第一次展示出人工智能拥有了置信度判断，引发科技界的轰动。AI智能技术在语音识别、语言处理和图像识别领域的突破及其综合处理方式的改进，为虚拟智能在现实社会及未来元宇宙的应用推上了新层次，也为虚拟主持人在广播电视及互联网上的真正“拟人化”实践打下了基础。升级后的AI智能初步具备了“类人思考模式”，为元宇宙场景下的媒介从“离身”(disembodiment)传播向“具身”（Embodiment）融合的真正转化提供了可能，主要体现在以下三个方面：

一、“多模态人工智能”将开启AI“类人主持”时代

初级阶段的人工智能建立在算力提升的基础上，主要表现为重复性简单劳动的高效率执行，以及对冗繁数据的统计与计算。在2011年杭州第八届网商大会上，当时的阿里巴巴总裁马云宣称知道全中国女性的胸罩大小等隐秘数据，就是基于该公司对于销售大数据的掌握和统计。根据预测，未来十年人工智能的算力需求将会增长500倍以上，将成为未来算力最大的增量。2022年9月1日至3日，“2022世界人工智能大会”在上海举办，大会宣布，国内已经有20多个城市建立了各类“超算”中心，积极进行人工智能公共算力平台的建设，这为国家推行“东数西算战略”的先行先试创造了有利条件。当前，已经有深圳、武汉、西安、成都等10个城市的算力上线，尤其是上海，正在建立人工智能计算中心。然而，充足的算力只能改善机器搜索、反应的速度，譬如一些商业APP上机器人客服的响应速度，并不能提升它们的“智能”程度，这些机器人客服只能按照设定好的答案和搜索逻辑进行回复，如果预先设置的回应数据有限，机器客服就会显得“答非所问”，这也是它们有时会显得木讷的主要原因。

即便目前民用领域的“人工智能”存在如此明显的不足，它们的出现还是在一定程度上实现了让人类生活变得更加轻松、便捷、有趣的初衷。无论是眼下生活中只有声音的“小度”“天猫精灵”“Siri”“NOMI”，还是现有媒体兼具形象的“小冰”“石榴娃”“小智”“小小撒”，显然都不具备知识表达、对象识别、视觉理解的能力。这些尚处于初级阶段的“智能主播”虽然大多与真正的“主持”或“交流”不沾边，并不具备真正意义上的“AI智能”，但初步的数据搜索和语音识别与模仿技术已经足以给人带来便捷感、温暖感和陪伴感，即便这种“温暖”与“陪伴”难以与使用者产生真正的互动。回顾电视诞生之初，正是由于观众不满足面对机器所带来的冷冰冰的感觉，节目制作方采用了以真人进行面对镜头的播报、主持，用虚拟交流的方式营造出信息及信息本身以外的人际沟通感。虽然这种形式长期无法实现时空统一，但并没有妨碍人类的信息与思想通过延宕的时间和多媒介的空间实现传播。在人类漫长的发展历程中，这些信息与思想的承载和表达以知识的形式呈现。因此，建立在海量资料撷取以及充足存储空间准备基础上的大数据如何与跨媒体智能、跨媒体知识的表达相结合，成为人工智能再一次的创新方向。知识是建立在人类意识、判断、分析、识别前提下的信息整合，它不可避免地会融入发布者的观点，而不像数据那样只是针对客观事实的获取、存储和表达，这种表达一般以文本、数字、图形、影像、声音等形式出现，不会涉及其内涵。一般意义上的“AI智能”必然具备对数据进行深层读解分析、综合判断的能力，而不是仅停留在事物的表面，从而获得与真人相似的“思考”的能力。从这个要求来看，AI智能完全适用于需要视觉知识、听觉知识、文字知识以及其他知识等多重知识表达的传媒领域。这就需要进一步完善“多模态人工智能”技术，研制由数据和知识双轮驱动的人工智能。

“模态”（Modality）是德国理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。^[1]在日常生活中，人类在信息获取、环境感知、知识学习与表达等方面采用的都是多模态输入、输出方式。比如，如果一个人要在一片草坪上找到一朵盛开的花朵，既可以通过视觉这一模态来寻找，就是直接用眼睛看；也可以通过嗅觉这一模态来搜索，也就是用鼻子闻；还可以通过触觉这一模态来探寻，也就是用手触摸。面对寻找花朵这个问题，一般来说，人们会采取视觉、嗅觉等多模态的方式来进行。^[2]新一代的AI智能正是像人通过“五感”理解周围那样，通过图像、声音和文件等多种数据作出高水平判断。也就是说，多模态人工智能几乎等同于多媒体人工智能（跨媒体人工智能），是新一代人工智能的核心技术，它和人类的认知方式相吻合，是真正的“类人智能”。

根据中国科学院自动化研究所所长徐波在“2021世界人工智能大会”上的表述：“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式，多模态大模型将成为不同领域的共性平台技术，是迈向通用人工智能路径的探索，具有广阔的应用前景。^[3]也就是说，在机器学习（相对于机器自主学习而言）时代，对于不同任务，研究者需要实现手动设计规则来完成任务。后来，模型可以从历史数据中进行学习，并且进行预测。在这个过程中，研究者需要做的是针对不同的任务设计相应的模型、损失和算法。到了深度学习时代，这种统一更多体现在架构上。不同任务都开始使用深度神经网络，包括 CNN、RNN、LSTM 等。^[4]传统的深度学习算法专注于从一个单一的数据源训练其模型。例如，计算机视觉模型是在一组图像上训练的，NLP模型是在文本内容上训练的，语音处理则涉及声学模型的创建、唤醒词检测和噪音消除。这种类型的机器学习与单模态人工智能有关，其结果都被映射到一个单一的数据类型来源，应用到实践中我们会发现，AI虚拟主播的算法原理基于语音处理、声学模型的构建与文字的识别，这使得AI虚拟主播对语音和文字有着比普通人类主播更加敏感与强大的学习能力，但必须正视的是，传统虚拟主播的“学习”来自单模态人工智能的“深度模仿”，因此虚拟主播的创造能力有限，它的主要任务是为用户提供信息服务，进行任务管理，减少重复性劳动。人们可以在这种“主播”的帮助下获取定制资讯、制订工作计划、分配产学任务、监控工作进度等，从而提高工作效率。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合，为计算器提供更接近于人类感知的场景。多模态+大模型具备对丰富图文音的理解能力，与单模态的GPT3不同，交流更加生动自然流畅。^[5]因此，基于多模态交互设计与算法融合为基础的“虚拟主持”则比单纯以播报为目标的“虚拟主播”更接近“类人智能”，是具有一定自主学习能力的“深度模仿”，下文亦统一称之为“AI智能主持”。

二、“ChatGPT”的出现是实现“AI智能主持”的标志性开端

2000年，英国PA New Media公司推出世界上首位虚拟主播安娜诺娃（Ananova），随后，日本推出了寺井有纪（Yuki），美国推出了薇薇安（Vivian），韩国推出了露西雅（Lusia），我国也于2004年由中央电视台推出了虚拟主播“小龙”。无论被冠以“虚拟主播”还是“虚拟主持”的称谓，这种有着二维或三维动画外形的人类媒体中介形象成为新世纪电视业的新时尚。

近几年来，在经历多年的技术积淀与商用测试后，我国的虚拟人应用迎来研发热潮。在传媒界，各家媒体纷纷推出“虚拟主播”。2018年，全球首个“AI合成主播”在新华社正式上岗；2019年人民日报社首款人工智能虚拟主播“果果”正式亮相；同一年，央视网络春晚主持人撒贝宁和以自己为原型的智能虚拟主持人“小小撒”同台“竞技”；2020年5月新华社又推出全球首个3D虚拟主播“新小微”。2020年11月，上海广播电视台虚拟主持人“申䒕雅”实战于第三届中国进口博览会，随后出色完成了上海“两会”、全国“两会”、上海旅游节、航天报道等各大新闻直播和报道任务，成为虚拟主播在传媒行业里程碑式的实战应用。这些成功引起了业界人士的担忧：虚拟主持即将替代传统真人主持。但如果揭开这些“虚拟主持”的面纱，你会发现，他（她）们大多采用的是真人扫描+口型绑定技术，即便是全建模并结合了一部分AI智能、表现更优异的“申䒕雅”也同样是这种“中之人”^[6]技术驱动的产物。这些主要依赖幕后的真人的劳动，并结合了一部分AI智能辅助，以CG等动画技术为外部形象输出的所谓“虚拟主持”是一种尚不成熟的过渡形式，更适合被称作“虚拟主播”，而非“AI智能主持”，但这并不妨碍它被大量应用于电视台及各家视频网站，成为受人喜爱的“虚拟主持”“虚拟记者”“虚拟服务员”“虚拟导游”等。自媒体知名up主^[7]“极客湾瓢哥”认为，目前B站^[8]有三万个以上的虚拟主播，依赖技术都比较简单，属于动作捕捉加上实时渲染（CG），更像“离线化的动漫”变成了实时化，这种方式的好处是，实际上是真人在和用户交流，更加有血有肉，劣势之一是不能24小时无间断沟通。并且，由于渲染技术的限制，这些隐去操控者面目的AI主持人在外形和人格化表达上与真人主播存在一定差异，反而与动漫人物较为接近。当然，还有一些完全依赖AI技术搜索、生成，以语音、文字交流为主的“虚拟主持”，其主要工作是新闻播报与预设答案的简单交互问答，即可以做到“像人一样的播读新闻与回答问题”，但是尚不能做到像人类那样的思考和人格化表达，属于“AI播报”而非“AI主持”。

上个世纪之初，英国数学家图灵（Alan Mathison Turing）曾经预测，到2000年人类应该可以用10GB的计算机设备，制造出可以在5分钟的问答中骗过30%成年人的人工智能，^[9]并于1950年设计了一种被他称为“模仿游戏”的测试。然而，直到2014年6月7日，俄国人弗拉基米尔·维西罗夫（Vladimir Veselov）编写的人工聊天软件尤金·古斯特曼（Eugene Goostman）在英国皇家学会举行的2014图灵测试大会上冒充一个13岁乌克兰男孩，骗过了33%的评委，才第一次“通过”了图灵测试。^[10]从中可以看到，图灵设计的测试重点并不是放在“计算机是否能够和人对话”或者“计算机是否能够给出答案”这方面，而是“计算机会不会思考”以及“如何思考”上，即“计算机是否在智力行为上表现得与人类一样无法区分”。图灵曾经对“机器智能”进行定义，“如果机器在某些现实的条件下，能够非常好地模仿人回答问题，以至提问者在相当长时间里误认它不是机器，那么机器就可以被认为是能够思维的。”^[11]这一论断放在AI虚拟主持相关领域，具备了某种“灯塔”的意义，即实际上将“虚拟主播”与“虚拟主持”进行了有效区分，虚拟主持比之虚拟主播具有更高的仿真度，也更加接近或具有真实人类的一些特征。因此，虚拟主播只能按照程序或指令进行文稿的朗读、播报，而虚拟主持则需要具备与人类更加近似的“思维”，具备某种可以思考的特质，如此才可以进行节目气氛、节目节奏的把控，以及对不同的节目参与者进行有深度、有情感的交流，并选择不同方式的提问与表达，这是大众传播、人际交往和语言交流的有机结合，具有相当高的人工智能难度。同时，由于虚拟主播的程序化运行机制的相对固定性，决定了它无法灵活应对节目中的突发状况，比如突发停电、程序乱码、流程变更等。相比之下，优秀的真人主持通常会根据现场实际情况，结合自身的理解与感受，即兴组织语言，传达新的传播内容，达到理想的传播效果，这种自主应变能力是真正实现虚拟主持的研发目标，也是最大的难点。面对这种工业时代机械化复制水准的所谓“虚拟主持”，有人断言，它的出现使得受众的好奇心和新鲜感得到极大满足，可伴随着审美疲劳的出现、新鲜感的消失，受众重新选择真人主持也是必然。^[12]

2022年11月30日，坐落于旧金山的创业公司OpenAI在自己的官方网站公开了基于GPT3.5技术的聊天机器人，邀请网友免费聊天。^[13]这家由伊隆·马斯克（Elon Musk）、萨姆·阿尔特曼（Sam Altman）等人于2015年联合创办的人工智能研究机构使用人类反馈强化学习 (RLHF) 训练模型，以人类AI训练员提供对话，公司拳头产品InstructGPT被认为是谷歌旗下人工智能公司DeepMind最大的竞争对手。该研究使用近端策略优化算法（PPO）微调模型，创建强化学习的奖励模型，并对整个过程进行了几次迭代。^[14]有趣的是，项目团队还训练了一个名为ChatGPT的模型，这是一个与该InstructGPT同级但数据收集设置略有不同的可公开测试版本，为了收集比较数据，这些数据由两个或两个以上按质量排名的模型响应组成。实验以人工智能培训师与聊天机器人的对话展开，虽然OpenAI官方的网址上无法看到实验的具体过程，但从已公开的测试链接来看，这个AI模型已经具备人类思维的雏形。直接以中文输入提问，ChatGPT的回答十分有趣：^[15]

提问：你认为真正意义上的AI主持应该具备哪几项要素？

ChatGPT：我认为真正意义上的AI主持应该具备以下几项要素：

1.自然语言处理能力：这是AI主持的基础能力，指的是AI主持能够理解人类的自然语言，并能够进行有意义的对话。

2.智能问答能力：这是AI主持的核心能力，指的是AI主持能够根据人类提出的问题，提供准确、丰富、及时的回答。

3.动态决策能力：这是AI主持的重要能力，指的是AI主持能够根据当前的情境，选择合适的策略进行对话。

4.个性化服务能力：这是AI主持的优势能力，指的是AI主持能够根据不同的用户，提供个性化的服务，使用户感受到亲切、舒适。

提问：你觉得对于AI主持来说大数据和跨媒体智能哪个更重要，为什么？

ChatGPT：对于AI主持来说，大数据和跨媒体智能都非常重要。大数据可以为AI主持提供更丰富、更准确的知识库，从而提高AI主持的回答质量；跨媒体智能可以让AI主持能够与不同的媒体进行交互，例如语音、文本、图像等，从而提高用户体验。综上所述，对于数字主播来说，大数据和跨媒体能力都非常重要。它们都是数字主播能够提供有价值信息的基础。

提问：有人认为数字主播永远不可能替代真人主播，因为真人有情感。情感是人类最后的防线吗？

ChatGPT：情感是人类重要的一部分，但并不是人类的最后防线。随着人工智能技术的不断发展，数字主播也能够表现出越来越多的情感特征。例如，数字主播可以根据观众的输入，通过人工智能技术模拟出不同的情感表达方式。但同时也要注意，人工智能模拟的情感可能不够真实，无法与真人的情感完全相同。

提问：能够深度理解人类情感但难以掌控的机器，和一个拥有完美人类外表但只能调用已有知识并且不会犯错的“人类代表”，你觉得哪个更适合成为数字主播？为什么？

ChatGPT：我认为，能够深度理解人类情感但难以掌控的机器更适合成为数字主播。数字主播的主要任务是向观众提供有价值的信息，以及与观众进行有效的交流。在这方面，能够深度理解人类情感但难以掌控的机器可能更具优势。因为这样的机器可以通过人工智能技术模拟出与人类相似的情感，并能根据观众的输入进行相应的情感表达。这能够让观众更容易接收和理解数字主播的信息，并能更好满足观众的需求。相比之下，一个拥有完美人类外表但只能调用已有知识并且不会犯错的“人类代表”可能不太适合成为数字主播，一位这样的人类代表只能调用已有知识，无法与观众进行实时交流，也难以根据观众的输入进行情感表达。这可能会让观众感觉与数字主播的交流并不流畅，不能很好地满足观众需求。因此，这种人类代表可能不太适合成为数字主播。

提问：数字主播应该首先具备“离身认知”还是“具身认知”？

ChatGPT：“离身认知”指的是机器能够模拟人类的大脑，通过模拟人类的思维方式来获得知识。“具身认知”指的是，机器能够模拟人类的感官和运动能力，通过与外界互动来获得知识。对于数字主播来说，首先应该具备“具身认知”的能力，因为数字主播需要通过与观众的互动来获取信息，并根据观众的输入进行回应。如果只具备“离身认知”的能力，数字主播可能难以与观众进行有效的交流，也难以满足观众的需求。

提问：上面的两种认知能力，你在和我交流的时候，使用的是哪一种呢？

ChatGPT：我使用的是“离身认知”能力。我是一个大型语言模型，通过模拟人类的思维方式来回答你的问题。我并没有感官和运动能力，也不能与外界进行互动，因此只能通过“离身认知”来回答你的问题。不过，我可以通过人工智能技术来模拟人类的语言表达方式，并根据你的问题进行逻辑推理，来尽可能地为你提供有用的信息。

—从人“机”双方生成的上述“对话”来看，ChatGPT显示出一些简单的智能化行为，能够回答后续问题，承认错误，质疑不正确的前提，并拒绝不适当的请求。如果隐去对话者的身份，这俨然就是两个活生生的真人的对白，并且是拥有相当专业水准的研究者的学术对话，其中的大多数回答亦契合本文观点。

三、虚拟AI智能主持的应用仍面临质疑与困境

以OpenAI为代表的智能技术研究虽然取得了重大突破，但在真正的应用场景中还是要面对“稳定”与“安全”的考验。早在2017年，由我国香港汉森机器人技术公司（Hanson Robotics）开发的AI智能机器人索菲亚(Sophia)拥有超过62种面部表情，能够识别人类面部，并与人进行眼神接触。索菲亚(Sophia)被沙特授予公民身份，引起了马斯克等科技界及法律界人士的激烈反对，但也有不少人认为这是杞人忧天。^[16]

2022年12月7日，我国的澎湃新闻刊发了美国《时代》杂志对ChatGPT的专访和相关评论。其中，记者Billy Perrigo认为，ChatGPT系统确实是一种厉害的技术，但它的流畅性是一种错觉，它来自大量的数据、强大的计算能力和新颖的处理技术的结合。文中还提到，谷歌曾于同年7月22日解雇了工程师布莱克·莱莫因（Blake Lemoine），因为他相信公司的一个聊天机器人已经拥有了感知能力，从而提醒业界发布一个让人类相信对话者也是人类的程序所带来的伦理后果：这种机器可能会让人们相信错误的信息，说服他们做出不明智的决定，甚至在孤独或脆弱的人身上激发虚假的爱的感觉，发布这样一个程序肯定是非常不道德的。他们认为，ChatGPT这样的深度人工智能迟早会说出“女性和有色人种的科学家不值得你花时间或关注”之类涉及歧视的言辞。事实上，OpenAI表示，它已经阻止了数百个参与者滥用ChatGPT的前期模型GPT-3，并建立了过滤程序，过滤掉其中最恶劣的输出，并添加了“来自人类反馈的强化学习”。^[17]

事实上，很多科技界人士对AI智能的崛起保持高度警惕。2014年，英国理论物理学家史蒂芬·霍金在接受英国广播公司的采访时警告说：“我们已经拥有原始形式的人工智能，而且已经证明非常有用。但我认为人工智能的完全发展会导致人类的终结。”科技界巨擘比尔·盖茨在2015年的“Ask Me Anything”论坛上表示：“人工智能将最终构成一个现实性的威胁，但它在此之前会使我们的生活更轻松。”连投资了OpenAI的科技大亨埃隆·马斯克也于2015年发文称：“我们需要万分警惕人工智能，它们比核武器更加危险。”在AI智能主持领域，比“AI灭亡人类”这种耸人听闻的论调更可能发生的是，尚未达到“真正的人类智慧”阶段的AI“口无遮拦”，在“种族歧视”“政治言论”“人机伦理”等问题上给生产者和使用者双方带来意想不到的麻烦。因此，至少在现阶段，“AI主播”的称谓显得比“AI主持”更具应用的可行性。中国传媒大学的宋晓阳副教授认为，一些AI主播目前已经承担起新闻机构中资讯播报的工作，相较于人工播读，它们出错率低、24小时值班、随时在岗、高速出品，因为给予它们稿件的“把关人”还是人类，所以比较可靠。即便日后出现了拥有一定应变能力的AI主持人，也只适合作为真人主持的搭档参与主持工作，两者之间是融合关系，而非替代关系。阿基米德传媒的CEO王海滨也认为，只要是有强规律的工作，AI都比人好，AI主播可以第一时间拿到材料，第一时间生成播出，信息的传播效率非常高，这比它以什么风格获取受众的注意力，要重要得多。这种AI主播早期的研发投入很大，但边际成本是零，当算法研发好之后，往下推进非常容易，甚至可以成为无成本的生产，降本增效的作用非常明显。以广播节目实际制作方式为例，AI播报在新闻资讯播报场景中能够自动合成完整的新闻播报节目，合成效果与真人主播难分高下，而在稳定和效率方面，则远远高于真人主持人，其内容生产效率甚至能达到真人主持人的20～30倍。可见，具有“类人”思考能力的“AI主持”虽然更胜任“主持”等智能化的工作，却不如初级人工智能阶段的虚拟主播、虚拟服务员、虚拟助手们值得信赖。人类在研制关系到人类安全的科技产品时，“稳定”总是优先于“先进”。何况，在物质文化与非物质文化之间，人类总是表现出明显的“文化堕距”。

美国社会学家W.F.奥格本(W.F.Ogburn)第一次提出文化堕距，它是指物质文化与非物质文化之间的发展差距。通常来说，非物质文化相较物质文化的发展速度比较慢，二者之间存在一定的差距，非物质文化一般具有滞后性。如果说整个人类文化可以划分为物质、制度和观念三个层次的话，那么，从变迁的速度上看，可以说物质和技术层面的变化速度最快，制度层次次之，变化速度最慢的就是观念形态的文化。^[18]费孝通先生在《乡土中国》中就曾深刻地描述过这种因为社会变迁而导致的文化脱节现象。^[19]而当前AI人工智能的发展也同样面临社会与大众对日新月异的技术变革产生认识层面脱节的问题。近年来，倡导人工智能的群体热烈、积极地回应这种技术变迁，并呼吁当下的人们要热切地拥抱这种新技术与新变化。与之相反，包括科学家霍金与美国前国务卿基辛格在内的另一拨群体，却通过各种渠道呼吁人们对AI保持警惕。面对技术与媒介变迁中的文化滞后现象，我们一方面要理性看待，另一方面也要直面问题，致力于压缩智媒发展过程中的文化滞后进程，使得社会整体的思维发展尽可能地适应和跟上AI人工智能的发展步伐。这种改变的关键就在于制度建设与执行。AI人工智能的应用领域扩大化会对当前的社会带来一系列冲击，例如引发产业结构、就业结构的新变化，引起“技术性失业”。人工智能作为“类人智能”的机器，其普遍应用会对人的思维、人的本质以及人的主体性地位造成新挑战，形成对人类社会的宰制与人的“边缘化”。^[20]也就是说，人类正在沦为庞大、复杂的智能社会系统的“附庸”。

在众多的影视艺术作品中，AI智能与人类之间的关系之间存在一个“界限”，在越过这个界限之前，人类是AI智能的“创世主”；如果越界，AI智能则很可能反客为主，毁灭人类。早在1942年，美国科幻小说家艾萨克·阿西莫夫（Isaac Asimov）在其科幻小说《环舞》中提出了著名的“机器人三原则”，但这不过是人类的一厢情愿。AI智能在反应速度和大数据处理上胜过真人，它的诱惑让各行各业难以抵挡。例如，在需要快速、准确回答数据型问题的场合，AI智能主持的响应能力会更优于人类。拥有仿真人类外表，但只能调用已有知识且不会犯错的“虚拟主播”不太适合成为“AI主持”。ChatGPT的出现表明，AI主持目前就已经可以通过模拟人格化表达来与人类进行对话，因此，情感并不是人类最后的防线。随着算法与程序的迭代、渲染技术的增强、元宇宙产业的成熟，未来的AI智能必然实现令人真假难分的人格化具身表达。在科学界人工智能学者的不懈努力下，以及IBM、英伟达(NVIDIA)、Facebook、微软、谷歌、推特、OpenAI、Improbable、Alphabet等科技公司的不断推动下，更智能的虚拟数字人（Metahuman）必将以虚拟偶像、虚拟主持、数字员工、数字助手、数字教师等虚拟身份进入大众视野，现实社会中的社交、购物、娱乐等方式皆在重塑之中，人们的生活方式、交互体验将发生重大变革。在2022年12月31日东方卫视的跨年盛典上，AI主持“东方嫒”的技术团队将真人与数字人在XR技术中融合应用，给观众带来了与往年不同的视觉体验，也成为虚拟主持技术与元宇宙应用相结合的又一次成功尝试。

总之，虽然从理论上来看，能够深度理解人类情感而难以掌控的机器更适合成为虚拟主持人，但为了人类自身的安全，会将这种深度学习能力限制在资讯播报、场景合成、情感陪伴、商业服务范畴以内。人类与AI主持之间的理想共存是相互协作、相互促进，具备“离身认知”与“具身融合”的能力，以实现更高效、更优质的社会服务。“AI智能主持”在研发与应用过程中所面临的真实感、陪伴感、沉浸感、低延迟、多元化、知识生成、伦理底线等难题，是终将到来的“元宇宙”对于人类社会的数字化复制与改造过程中的一隅折射。

（作者简介：袁鸣，上海广播电视台东方卫视主持人；包磊，上海戏剧学院电影学院博士、副教授、硕士生导师）

【1】《腾讯发布万亿大模型训练方法：最快256卡1天训完万亿NLP大模型》.链接：

https://www.163.com/dy/article/HNJHV6N30511DSSR.html

【2】李诏宇. 多模态人工智能正大步走向场景应用新阶段[N]. 科技日报,2022-10-10(006)

【3】《专访中科院自动化所所长徐波：构建紫东太初—全球首个三模态大模型，类人智能的大门正在打开》.观察者网.https://www.guancha.cn/ChanJing/2021_07_20_599120.shtml

【4】殷乐、高慧敏.具身互动:智能传播时代人机关系的一种经验性诠释[J].新闻与写作. 2020,(11)

【5】殷乐、高慧敏.具身互动:智能传播时代人机关系的一种经验性诠释[J].新闻与写作. 2020,(11)

【6】指操控者。

【7】uploader，即内容上传者，网络流行词。

【8】即Bilibili（哔哩哔哩），简称B站，是中国年轻世代高度聚集的文化社区和视频网站，该网站于2009年6月26日创建。

【9】殷琪林，王金伟.深度学习在图像处理领域中的应用综述[J].高教学刊. 2018(09)

【10】央视新闻联合百度智能云打造首个AI手语主播.链接：https://ai.baidu.com/support/news?action=detail&id=2667

【11】周帅.虚拟主持人发展研究[D].东北师范大学.2021年

【12】苏涛、彭兰.技术与人文：疫情危机下的数字化生存否思—2020年新媒体研究述评[J].国际新闻界. 2021,43(01)

【13】网址chat.openai.com

【14】资料来自OpenAI官方网址chat.openai.com

【15】资料来自OpenAI官方网址chat.openai.com

【16】人类首次授予机器人索菲亚沙特国籍，特斯拉CEO马斯克表示反对.观察者网.链接：https://www.guancha.cn/industry-science/2017_10_27_432496_1.shtml

【17】《时代》专访ChatGPT：我还有很多局限，但人类应准备好应对.百家号.链接：AIhttps://baijiahao.baidu.com/s?id=1751527249610405371&wfr=spider&for=pc

【18】孙立平.现代化不同因素之间的变化速度差异及其影响[J].社会科学研究,1991(05):54

【19】“乡下人初到城里不知道如何躲闪汽车，于是便有司机朝农民吐唾沫，骂他们“笨蛋”。他认为，乡下人不知如何给汽车让道，就像城里人跑到乡下看到苞谷赞叹“麦子长得这么高啊”一样，一切不过是个知识问题，而不是智力问题，因此并不关乎一个人的人格。”—费孝通《乡土中国》.人民文学出版社.2019年

【20】雷想.机遇与困境人工智能视域下的传媒新业态和伦理思考[J].东南传播2020(06):32-34.