征稿要求:
1.论文符合本刊宗旨与学术规范,具备较新的学术观点,使用较新的文献资料。评论性文章观点鲜明,语言生动,分析深刻,能够及时反映、探讨学界及业界的热点问题。
2.所投稿件为作者本人 撰写并未曾在其他刊物公开发表过。
3.稿件一律用电子邮件附件形式发送到电子邮箱:guangdianyanjiu@yeah.net
4.附件请用Word文件,并注明文件名及作者名。
5.稿件篇幅:论文原则上以6000字以内为宜;评论文章控制在1500字左右。
6.稿件应注明作者的真实姓名、职称(职务或学位)及工作单位、详细通讯地址及邮编、联系电话(手机最佳)和电子邮箱。
来稿的处理流程是什么?
1.请勿一稿多投,也不要重复投稿。
2.收到稿件后,本刊编辑部认为符合要求或基本符合要求但仍需修改的,会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的,可自行对稿件另作处理。
3.因经费有限,编辑部对特约稿件支付超标稿酬,一般稿件只能略付薄酬。
文章格式有什么讲究?
1.标题。主题用1号黑体;副题用3号宋体。居中。
2.作者姓名,用四号楷体,右对齐。
3.文本提要,小四号楷体,200字以内;关键词,小四号楷体,3-5个。
4.正文,用5号宋体。1级小标题用小4号幼圆体,居中;2级小标题用5号黑体,左对齐并缩进两个汉字;3级小标题用5号楷体,左对齐并缩进两个汉字。
5.鉴于本刊区别于其他学刊图文特色 建议作者供稿时提供文章相关图片及作者照片,并确保图像精度。
6.文末标出作者单位及职称(或学位、职务),若有多个作者,用分号隔开;
7.注释一律采用尾注形式。注释二字,用小5号黑体。注释条目各项顺序依次为:作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期(《书名》第几页,某年版),用小5号楷体。
8.为节约篇幅,一般采用注释形式的文章,不再单独一页设立参考文献。
实时AIGC与超高清交互技术 在沉浸式装置艺术中的创新应用 ——以《千年之约・入画屏》为例
引言
传统装置互动艺术作为一种融合了物理装置与数字技术的艺术形式,近年来在数字文旅领域展现出巨大的潜力。通过沉浸式体验增强了观众的参与感,还借助多媒体技术将文化、历史与现代科技有机结合,创造出独特的叙事空间。以故宫博物院“数字故宫”和武汉“夜上黄鹤楼”光影秀为例,此类艺术形式不仅提升了文旅项目的吸引力,延长游客停留时间、增加消费,还传播了文化遗产,增强了文化认同感,为文旅产业注入新活力。
AIGC技术的兴起推动了艺术与科技深度融合,智能多媒体装置艺术应运而生,为观众带来全新沉浸式体验,在文化传播、商业应用等方面潜力巨大。但目前AIGC技术在大型交互式艺术装置中的应用面临诸多挑战,如实时生成高质量超高清内容的计算资源与算法效率难题、多模态交互融合感知技术的不成熟,以及技术实现与艺术表达的平衡问题等。《千年之约·入画屏》这一大型生成式智能艺术装置,突破现有技术瓶颈,探索AIGC技术在大型交互式艺术装置中的应用,推动艺术与技术的深度融合及文化产业的创新发展。
一、AIGC技术运用的瓶颈和挑战
传统互动装置艺术虽在数字文旅中取得一定成果,如TeamLab的《Borderless》实现大规模场景实时渲染,但内容生成多基于固定模型,缺乏实时动态生成能力。迪士尼《疯狂动物城》互动装置分辨率及人脸编辑精度不足,难以满足当下超高清沉浸式体验需求(鞠瑶等,2024)。
(一)AIGC 技术在装置艺术中的应用瓶颈
1.算力与带宽约束
在超高清(4K+)分辨率下实时生成高质量内容,对算力要求极高,单卡算力需达24 TFLOPS 以上。传统集中式部署导致现场设备庞大、能耗高,难以适配艺术展陈环境。同时,数据传输对带宽要求高,现有网络条件下难以实现流畅的4K内容投屏。
2.算法效率与画质平衡
主流生成模型在高分辨率下生成延迟长,如Stable Diffusion生成延迟超500ms,且存在人脸五官扭曲、肢体动作穿帮等问题,需优化算法架构以平衡生成速度与画质。
3.文化内涵与技术融合
当前多数装置艺术侧重技术展示,对传统文化符号的解构与创新表达不足,未能充分实现技术服务于艺术表达的创作目标。
二、《千年之约·入画屏》技术架构与创新实践
(一)系统总体架构设计
《千年之约·入画屏》采用“端云协同”分布式架构,分为客户端现场基础设施与云端SaaS服务两部分(图1)。客户端侧选用消费级树莓派嵌入式系统,承担游客脸部信息采集与上传以及投屏显示的任务。树莓派体积小巧,尺寸仅为85mm×56mm,却功能强大且功耗低,极大地降低了装置安装对空间的需求和难度,为艺术表达预留了充足空间。云端部分的架构较为复杂,所有算法服务以 Web服务作为入口,用于接收客户端发送的客户信息与人脸渲染请求。Web服务在接收到请求后,通过分布式任务队列进行任务调度。考虑到人脸渲染和人脸编辑算法对GPU算力的需求,无法采用同步请求方式。为满足现场较大的人流通量,SaaS服务端构建了多机多卡的分布式并行推理架构,当前该系统能够同时满足超过16个人脸的实时渲染需求。
图1 《千年之约 入画屏》AI互动装置技术框架示意图
在分布式架构下,数据传输速度成为关键挑战。由于此前人工智能SaaS服务鲜少有实时推理视频流的需求,现场部署时发现,网络波动与路由路径等问题导致系统难以实现快速、流畅的4K内容投屏。为此,项目组设计了一套人脸区域编码压缩系统。该系统仅传输活动的人脸区域,在初始化期间预先下载好所有模板内容,投屏阶段只传输人脸活动区域,将所需带宽通量从100M大幅降低至2M,极大地降低了艺术装置对现场条件的要求及普及门槛。这种分布式的内容分发架构设计,实现了人工智能算力与现场装置的分离,是《千年之约·入画屏》系统的重要创新点之一。
(二)核心算法突破:SimSwap++ 人脸编辑技术
项目的核心算法依托 SimSwap++/SimSwap 人脸编辑算法(Chen et al.,2024),该算法在国际开源社区具有极大影响力,在《千年之约·入画屏》装置公开前已在工业界引发广泛关注,多项基于此算法的产品已实现落地应用,在学术界也颇具影响,成为相关领域的标准算法。SimSwap算法的原理与流程简洁,包含图像编码器、身份信息注入模块、图像编码器、身份信息提取模块四个关键部件(见图2)。
图2 SimSwap++算法原理示意图
图像编码和解码器是所有生成模型共有的设计,其主要作用是对图像进行降维,以降低整体网络的复杂度及资源开销。图像编码器先将目标图像编码为隐层特征,这些特征能够减少光照信息、皮肤纹理等细节对人脸编辑的影响。提取的隐层特征通过多层身份注入模块,逐步将身份信息从输入图像中分离出来,随后将源图像与目标图像的身份信息互换,从而实现对输入图像身份信息的编辑。身份信息的抽离依赖于身份信息提取模块,该模块本质上是一个预训练好的人脸识别网络,能够描述人脸身份,通过比较人脸编辑后的图像与源图像的身份信息来实现换脸。SimSwap算法整体设计未采用任何复杂异型算子,这使得其部署高效且便捷。项目组在SimSwap算法基础上优化形成的 SimSwap++算法,进一步提升了算法性能,例如在连续帧间人脸动作的平滑过渡方面表现更为出色,将动作捕捉延迟控制在30ms以内,显著提升了交互的流畅性。
(三)文化叙事与技术的深度融合
在《千年之约·入画屏》的创作中,文化叙事与技术实现了深度融合。装置精心选取极具代表性的宋代美学画作,投入大量精力对画作进行细致剖析,精准提取出涵盖服饰、器物等多元领域的文化符号。这些符号承载着宋代独特的历史底蕴与艺术审美,项目组以此为基础,借助先进的数字建模技术,构建起精细的三维动态模型库。
在交互体验设计上,充分运用前沿技术赋予观众深度参与感。观众置身其中,仅需通过简单的表情驱动,例如自然的微笑、不经意的眨眼动作,便能巧妙触发画中场景的灵动变化,成功激活一系列精心编排的动态叙事单元,达成“人画融合”的极致视觉效果,让观众仿若真正穿越时空,走进宋代画卷,实现全方位、沉浸式的文化体验。
三、系统实施效果与性能验证
(一)技术性能指标
《千年之约·入画屏》在2024年上海国际光影节展出期间(为期10天),项目组对装置实际场景运行的性能参数进行了统计(见表1)。从效率方面来看,装置能够以30fps的帧率稳定输出,保障了画面的流畅度。视频质量上,人脸大小达到512×512,整体视频适应2K分辨率,呈现出高清细腻的画面,色彩还原度高,误差<3%,远优于行业平均的8%误差水平。面部特征识别准确率高达98%,动作捕捉与驱动准确率达95%以上,有效减少了画面穿帮和动作异常情况。在线率在展览期间稳定保持在99%以上,有力保障了观众的持续体验。运行时间内,每天接待1000人,展览期间观众互动调用次数超10万次,高峰时段每小时调用达2000次,充分体现了装置在高并发场景下的稳定运行能力。这些数据表明,该装置在运行流畅度、显示渲染效果以及人脸编辑准确性等方面性能卓越。
四、结论与未来展望
(一)研究结论
《千年之约·入画屏》构建起“文化IP解构-实时生成技术-沉浸式交互”的完整技术链条,实现了多方面的创新。在工程化实践上,首次成功将消费级嵌入式设备与分布式算力相结合,显著降低了大型装置艺术的部署门槛,为同类项目提供了全新的工程实现思路。算法创新方面,SimSwap++算法在保持高效推理的同时(单卡支持4路实时渲染),有效解决了超高清视频中的人脸生成精度问题,在技术指标上达到国际领先水平。文化价值层面,该装置通过“技术赋能艺术” 的理念,实现了传统文化的创新性传承,充分验证了AIGC装置艺术在文化传播中的有效性。
(二)未来展望
AIGC装置艺术为新媒体创新开拓了新方向。它突破了传统创作和传播模式的局限,实现内容的实时生成与个性化定制。通过融合视觉、声音、动作等多模态交互元素,极大增强了用户的参与感与沉浸感,为新媒体广告、内容创作等领域提供了宝贵借鉴。在传统文化传播方面,AIGC装置艺术开拓了新路径。将传统文化数字化、可视化,借助互动体验让观众更深入理解传统文化内涵。在数字文旅领域,AIGC技术推动其向沉浸式、互动式方向发展。景区和文旅场馆可利用AIGC打造虚拟导游、构建沉浸式历史场景等项目,丰富游览内容,整合文旅资源,促进产业创新发展。同时,其引发了关于人工智能生成作品原创性、所有权等问题的讨论,促使艺术界、法律界等重新审视相关规则,推动人们深入探讨人工智能在艺术领域的潜力与界限,进而促进艺术理论和实践的发展。在经济层面,AIGC装置艺术激发了新的市场需求,为数字展览、个性化定制等领域创造了商业机会,催生出新的商业模式和产业形态。
尽管AIGC装置艺术已取得了一定成果,但仍面临诸多技术和社会层面的挑战。在技术层面,未来需深入研究边缘计算与联邦学习技术,降低对云端的依赖,实现离线环境下的稳定部署,进一步提升装置的应用灵活性。在交互技术方面,集成语音识别、手势交互等多种技术,构建更加自然、多元的人机交互体系,是提升用户体验的关键方向。同时,随着AIGC技术的广泛应用,数据所有权的伦理问题以及人工智能生成艺术对用户心理的影响日益突出,亟须深入探讨并建立相应的规范和准则。此外,研究人工智能如何通过创造个性化内容提升营销效果,进而提高用户留存率和情感参与度,将为AIGC装置艺术的商业化应用提供有力支撑。通过解决这些挑战,AIGC装置艺术有望实现可持续且对社会负责的发展,在全球艺术领域发挥更大作用,不断拓展艺术表达的边界,创造出更多具有创新性和社会价值的艺术作品,为文化产业和社会发展持续注入新活力。
(作者单位:上海广播电视台技术管理办公室)
参考文献
【1】朱敏光.数字经济时代数字媒体艺术的创新与发展[J].山西财经大学学报, 2024, 46(S2): 50-52.
【2】钟丽茜.数字交互艺术对传统叙事学批评的挑战与启示[J].中国社会科学评价, 2023, (02):132-140+160.
【3】赵晖,毕健蓝.生成式媒介环境下AIGC微短剧的创新探索——技术驱动、融合创新与视听变革[J].当代电视, 2024,(12):15-21.DOI:10.16531/j.cnki.1000-8977.2024.12.016.
【4】鞠瑶.数字艺术展陈模式发展近况及思考——以媒体艺术推广展览与活动为例[J].电视研究,2023,(11):65-67.
【5】https://refikanadol.com/works/machine-hallucinations-nature-dreams/
【6】X.Chen et al.,"SimSwap++:Towards Faster and High-Quality Identity Swapping" in IEEE Transactions on Pattern Analysis & Machine Intelligence,vol.46,no.01,pp.576-592,Jan. 2024, doi:10.1109/TPAMI.2023.3307156.