上海广电研究杂志官网  

征稿要求:

1.论文符合本刊宗旨与学术规范,具备较新的学术观点,使用较新的文献资料。评论性文章观点鲜明,语言生动,分析深刻,能够及时反映、探讨学界及业界的热点问题。 

2.所投稿件为作者本人 撰写并未曾在其他刊物公开发表过。    

3.稿件一律用电子邮件附件形式发送到电子邮箱:guangdianyanjiu@yeah.net    

4.附件请用Word文件,并注明文件名及作者名。   

5.稿件篇幅:论文原则上以6000字以内为宜;评论文章控制在1500字左右。    

6.稿件应注明作者的真实姓名、职称(职务或学位)及工作单位、详细通讯地址及邮编、联系电话(手机最佳)和电子邮箱。

 

来稿的处理流程是什么?

1.请勿一稿多投,也不要重复投稿。

2.收到稿件后,本刊编辑部认为符合要求或基本符合要求但仍需修改的,会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的,可自行对稿件另作处理。

3.因经费有限,编辑部对特约稿件支付超标稿酬,一般稿件只能略付薄酬。  

 

文章格式有什么讲究?

1.标题。主题用1号黑体;副题用3号宋体。居中。    

2.作者姓名,用四号楷体,右对齐。

3.文本提要,小四号楷体,200字以内;关键词,小四号楷体,3-5个。    

4.正文,用5号宋体。1级小标题用小4号幼圆体,居中;2级小标题用5号黑体,左对齐并缩进两个汉字;3级小标题用5号楷体,左对齐并缩进两个汉字。

5.鉴于本刊区别于其他学刊图文特色 建议作者供稿时提供文章相关图片及作者照片,并确保图像精度。

6.文末标出作者单位及职称(或学位、职务),若有多个作者,用分号隔开;

7.注释一律采用尾注形式。注释二字,用小5号黑体。注释条目各项顺序依次为:作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期(《书名》第几页,某年版),用小5号楷体。

8.为节约篇幅,一般采用注释形式的文章,不再单独一页设立参考文献。

幻维数码基于AIGC的批量抠像及画质增强技术研究

 

引言

  随着科技的发展,AIGC技术逐渐成为了后期制作领域的重要工具。批量抠图和画质增强作为后期制作的重要环节,一直是制约项目进度的瓶颈。在传统的后期制作工作流程中,批量抠图和画质增强通常需要以手动或半自动的方式进行,耗时耗力,且容易出现误差,严重影响了大型项目的推进速度。一部具有逼真场景和角色的电影,有大量的拍摄素材需要后期处理,可能需要数月甚至数年的时间成本。而画质增强则需要专业的技能和经验,对于普通用户来说更是难以掌握。传统的画质增强技术只是使用各种算法和滤波器来识别和处理图像中的不同元素,如通过边缘、纹理和颜色来增强画面细节,其对画面内容并不理解。然而,随着AIGC技术的不断发展,批量抠图和画质增强问题得到了有效的解决。通过利用深度学习等技术,AIGC可以自动识别图片中的主体,并将其与背景分离,实现快速抠图,结果也更加准确,避免了人为误差的出现。同时,AIGC还可以通过算法优化图片的细节和色彩,提高图片的清晰度和质量,实现画质增强。相比传统的方法,AIGC技术具有更高的效率和准确性。在批量抠图方面,AIGC可以一次性处理多张图片,大大提高了处理速度。在画质增强方面,AIGC可以通过算法优化图片的细节和色彩,提高图片的清晰度和质量,使得图片更加真实自然。总体而言,AIGC技术的应用为后期制作领域带来了革命性的变革。

  AI抠图是一种利用人工智能技术,智能快速地将图片中的主体从背景中分离出来的技术。它可以根据图片的内容和质量,自动选择合适的算法和参数,识别出图片中的主体和背景,并将主体与背景分割,生成透明背景的图片。用户可以轻松地更换图片的背景,或对图片进行编辑和处理。其效果不仅快速而且精准,还能够保留主体的细节和边缘,避免出现毛边和锯齿。在许多领域AI抠图都有广泛的应用,比如广告设计、电商平台、摄影后期处理、教育培训、社交媒体等领域,可以帮助用户提高图片的美观度和创意性,增加图片的吸引力和价值。这一技术的发展历程与人工智能领域的进步密切相关,从最初的简单算法到现在的深度学习模型,AI抠图技术已经实现了巨大的飞跃。

  在数字时代,图像和视频的质量已成为衡量媒体内容的重要标准。高清、流畅、逼真的画面能够吸引更多的受众,提高用户的满意度和忠诚度。人工智能技术的飞速发展下,AI画质增强技术应运而生,它利用深度学习等方法,对低分辨率、模糊、噪声等问题进行智能修复和优化,从而提升图像和视频的色彩、清晰度、对比度等视觉效果,不仅重塑了视觉娱乐的边界,也为多个行业的视觉呈现提供了前所未有的提升可能。例如,AI画质增强技术可以帮助医疗行业提高医学影像的诊断准确性,可以帮助教育行业提高在线教学的交互质量,可以帮助安防行业提高监控画面的识别能力等。AI画质增强技术是一种具有广泛应用和巨大潜力的创新技术,它将为人类的视觉体验带来革命性的改变。

 

一.AI批量抠像的实现与功能

  批量抠像的实现方法是结合开放平台的API接口和开源AI模型,利用深度学习的技术来实现高效的图像分割。由于目前还没有一个完美的开源抠图模型能够适应各种场景和需求,因此幻维团队将一个复杂的抠图任务分解为多个子任务,分别使用不同的模型来完成。具体方法为,先用API接口(RemoveBg)进行初步的抠图,快速地将图片中的人物或物体从背景中分离出来,但可能会有一些细节的缺失或错误;然后用开源模型进行细节的优化和修复,例如使用Deep Image Matting模型来改善图片的边缘和透明度,或者使用Inpainting模型来填补图片中的空洞和缺陷,这样可以提高抠图的效率和质量,达到与专业平台相媲美的水平。

  批量抠图功能的初步目标是实现5秒一张的抠图速度,并达到RemoveBg收费版的抠图效果,即能够处理各种复杂的背景和前景,保留图片的清晰度和真实感,同时消除抠图后的锯齿和噪点。后续研究方向为尝试解决抠图后图片反光、反射等需要后期调节的问题,例如使用Relighting模型来调整图片的光照和阴影,或者使用Style Transfer模型来改变图片的风格和色彩,这样可以让抠图后的图片更加自然和美观,满足用户的个性化需求。

  批量抠像功能流程和效果如图所示:

 

  如效果图所示,我们通过上述流程可以一键将图片中的前景和背景分离,极大地降低了人力成本和后期制作的工作量。这种流程利用了AI技术的强大能力,可以快速地对图片进行分析和处理,无需人工进行繁琐的选区和调整,节省了时间和精力。

  与传统后期抠图相比,AI抠图的优势在于可以自动识别图片中的前景,并将其分离出来,因此抠图效率大幅提高,可以满足大部分项目的需求。某些项目对于抠图精度要求特别高的,也可以通过后期对AI抠图处理过的图片进行微调,以满足更多场景的需求。AI抠图的准确度和质量不断提高,可以适应不同的图片风格和复杂度,甚至可以处理一些传统抠图难以解决的问题,如毛发、羽毛、玻璃等。

  AI抠图在后期制作过程中主要用于替换背景或图像合成等,广泛应用于广告宣传、电子商务、杂志封面、影视制作等领域。其可以让创作者更自由地发挥想象力,创造出更多的视觉效果和艺术风格,提升作品的吸引力和价值;AI抠图也可以为用户提供更多的个性化选择,让用户可以根据自己的喜好和需求,轻松地更换图片的背景和元素,打造出自己的专属图片。

  虽然AI抠图已经有了长足的发展,但是还存在着诸多挑战,例如如何提高抠图精度和处理复杂场景下的前景提取。未来的发展方向可能包括提高算法的泛化能力,减少对人工辅助信息的依赖,以及加强模型的自动化和实时处理能力。随着深度学习技术的进步,AI抠图技术正朝着更加自动化、智能化的方向发展,未来有望在图像编辑、视频会议背景替换、虚拟现实等领域发挥更大的作用,更好地服务于各种图像处理需求。

  AI抠图相比传统抠图效率有了显著的提升,效率对比如下:

  如图所示,AI抠图受到网络带宽和GPU算力的影响。随着显卡算力和网络带宽的提升,AI抠图的效率得到进一步的提升。仅就目前而言,对比传统工具结合人工手动修正所花费的时间,AI抠图已经产生了质的飞跃,工作效率已呈现出百倍级的提升。

 

二.AI画质增强的实现与功能

  视频画质增强的实现方法是利用一种先进的开源AI模型(Stable Diffusion),能够将视频每一帧图像的分辨率提高到4K或更高的水平,并进行降噪和锐化处理,使视频的画面更清晰和细腻,呈现出令人惊艳的效果。但是,这种方法也存在一个缺陷,即由于AI模型对每一帧视频的处理可能不一致,导致视频的连贯性和流畅性受到影响,可能出现画面跳动或抖动的现象。为了解决这个问题,幻维团队使用开源算法和模型来实现视频帧之间的平滑过渡,消除视觉上的不协调,保证视频的自然和流畅。

  画质增强功能的初步目标是将普通低画质(480p720p1080p)视频一键转换成超清画质(4k6k8k),并解决转换后视频噪点和流畅性的问题,让用户享受到高清无码的视觉体验。后续研究方向为消除视频马赛克、遮挡物等功能,进一步提升视频的观赏性和美感。

在项目实施过程中,团队制定了详细的视频画质增强功能流程,并通过实验验证了AI画质增强技术的有效性。实验结果表明,经过AI处理后的图片在清晰度上有了显著提升,细节表现更加出色。这得益于AI算法对低分辨率图片颜色特征的分析和还原,使得模糊、失真或噪点多的图片得以变得更加清晰、真实和美观。

  AI画质增强在后期制作过程中主要用于提高视频分辨率和清晰度,例如可以将一些年代比较久远的影视作品还原成高清画质。这对于保护和传承文化遗产,以及满足观众的高品质观看需求,都有着重要的意义。其挑战主要集中在如何处理视频和图像中的各种失真问题,包括压缩失真、噪声、模糊等,另外还需要在保持细节的同时提升清晰度。未来的发展方向可能包括提高算法的效率,以便在不同的硬件和平台上运行,以及利用深度学习进一步提升画质增强的自动化和智能化水平。

  AI画质增强相比传统画质增强效率显著提升,具体对比如下:

 

  如图所示,AI画质增强不仅在效果上比传统技术更出色,工作效率也呈现出百倍级增长,可以通过提高GPU算力和网络带宽实现画面秒出。这一技术的实现,让影片修复、降噪、细节还原等影视工业传统后期制作流程彻底被AI取代。

  团队在项目初期遇到了重重困难,因为市场上的大多数高效AI抠图和画质增强工具都是收费的或者是私有的,这对于预算有限的个人和企业来说是一个不小的挑战。即使是开源工具,也往往在抠图精度、处理速度和画质增强方面存在不足。面对这些问题,团队决定采取一种创新的方法,通过结合多个开源AI模型和平台的优势,来规避现有工具的限制。在AI抠图功能的开发过程中,团队首先关注的是如何提高抠图的精度和速度。传统的抠图技术往往需要人工干预,这不仅耗时耗力,而且难以保证结果的一致性。为了解决这一问题,团队采用了机器学习算法,通过大量的模型优化和测试,最终开发出了一个能够快速准确地从任意背景中分割出目标对象的AI抠图工具。这个工具不仅提高了抠图的效率,而且极大地降低了用户的技术门槛,使得即便是没有专业背景的用户也能轻松地进行图像编辑和创作。

  视频画质增强功能的开发则是另一个挑战。随着4K8K等高清视频格式的普及,用户对视频清晰度的要求也越来越高。然而由于各种原因,许多现有的视频内容质量并不理想,这就需要对视频进行超分辨率重建和去模糊化处理。幻维团队在这一领域进行了深入的研究和实验,最终开发出了一种能够对低分辨率或模糊的视频进行有效处理的视频画质增强工具。这个工具不仅能够提高视频的清晰度和细节,还能够保持视频的自然色彩和动态范围,为用户提供了更高品质的视觉体验。研究的成功不仅在于开发出了两个具有实用价值的功能,更重要的是为图像和视频处理领域提供了一种新的思路和方法。通过结合多个开源AI模型和平台的优势,团队克服了现有工具的限制,极大地提高了后期制作的效率。这些成果不仅为专业人士提供了强大的工具,也为普通用户带来了便利和乐趣,使得更多的人能够享受到高质量的视觉内容。

 

三、结论

  若想使AIGC技术最终成为撬动生产力的杠杆,需要尽可能地将其融入到更多的生产环节,成为每一位创作者不可或缺的工作伴侣。

  AIGC对于传统内容生产流程是颠覆性的。传统以剧本创作为先导的制作流程将被以角色培养为先导所替代,处于创作前期的剧本、分镜稿、线稿也将可以在瞬间呈现出最终的效果图,剪辑师们将能够用AIGC语言写出StoryLine。可以预见,未来影视工业前后期岗位将逐渐融合,AI训练师等一批新的岗位会应运而生,行业生产流程将颠覆再造。

  未来的设计师要有从01的创造力,AI则完成从110的迭代,设计师能否驾驭AIGC设计结果,这才是最核心的考验。通过AIGC,建设符合业务端需求的工业化架构和制作流程将是非常有价值的突破。

 

(作者简介:孙淼越,上海幻维数码创意科技股份有限公司研发主任;

刘欢,上海幻维数码创意科技股份有限公司研发中心软件工程师)

 

参考文献

1】费敏锐,孟添.人工智能应用[M].北京:中国人事出版社,2019.

2】梁椅辉,黄翰.自然图像抠图技术综述[J].计算机应用研究,2021.

3A IgnatovN Kobyshev et al(2018).WESPE: Weakly Supervised Photo Enhancer for Digital Cameras.IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).Salt Lake City.

4YS ChenYC Wang et al(2018).Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City.

5Jie HuangPengfei Zhu et al(2018). Range Scaling Global U-Net for Perceptual Image Enhancement on Mobile Devices.  European Conference on Computer Vision. Munich.

6H LiuPN Michelini et al(2018). Deep Networks for Image-to-Image Translation with Mux and Demux Layers. European Conference on Computer Vision. Munich.

 

 

 

上海广播电视台 版权所有 沪ICP备10019291号-3
通信地址: 上海威海路298号 邮政编码: 200041