征稿要求:
1.论文符合本刊宗旨与学术规范,具备较新的学术观点,使用较新的文献资料。评论性文章观点鲜明,语言生动,分析深刻,能够及时反映、探讨学界及业界的热点问题。
2.所投稿件为作者本人 撰写并未曾在其他刊物公开发表过。
3.稿件一律用电子邮件附件形式发送到电子邮箱:guangdianyanjiu@yeah.net
4.附件请用Word文件,并注明文件名及作者名。
5.稿件篇幅:论文原则上以6000字以内为宜;评论文章控制在1500字左右。
6.稿件应注明作者的真实姓名、职称(职务或学位)及工作单位、详细通讯地址及邮编、联系电话(手机最佳)和电子邮箱。
来稿的处理流程是什么?
1.请勿一稿多投,也不要重复投稿。
2.收到稿件后,本刊编辑部认为符合要求或基本符合要求但仍需修改的,会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的,可自行对稿件另作处理。
3.因经费有限,编辑部对特约稿件支付超标稿酬,一般稿件只能略付薄酬。
文章格式有什么讲究?
1.标题。主题用1号黑体;副题用3号宋体。居中。
2.作者姓名,用四号楷体,右对齐。
3.文本提要,小四号楷体,200字以内;关键词,小四号楷体,3-5个。
4.正文,用5号宋体。1级小标题用小4号幼圆体,居中;2级小标题用5号黑体,左对齐并缩进两个汉字;3级小标题用5号楷体,左对齐并缩进两个汉字。
5.鉴于本刊区别于其他学刊图文特色 建议作者供稿时提供文章相关图片及作者照片,并确保图像精度。
6.文末标出作者单位及职称(或学位、职务),若有多个作者,用分号隔开;
7.注释一律采用尾注形式。注释二字,用小5号黑体。注释条目各项顺序依次为:作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期(《书名》第几页,某年版),用小5号楷体。
8.为节约篇幅,一般采用注释形式的文章,不再单独一页设立参考文献。
Sora与新时代广电行业创新机遇 ——东方明珠公司高质量发展路径探索
一、 引言
在当前全球科技创新与产业变革的大背景下,习近平总书记在中共中央政治局就扎实推进高质量发展进行第十一次集体学习时强调,高质量发展是新时代的硬道理,必须推动新质生产力加快发展。这一宏观指导思想为中国各行各业指明了发展方向,特别是对广电行业而言,提出了新的挑战与机遇。2024年2月OpenAI发布的Sora模型,作为人工智能生成内容(AIGC)技术的最新成果,进一步拓展了大模型应用的边界,将视频内容生成领域推向了一个新的高度。这不仅是技术创新的里程碑,也为广电行业的转型升级提供了新的思路和工具。
近年来中国媒体行业的开拓者在人工智能的大浪潮下积极探索和应用最前沿的技术以推动媒体内容的创新性和多样化,东方明珠新媒体(OPG)作为中国广电行业的先锋企业,一直致力于探索最前沿的技术在创新发展中的应用。Sora发布后,OPG迅速采取行动,深入研究Sora的技术特性、应用潜力及其对广电行业可能带来的影响。本文旨在探讨在新时代背景下,如何利用Sora等AIGC技术推动媒体行业的创新与发展。文章将从Sora的技术特点出发,分析其在媒体行业应用的可能性和挑战。通过总结OPG在AI领域的探索经历和下一阶段方向,进而探讨媒体企业如何通过技术创新,实现内容生产的高效化、多样化,以及如何借此机会推动媒体行业的高质量发展,最终更好地服务与融入国家发展战略。
二、 Sora视频生成大模型概述
1.Sora简介及特点
美国当地时间2024年2月15日,OpenAI正式发布了其首个文本生成视频模型Sora,迅速受到广泛关注。在官方网站及社交媒体中,OpenAI提供了很多Sora生成的视频示例,展示了令人印象深刻的效果,其生成时间长且效果逼真的视频的能力,让人们对未来全新的内容创作方式充满了期待。可以预见Sora的发布将会大大影响视频创作领域,电影制作、电视内容、广告制作、游戏制作、互联网自媒体短视频等行业均会出现创新变革。
Sora能够根据用户输入的一段具体文字描述或一张静态的图片,生成类似电影效果的视频场景,其中可以包含多个角色、不同的动作和背景细节;也能够生成长达一分钟的视频,包括横屏1920*1080视频、竖屏1080*1920视频以及两者之间所有分辨率的内容,这使得Sora可以根据特定的宽高比来生成视频内容并兼容不同的视频播放设备。
相较于此前发布的文生视频模型,Sora的特别之处在于,其对自然语言的深刻理解有了大幅的提升和进步,能够更准确地理解用户输入的prompt提示词,并生成媲美影视作品效果的精美视频内容,视频的内容类型多变且能够表达丰富的情感。
除了能够根据文本指令灵活地生成各种类型视频外,Sora还能够从现有的静态图像中生成视频,并合理地让图像内容运动起来;同时支持视频时间线向前或向后的灵活扩展、从指定视频进行扩展或填充缺失的帧、视频风格和环境的变换、两个不同视频之间的连接过渡等功能。最令人惊叹的是Sora在视频生成的过程中还能“理解”到物体在物理世界中的存在和运动的方式。在进行大规模训练下,Sora出现了有趣的“模拟能力涌现”,正是这些能力使得Sora能够出色地模拟物理世界中千变万化的人、物和环境。
总结下来,Sora模型具备以下几个突出的特点:
1.3D一致性。Sora能够生成具有类似摄像机视角的动态拍摄视频。随着拍摄角度的移动和旋转,视频内人物和背景等元素在三维空间中能够相应地移动和变化。
2.连贯性和物体常在性。连贯性和物体常在性对于视频生成系统来说是一个重大挑战。Sora通常能够有效模拟物体在时空中短期和长期的存在关系。
3.互动性。Sora有时能够以特定的方式模拟影响世界状态的行为。例如,一位食客大口吃汉堡后会留下咬痕,画家在作画时可以在画布上留下随时间变化的新的笔触等。
与SVD、Runway、Pika等其他文本生成视频模型和产品相比,Sora在生成时长、内容一致性、连贯性和真实性以及分辨率等方面都表现出明显的优势。
但Sora也并非完美的产品,在已公开的视频中可以发现当前的模型也存在一定弱点,在复杂场景下它难以准确模拟特定的物理原理,并且可能无法正确地理解逻辑因果关系。该模型还可能会混淆空间的部分细节,也可能难以精确描述随着时间推移发生的复杂事件。
2. Sora对多模态AIGC技术的影响
OpenAI的Sora模型标志着在视频内容生成领域的一大突破。继Transformers文本大模型、跨模态视觉理解以及视频描述技术的成功之后,Sora在这一系列技术积累和沉淀的基础上实现了新的飞跃。虽然Sora能够模拟物体在三维空间中的运动和拍摄相机视角的变化并在视频中呈现出三维效果,但它生成的内容本质仍然是二维的视频,目前模型能力也还是局限在二维空间中。这一限制未能减少其在时间和空间连贯性方面的表现,反而可能激发对三维内容生成领域的进一步探索。将Sora与三维建模软件如Blender或Maya结合,或是将其扩展以支持3D内容生成,都是值得探索的方向,这将使内容创作的场景扩展到更广阔的三维空间。目前模型主要基于文本和图像视频的训练,未来采用真实3D点云或光流数据,可能会为3D内容生成开辟新的探索路径。
Sora模型的出现是向理解和模拟现实世界迈出的重要一步,被认为是实现通用人工智能(AGI)的重要里程碑之一。尽管目前Sora在视频处理上存在局限,这些局限和挑战定义了Sora目前的应用范围,但其为AIGC文生视频技术的发展提供了重要推动力,它将不仅仅应用于内容生产,还可能拓展到作为现实世界可靠模拟的工具。Sora的发展预示着视频内容创作技术正在迈向更高的台阶。
三、 OPG走向高质量发展路径的AI实践与方向
1.OPG在AI领域的实践经历
在2015年完成资产重组后,OPG作为上海广播电视台、上海文化广播影视集团有限公司旗下的产业平台和资本平台,对技术架构进行了整合规划,启动了包括数据中台、内容中台、业务中台等在内的智慧中台建设。其中,在数据中台的用户画像和个性化推荐能力建设中,公司利用AI及大数据技术从海量数据中提取用户特征,以更好地理解用户需求和行为模式,通过视频、内容档案,结合用户行为、交易数据,建立用户画像,支撑市场营销策略制定;在此基础上,借助AI算法开发个性化推荐,减少编辑人工参与,提供“千人千面”的用户体验,实现CTR指标(点展比,点击量/展现量)提升约6倍,推荐内容的人均浏览次数提升1.9倍。在内容中台的内容审核能力建设中,公司利用AI技术实现对指定类型内容的自动审核和过滤,以提升内容的合规性和安全性。在视频业务中台的客服系统建设中,公司利用自然语言处理和机器学习技术开发了智能的问答系统,将用户问题与后台QA知识库进行匹配,自动获取标准答复,对基础问题进行了有效分流。
此外,视频打点可以为编辑提取、标注内容的关键信息提供帮助,提升内容生产的效率。公司集成多个AI能力开发的辅助新闻拆条应用,可以向编辑提供新闻边界点的提示,同时通过新闻标题字幕识别,自动生成新闻标题供编辑使用,从而提升新闻拆条的生产效率。AI辅助连续剧片头片尾打点能够基于图像、音频特征,使用无监督学习方法,确认片头/片尾时间点,大幅降低编辑人工参与的工作量。
2.OPG未来的AI发展及应用方向
在AI技术应用初期,OPG采用了多种AI技术路线以应对不同的业务需求,这也意味着高昂的落地成本和部分应用效果不如预期的挑战。因此,从2023年开始,OPG的AI实践探索进入了新的阶段—— “大模型+”阶段,开始重视行业基础数据的建设,着力建设媒体领域的公众人物人脸数据库、富媒资数据库、大屏收视行为数据库,构建客户服务领域的电视购物业务知识库、广电网络业务知识库,并关注设计领域的舞美模型资产数据库沉淀。同时,OPG在模型能力上实现了多模态化,即能够综合应用文本、图像、语音、人物等多种模态的特征,特别是在方言识别方面,将为大模型的本地化应用提供更好的支持。
OPG目前正在研发并将部署媒体内容AI分析平台,通过人物、语音、文字识别等基础能力,形成智能标签、精彩看点、翻库回扫等应用;系统实现媒体内容AI分析处理能力,并积累大量的人物库数据和结构化视频,为建立多模态广电行业大模型提供数据基础。
OPG还将进一步推进基于多模态特征的大屏智能推荐算法优化,创新性地挖掘和利用内容多模态特征,优化和丰富现有推荐算法,缓解内容标签不充分、内容用户行为稀疏问题,提升推荐点展比、次均收视时长和视频流点击率,并在IPTV上海移动大屏和5G云TV等业务进行试点,形成推荐服务的对外输出能力。将大模型应用于文化消费领域的在线智能客服系统建设也是未来的发展方向,着力实现智能外呼、智能客户在线咨询、大模型垂直行业知识库、上海方言识别等一系列功能。平台可在电商、运营商、文旅等领域深度融合复用,从根本上降低呼叫中心业务人员人力成本,提高工作效率,实现智能化管理。
在此阶段,OPG开始建设行业大模型底座,旨在为多元化的业务场景提供更加统一和高效的AI支持。与之前的阶段相比,技术路线有所收缩,更加注重打造通用的AI基础底座,以赋能跨业务的应用场景。后续,OPG将继续探索“基础模型+行业数据”的AI赋能模式,不断优化和完善技术路线,为业务场景提供更加智能和高效的解决方案。
四、 AIGC时代下广电行业面临的机遇
对智慧广电及文化消费产业而言,如何更好地利用Sora等强大的AIGC生产工具改造现有业务,并探索全新的广电+文旅行业赛道,实现高质量发展是我们要研究的重要课题。
1. 内容创作的高效革新:AI在生成以创意类为主的场景时很有优势,可以摆脱传统内容素材的限制,利用AI工具高效率地生成和编辑多样化的内容素材,为图片及视频制作等提供高效的内容创作工具,在编辑、特效、音效等环节通过AI技术进行全自动化或半自动化处理。大量的“流水线”工作可以由AI协助完成,而专业的编辑可以把精力集中到创意开发和深度解读上,实现优质内容输出,开拓以静生动、以短带长,甚至是全新的内容产品发展路径。对于OPG下属的百视通而言,可以以开源AIGC工具为基础进行拓展研发,建立一套贴近公司业务需求的AIGC图片生产平台,利用多样化的AI生成素材为美编设计师提供更多选择,激发创作灵感;通过自动化生产流程,减少人工操作所需的时间,进一步降低设计成本并提升制图效率;借助超分辨率、AI上色等技术提升图片的质量和色彩以增强视觉体验;迅速生成适应各种屏幕大小的图片,以满足不同终端的展示需求;同时依托最新的图生视频能力,探索尝试动态少儿绘本、经典艺术视频焕新等创新产品开发。
2. 文旅及娱乐升级:AI可以用于创造新的娱乐形式,如利用虚拟现实和增强现实体验,在媒体大型活动、展览展出以及线下文旅等场景沉浸式体验项目的开发中发挥重要作用。对OPG下属的东方绿舟这样的公园型文旅资源而言,可以利用线下实景图生视频的创作方式创新用户的探索式体验,推出Vlog快速生成、打卡闯关等数字化增值服务,整合文旅实时活动资讯、游玩攻略,打通餐饮购物住宿系统,打造“吃住行游购娱·一站服务舒心游”数字文旅平台,提升科技感与人文情怀,利用全媒体传播渠道增加景区知名度和品牌价值,并拓展业务收入模式。
3. 智算需求爆发式增长:Sora及类似AIGC产品的兴起,预示着对算力资源的需求将经历前所未有的增长。OPG智算中心(专注于提供高性能计算资源,特别是用于支持AI和大数据处理的数据中心)除了可以满足不断增长的算力需求外,还可以提供定制化的服务以满足不同AI应用的算力需求,如针对需要大量并行处理能力的AIGC应用,智算中心可以优化其GPU服务器的配置和网络架构,以提供更高效的计算服务。此外,随着AI技术的发展,智算中心可以通过与AI技术提供商、应用开发者以及终端用户等多方合作,共同构建健康的AI技术生态系统。通过提供平台、工具和服务,智算中心可以帮助合作伙伴更有效地开发和部署AI应用,从而在生态系统中占据重要地位。
4. 行业监管需求:面对AIGC技术的快速发展,尤其是Sora这样的革命性产品,广电行业在维护意识形态安全、提供公共服务、推动技术产业发展等方面扮演着至关重要的角色。在文生视频效果愈发逼真的趋势下,虚假信息、误导性内容及不良价值观传播的风险也愈加突出,建立AIGC内容,尤其是图像与视音频内容的鉴别与溯源方法、机制,可以促进AIGC技术的健康发展,保障公众利益,为新质生产力发展保驾护航。
五、总结
可以预见,以Sora为代表的AIGC模型将对广电媒体行业带来巨大的冲击,我们必须紧跟时代步伐,抓住战略机遇,加快培育新质生产力,推进企业高质量发展,推动人工智能在产业领域发挥更大作用。OPG虽然在前期做了一些初步的探索,但面对Sora等新一代AI技术带来的深刻变革,仍要主动出击,开展“人工智能+”行动,快速构建产业智能算力平台,汇聚行业优质多模态数据集,打造从基础设施、工具算法到解决方案的大模型赋能产业智能平台,加快构建算力赋能、数据驱动、人机协同、多态融合的智能综合新业态。
(作者简介:陆趣,东方明珠新媒体股份有限公司云计算中心常务副总经理;
李哲,云计算中心高级工程师;张世乐,云计算中心创新研究院总监)
参考文献
【1】OpenAI(2024).Video generation models as world simulators.检索于https://openai.com/research/video-generation-models-as-world-simulators
【2】腾讯科技(2024).Sora“碾压”一众模型,Pika等创业公司再无活路?检索于https://mp.weixin.qq.com/s/U5_Wvo9rdDUjAH0SG748rQ.
【3】魔搭官方,魔搭ModelScope社区(2024).复刻Sora有多难?一张图带你读懂Sora的技术路径。检索于https://mp.weixin.qq.com/s/xP46EocNg1x7IlTN_iF8kw.
【4】观察者网(2024).SORA的官方报告解读与思考。检索于https://user.guancha.cn/main/content?id=1182905.
【5】机器之心(2024).Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开。检索于https://www.jiqizhixin.com/articles/2024-02-19-15.
【6】国资委网站(2024).国务院国资委召开中央企业人工智能专题推进会扎实推动AI赋能产业焕新。检索于http://www.sasac.gov.cn/n2588020/n2877938/n2879597/ n2879599/c30098649/content.html.