征稿要求:
1.论文符合本刊宗旨与学术规范,具备较新的学术观点,使用较新的文献资料。评论性文章观点鲜明,语言生动,分析深刻,能够及时反映、探讨学界及业界的热点问题。
2.所投稿件为作者本人 撰写并未曾在其他刊物公开发表过。
3.稿件一律用电子邮件附件形式发送到电子邮箱:guangdianyanjiu@yeah.net
4.附件请用Word文件,并注明文件名及作者名。
5.稿件篇幅:论文原则上以6000字以内为宜;评论文章控制在1500字左右。
6.稿件应注明作者的真实姓名、职称(职务或学位)及工作单位、详细通讯地址及邮编、联系电话(手机最佳)和电子邮箱。
来稿的处理流程是什么?
1.请勿一稿多投,也不要重复投稿。
2.收到稿件后,本刊编辑部认为符合要求或基本符合要求但仍需修改的,会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的,可自行对稿件另作处理。
3.因经费有限,编辑部对特约稿件支付超标稿酬,一般稿件只能略付薄酬。
文章格式有什么讲究?
1.标题。主题用1号黑体;副题用3号宋体。居中。
2.作者姓名,用四号楷体,右对齐。
3.文本提要,小四号楷体,200字以内;关键词,小四号楷体,3-5个。
4.正文,用5号宋体。1级小标题用小4号幼圆体,居中;2级小标题用5号黑体,左对齐并缩进两个汉字;3级小标题用5号楷体,左对齐并缩进两个汉字。
5.鉴于本刊区别于其他学刊图文特色 建议作者供稿时提供文章相关图片及作者照片,并确保图像精度。
6.文末标出作者单位及职称(或学位、职务),若有多个作者,用分号隔开;
7.注释一律采用尾注形式。注释二字,用小5号黑体。注释条目各项顺序依次为:作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期(《书名》第几页,某年版),用小5号楷体。
8.为节约篇幅,一般采用注释形式的文章,不再单独一页设立参考文献。
人工智能在阿基米德平台的应用与展望
随着ChatGPT、Stable Diffusion、Sora等人工智能工具热度的不断攀升,越来越多的人开始了解人工智能(AI)和AI生成内容(AIGC),后者通常也被称为生成式人工智能。各行各业的从业者也开始将AI和AIGC技术应用到工作中,享受人工智能带来的便利。在媒体行业,内容创作是从业者的核心工作,AI和AIGC技术的应用能够大幅提升工作效率,降低内容制作门槛和制作成本,从而提升生产力,实现人力的有效解放。
人工智能(AI)指的是一系列理论、方法、技术和应用,通过模拟、延伸和扩展人类智能,使机器能够模拟人类的感知、理解、学习、推理、规划、决策和行动能力。AI的发展旨在创造能够自主学习、适应环境、解决问题并执行任务的智能系统。上世纪中叶,艾伦·图灵通过其著名的《计算机器和智能》描述了AI的基本概念,这被认为是人工智能的奠基性著作。随着深度学习(DL)和神经网络技术的发展,以及计算能力的大规模提升,AI在自然语言处理、计算机视觉、语音识别等领域取得了重大突破,应用场景不断扩展。2020年,OpenAI发布了GPT-3,并推出了以聊天对话进行交互的产品ChatGPT,引起了极大的关注。
作为一个互联网广播收听平台,阿基米德对音频内容的管理和二次加工有着强烈的需求。然而,每天产生的音频内容量超过一万小时,通过人工手动完成这一工作几乎是不可能的。因此,自2017年起,阿基米德开始尝试借助技术来辅助或替代人工完成音频内容的理解和二次加工。
在阿基米德平台,音频内容占据了平台所有内容的90%以上。相较于文字和视频,音频的结构化程度较低,缺乏文字的结构化信息,同时也缺少视频的画面维度信息。在2017年,与自然语言处理和计算机视觉领域相比,音频领域的相关技术发展和热度相对较低,仅从音频角度去理解内容在当时是一个难点。
一、阿基米德人工智能的应用场景
阿基米德利用人工智能主要用来实现两个目标:一是理解音频内容,二是辅助内容生产。
大型语言模型尚未出现的情况下,阿基米德平台需要依赖节目类型的分类信息来针对性地解析各类广播节目内容。经过多年努力,随着大语言模型和其他自然语言处理算法的进步,阿基米德目前已经可以不依赖节目分类对所有内容进行通用的结构化处理。然而,考虑到处理结果的质量和成本,阿基米德在不依赖分类信息解析节目之余,仍然保留了部分节目类型的特殊处理方式。这种做法可以有效提高特定类型节目内容的处理效率和准确性,同时降低处理成本,确保平台的运营效率和用户体验。主要的节目类型包括:
1.音乐类型的节目。针对音乐节目,阿基米德可以通过识别音频中的歌曲,结合歌曲名称、艺术家信息等元数据来理解内容。
2.新闻资讯类型的节目。对于新闻资讯节目,阿基米德可以利用自然语言处理技术,如语音识别和文本分类,来识别并理解新闻内容,这包括识别关键词,提取主题、摘要等,以便对新闻节目进行准确的解析。
3.曲艺类型的节目。曲艺类型的节目可能包括故事、戏曲等内容。对于这类节目,阿基米德可以结合语音识别、语义理解技术和音频分类等技术,以便进行内容解析和分类。
二、阿基米德对音频内容解析的技术和算法
(一) 技术架构——阿基米德平台在内容理解方面主要使用了以下技术和算法:
1.音频指纹识别:通过提取音频数据的唯一表达形式,即音频指纹,来判断两段音频内容是否相同。这种技术主要用于实时歌曲识别,并生成全国广播热歌榜和综合排名榜单等数据产品。
2.自然语言处理(NLP):利用NLP技术处理广播内容的文本数据,包括提取语义和结构信息,拆分节目内容,生成节目摘要、标题、关键字等内容。
3.音频类算法
语音识别:将音频转换为文本的技术,用于对广播节目进行语音识别,生成文本数据,作为NLP相关任务的输入。即使在存在背景音乐或口语化情况下,借助ASR(自动语音识别技术)仍能获得较好的识别结果。
音频分类:将节目内容分为不同类别,如节目主体、片头片花、广告、电话接入等,以实现对节目内容的综合理解。
声纹识别和说话人识别:识别和验证说话人身份的技术,用于区分节目中的不同主持人或嘉宾,提取其个人观点和信息,以更细致地理解音频内容。
(二)技术工具——阿基米德基于对音频的内容理解,主要建构了以下技术工具:
1.自动拆条
利用人工智能技术对多种节目类型的内容进行解析,如新闻、财经、音乐、故事、健康养生等,将一期完整的节目拆分成内容相对完整的短音频片段,并自动生成标题、摘要等信息。这样做有助于提高用户的收听和分享体验,同时提高了内容的传播效率和效果。
2.自动跳过广告
利用人工智能技术自动识别广播节目回听内容中的片头片花和广告部分,在用户回听节目时,自动跳过广告,使用户可以专注于收听节目内容本身,提升用户体验。
3.节目评价
通过对节目内容的解析,结合阿基米德的大数据能力,从内容、传播影响力、商业价值等多个维度对全国广播节目进行分析和综合排名。这样的评价系统有助于发现优质节目,并尝试辅助优化内容制作,提升内容制作质量。
三、阿基米德利用人工智能打造的内容产品
作为内容平台,阿基米德的主要内容来源于广播节目和内容合作方,但自身仍然具有较强的内容生产需求。人工智能在内容生产方面发挥着重要作用,可以显著降低成本并提高效率,极大地降低了内容生产的门槛,并可生产出质量稳定的内容。阿基米德打造了虚拟主持人、有声书和AI电台等产品。
在这些产品的打造中,阿基米德主要使用了以下技术:
语音合成:将文本转换为人类可听的语音的技术。阿基米德利用丰富的广播节目素材语料,结合行业标准和经验,以广播播音主持为目标,打造了一批虚拟主播。这些虚拟主播已广泛应用于第一财经、上海新闻广播、经典947等频率的日常生产中,同时也应用在阿基米德App的文字内容有声化、有声书生产以及AI电台中。
声音转换:将一个人的声音转换为另一个人的声音的技术。阿基米德基于自主研发打造的虚拟主播,利用声音转换技术,大规模低成本生成有声书和其他有声内容,丰富了平台上的有声内容。
大语言模型和AIGC:大语言模型被广泛应用于自动生成内容中。由于算力规模和成本限制,阿基米德目前主要使用7-13B规模的开源模型来进行文本的生成,主要应用在标题和摘要的生成、文稿的风格转换等方面。此外,阿基米德还使用AIGC进行音频内容生成,生成的音乐应用于音视频内容生产中作为背景音乐,以规避版权风险和降低成本。
四、阿基米德平台广播融合转型展望
受益于硬件和算法的发展以及全球资本的持续投入,当前人工智能在基本能力和业务应用方面发展迅速。阿基米德结合自身业务需求和广播融合转型大方向,接下来将在以下领域投入更多资源,尝试在业务上落地,更好地利用技术辅助业务。
智能媒资管理平台:利用人工智能技术,提供全面的媒体资产管理方案。通过大语言模型、多模态技术和搜索增强技术,提升媒资管理能力,帮助内容生产人员更高效地管理和利用内容,挖掘历史归档内容中的价值。
数字人和AI电台:完善数字人主播和AI电台方案,以应对用户收听内容终端向互联网、物联网、车联网转移的趋势。进一步改善和扩展数字人主播的形象和适用场景,同时提高AI电台方案的实时性和多样性,提升用户的收听体验。
音视频领域的AIGC:利用音视频领域的AIGC能力优化内容制作,包括在音乐、音效、虚拟歌手等方面作进一步尝试。通过这些技术的应用,提高内容的质量和丰富度,增强用户体验。
安全与可持续:在人工智能应用过程中重视安全性,提高AIGC内容的真实性、合规性,规避伦理和法律问题。结合自身实际业务和工作流程,从技术角度降低AI使用的风险性,确保AI应用的安全性和可持续性。
(本文作者为阿基米德首席架构师)