上海广电研究杂志官网  

征稿要求:

1.论文符合本刊宗旨与学术规范,具备较新的学术观点,使用较新的文献资料。评论性文章观点鲜明,语言生动,分析深刻,能够及时反映、探讨学界及业界的热点问题。 

2.所投稿件为作者本人 撰写并未曾在其他刊物公开发表过。    

3.稿件一律用电子邮件附件形式发送到电子邮箱:guangdianyanjiu@yeah.net    

4.附件请用Word文件,并注明文件名及作者名。   

5.稿件篇幅:论文原则上以6000字以内为宜;评论文章控制在1500字左右。    

6.稿件应注明作者的真实姓名、职称(职务或学位)及工作单位、详细通讯地址及邮编、联系电话(手机最佳)和电子邮箱。

 

来稿的处理流程是什么?

1.请勿一稿多投,也不要重复投稿。

2.收到稿件后,本刊编辑部认为符合要求或基本符合要求但仍需修改的,会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的,可自行对稿件另作处理。

3.因经费有限,编辑部对特约稿件支付超标稿酬,一般稿件只能略付薄酬。  

 

文章格式有什么讲究?

1.标题。主题用1号黑体;副题用3号宋体。居中。    

2.作者姓名,用四号楷体,右对齐。

3.文本提要,小四号楷体,200字以内;关键词,小四号楷体,3-5个。    

4.正文,用5号宋体。1级小标题用小4号幼圆体,居中;2级小标题用5号黑体,左对齐并缩进两个汉字;3级小标题用5号楷体,左对齐并缩进两个汉字。

5.鉴于本刊区别于其他学刊图文特色 建议作者供稿时提供文章相关图片及作者照片,并确保图像精度。

6.文末标出作者单位及职称(或学位、职务),若有多个作者,用分号隔开;

7.注释一律采用尾注形式。注释二字,用小5号黑体。注释条目各项顺序依次为:作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期(《书名》第几页,某年版),用小5号楷体。

8.为节约篇幅,一般采用注释形式的文章,不再单独一页设立参考文献。

语料库:构建未来智能的关键资源 ——上海广播电视台的相关实践与思考

 

一、语料库的定义

  按照百度百科提供的定义,语料库是指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料。

  从远古肇始的文字纪录到近些年出现的存储在计算机和互联网中的庞大的电子文本数据,随着时间推移和技术进步,大量的文本数据已变得触手可及。许多机构利用各种工具、通过各种交互方法,巨量收集各类文本,构建起前所未有的大型语料库。语料库的大小跃升至十亿甚至百亿级别,如谷歌图书语料库和维基百科语料库等。

  近年,伴随着人工智能技术的快速发展,语料库已远远超出了文字的范畴,图像、视频、音频、数据等的纳入使其成为一种多模态语料库。它们为机器学习模型提供了丰富的训练材料。

二、语料库和语言模型的关系

  一个简单朴素的语言模型就是一种机器学习的模型,其与语料库的关系简单而又紧密,即语料库负责提供学习素材和养分,模型用来学习模仿、修炼技能。从最早的不能生成足够连贯文本的n-gram 模型,到现在流行的基于Transformer架构的超千亿参数的LLM,各种AI机构开始训练规模越来越大的模型。这些模型在训练过程中会接触超1000亿个单词,是一个人在一生中听到或阅读到的单词数量的100倍以上!这也显示出语言模型与人脑的不同之处:它需要学习比人类所能接触的多得多的数据。从某种意义上讲,它的学习速度其实比人类慢得多。这种对数据的渴求导致了一个问题,即可用文本的总量存在硬性限制,约为数万亿个单词,而模型正在接近这一限制。虽然仍有可能循环遍历所有文本,但这会导致模型性能的回报递减。

  所以,在LLM时代,语言模型已经超越了纯语言模型,将图像和视频纳入训练数据,成为一个多模态模型。从图像和视频中学习有助于模型更好地理解世界。GPT-4 就是在图像和文本方面进行训练,并取得了显著的性能提升。利用多模态数据训练LLM已经给这一领域带来质的改变。首先,不同于早期的机器学习算法需要海量的人工标记的训练示例,LLM 的一个关键创新之处在于,它不需要显式标记的数据,几乎任何书面材料都可以用于训练这些模型,从维基百科页面到新闻文章再到计算机代码。但这样的方法或会产生一个未加控制的怪物,可能产生包括错误信息、政治煽动、阴谋论或针对特定人群的攻击等内容。这就需要在训练学习过程中使用高质量的数据进行微调(SFT),使这个怪物在某种程度上变得可被社会接受。然后通过RLHF进一步完善微调后的模型,使其更符合设计目标。在整个的模型训练过程中,通过数据预处理,比如去重、筛选、高质量标注等,得到高质量的数据以避免模型训练中产生记忆和过拟合等问题,提高模型的可用度,保证数据的多样性以确保模型的泛化性。

 

三、上海广播电视台在语料库方面的实践

  上海广播电视台是一个多元化的文化传媒产业机构,旗下的广播电视、报纸杂志、网络新媒体等内容平台每时每刻都在生产、传播各类图文视听内容,涵盖新闻、体育、影视剧、综艺文娱、财经资讯、人文历史地理纪录等各种领域。除了视听内容本身,还衍生出各种相关的文稿、对白、资讯信息、用户信息等相关数据。这些经过专业人士制作的节目和相关数据是高质量的、多模态的语料。这些语料都储存在上海广播电视台的媒资库和信息系统中。可以认为,这就是一个初具雏形的文化传媒方面的多模态语料库。目前,在利用AI技术赋能媒体内容生产、并利用台内丰富的语料资源构建传媒垂类模型方面,上海广播电视台正在积极尝试和探索。

  首先,相关团队正在对传统媒资库的标注系统和方法进行改造,利用AI技术对视听数据进行诸如加新标签、作标注、清洗归类以及与其他文稿、资讯信息等多模态数据的对齐等二次加工,从事垂类模型方向的语料库转化准备,加快推进人工智能大视听垂类模型的研发应用。

  其次,在改造过程中,利用AI技术的能力扩增媒资库本身的功能也是努力方向。比如团队自主开发的空镜素材智能推荐系统,就是使用机器学习和自然语言处理等技术对空镜库内容进行预处理,全面解读图像结构和整体语义。用户只需提供一张场景参考图,系统可以快速对比库内大量的视频,将符合条件的视频及时呈现给用户,大幅提升了工作效率和质量。

  同时,团队也非常关注在语料库、数据集等方面的标准化的工作。上海广播电视台作为发起单位之一,参加了中国大模型语料数据联盟,推动开源发布传媒领域高质量数据集,推动数据处理工具的开发与维护,积极参与和推进相关地方标准的制定。

            

结语

  大模型语料库的建设是一个复杂而重要的过程,它不仅需要技术和资源的投入,还需要对数据质量和伦理规范进行严格把控。随着技术的不断进步,大模型语料库将在人工智能的各个领域发挥越来越重要的作用,推动智能技术的未来发展。

 

(本文作者为上海广播电视台技术管理委员会办公室主任)

 

上海广播电视台 版权所有 沪ICP备10019291号-3
通信地址: 上海威海路298号 邮政编码: 200041