征稿要求:
1.论文符合本刊宗旨与学术规范,具备较新的学术观点,使用较新的文献资料。评论性文章观点鲜明,语言生动,分析深刻,能够及时反映、探讨学界及业界的热点问题。
2.所投稿件为作者本人 撰写并未曾在其他刊物公开发表过。
3.稿件一律用电子邮件附件形式发送到电子邮箱:guangdianyanjiu@yeah.net
4.附件请用Word文件,并注明文件名及作者名。
5.稿件篇幅:论文原则上以6000字以内为宜;评论文章控制在1500字左右。
6.稿件应注明作者的真实姓名、职称(职务或学位)及工作单位、详细通讯地址及邮编、联系电话(手机最佳)和电子邮箱。
来稿的处理流程是什么?
1.请勿一稿多投,也不要重复投稿。
2.收到稿件后,本刊编辑部认为符合要求或基本符合要求但仍需修改的,会主动与作者联系。投稿后30个工作日内未收到本编辑部处理意见的,可自行对稿件另作处理。
3.因经费有限,编辑部对特约稿件支付超标稿酬,一般稿件只能略付薄酬。
文章格式有什么讲究?
1.标题。主题用1号黑体;副题用3号宋体。居中。
2.作者姓名,用四号楷体,右对齐。
3.文本提要,小四号楷体,200字以内;关键词,小四号楷体,3-5个。
4.正文,用5号宋体。1级小标题用小4号幼圆体,居中;2级小标题用5号黑体,左对齐并缩进两个汉字;3级小标题用5号楷体,左对齐并缩进两个汉字。
5.鉴于本刊区别于其他学刊图文特色 建议作者供稿时提供文章相关图片及作者照片,并确保图像精度。
6.文末标出作者单位及职称(或学位、职务),若有多个作者,用分号隔开;
7.注释一律采用尾注形式。注释二字,用小5号黑体。注释条目各项顺序依次为:作者姓名、冒号、《文章标题》、逗号、《刊名》某年第几期(《书名》第几页,某年版),用小5号楷体。
8.为节约篇幅,一般采用注释形式的文章,不再单独一页设立参考文献。
生成式人工智能数据训练的著作权合理使用适用
生成式人工智能的价值和创造潜力毋庸置疑,该技术的发展依托于海量数据对其模型不断进行训练。在海量数据训练过程中,不可避免地涉及受著作权保护的作品,未经著作权人许可或未支付报酬而直接使用这些作品,必然导致著作权侵权问题。为了满足科学研究、学术创作等需求,著作权法提供了一定范围内的合理使用空间。然而,步入人工智能时代,机器也逐渐加入到了作品使用的“创作者”行列,这对当下的著作权法律提出了新的挑战。机器通过接收输入数据来进行“阅读”,该过程中文本、图片、音频等形式的内容被进行数字化处理、储存和利用。也正是基于机器阅读、学习的过程,当下的人工智能模型才能被赋予内容生成与创新的功能[1]。人工智能内容生成面临的关键著作权问题在于训练过程中数据收集与使用是否合法。
一、生成式人工智能数据训练的著作权行为分析
(一)生成式人工智能数据训练的技术分析
生成式人工智能是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。不同于判别式人工智能(如图像分类、语音识别),生成式人工智能的核心在于学习并模拟数据的内在规律,生成出有创造性的新内容。
人工智能模型构建基本包含以下两个关键节点:“数据收集”和“模型训练”。首先,模型需要建立训练数据库,对收集来的各种数据进行数字化,转化为计算机可读的数据格式。训练数据库的质量越高、整体规模越大,深度学习效果就越好。然后,模型需要利用先前建立的数据语料库开展训练,分析数据特征,再通过优化训练来调整参数权重,对生成内容不断进行监督微调,最终实现模拟人脑的理解能力,独立生成文本、图像等内容。从使用方式而言,人工智能模型并不针对某单一作品,而是大规模使用庞大数据量所构成的集合,以分析、捕捉、学习信息数字化中的规律。这种使用不同于人类对于作品的阅读,人工智能不涉及对作品思想和表达的理解,单个作品所包含的独创性表达的意义被大大压缩。这一过程往往是隐蔽且不可见的内部操作,所形成的技术副本仅用于模型内部的数据分析和特征提取,模型训练结束后,这些副本并不会一直存储于模型之中。从使用结果来看,人工智能基于概率模型来生成最可能的结果,而不是通过推理或理解因果关系来做决策。这种概率推断并不等同于人类的推理过程,它的生成并不总是基于理性推断,具有随机性。尽管模型会遵循一定的规律,受到人工标注和反馈的引导,但每次生成的具体内容仍然具有不确定性。生成式人工智能作为一种强大的新兴技术,其技术特征具有高度的复杂性和新颖性,在多层面突破了原有的作品使用和创作方式。
生成式人工智能数据训练全过程离不开对作品的利用:输入阶段需获取、复制受著作权保护的作品;学习阶段需要对作品内容进行特征提取和再加工;输出结果包含具有作品外观的形式。因此,对于生成式人工智能数据训练的著作权合理使用适用,作品使用行为分析是关键,数据训练并非单一行为,而是一系列行为组合的过程,包括机器输入、机器学习和机器输出三个阶段。
(二)机器输入阶段的著作权行为分析
机器输入是生成式人工智能生成内容的基础和前提。在机器输入阶段,需要从外部收集和提取数据并输入生成式人工智能系统中形成数据副本,供后续机器学习之用。
在这一阶段,模型需从外部获取图片、文本、音频等数据,并对其格式预处理为统一化的数据格式,将所需信息以既定的数据特征进行整理,转化为模型可处理的向量表示,建立数据训练所需的内容库。用数据投喂以得到更加成熟的模型是生成式人工智能技术进步的基础。因此,在机器输入阶段涉及的著作权行为主要是作品的复制行为。这种复制行为主要包括两种情形:一种是利用数据爬虫等技术从互联网中收集海量作品并建立语料数据库;一种是未形成本地语料数据库,只是在内存或缓存中暂存作品,形成数据副本以供机器“在线学习”。对于第一种情形,显然构成对作品的永久复制,受著作权法复制权的规制;对于第二种情形,应该构成临时复制,按照我国著作权法司法实践,临时复制不受复制权的规制。
(三)机器学习阶段的著作权行为分析
机器学习是生成式人工智能生成内容的核心与关键。在机器学习阶段,需要对语料数据进行处理与分析,即通过对作品进行分类和整理,分析作品的思想感情、语言特征、表达风格等,从中抽取和提炼出这些作品的规则、模式、结构、趋势,再将这些规则和模式应用到具体场景中,再通过自我观察,独立地、持续地改进和优化其分析和处理过程。
在机器学习阶段,人工智能模型会对作品进行阶段性复制存储,进行反复的提取。人工智能模型读取训练数据时,系统会将数据临时加载到内存或显存中以进行分析,但数据并未长期保存,处理完毕后就会被清除。因此,此阶段的复制只是临时复制,与输入阶段的永久复制不同,不受著作权法复制权规制。机器学习阶段的临时复制并非著作权法所规制的复制行为。
生成式人工智能的机器学习,在分析作品的字词含义、语法构成,或分析图像元素、色彩组成和形状特点时,并不是真正在理解作品的表达性内容,而是在进行数据统计和概率预测。在训练模型学习时,作品没有被作为“作品”而使用,而是被转化为数字化、向量化信息作为人工智能学习的工具,并不涉及使用作品的特有表达性信息,也没有使公众能够享受作品,这并非传统著作权法意义上所规制的“表达性使用”行为。[2]依据著作权法“思想表达二分”的基本原理,机器学习阶段的非表达性使用行为不受著作权法规制。因此,机器学习阶段不涉及著作权使用行为。
(四)机器输出阶段的著作权行为分析
机器输出是生成式人工智能生成内容的结果和目的。在机器输出阶段,经过上述机器输入和机器学习后,生成式人工智能已经能构建出解决不同目标任务的模型,此时只要使用者向生成式人工智能系统发出生成要求和指令,人工智能系统便会通过算法对任务进行处理,最终生成相应的学习结果并予以输出。
在著作权法的框架下,机器输出的人工智能生成物如果与已有的受著作权保护的作品实质性相似,就可能存在侵权的风险。与输入阶段相比,输出阶段的著作权问题更具复杂性。本文所探讨的数据训练并不包括对外传播的行为,输出阶段生成物的著作权问题应当与数据训练产生的著作权问题分别讨论。但是数据训练与其最终的生成物是否侵权之间具有因果关系,因此在分析时不能将输出阶段完全割裂出去。
机器输出产物仅仅是主题相似、风格相似等“思想相似”,不构成对被训练数据作品的著作权侵犯。但是,如果因技术不合理设置导致的“表达相似”或非技术原因(例如单一作者作品训练)导致的“表达相似”则可能侵犯著作权。例如广州互联网法院审理的生成式人工智能平台侵犯著作权案中[3],被告使用奥特曼LoRA模型,该模型导致最终生成物与原作品保持高度的统一,属于特殊的表达型模型。这种模型以专门模仿特定的作品为训练目的,不同于普通的模型训练。特殊的表达型模型所选取的学习数据不具备广泛性和不特定性,其生成物与原作品高度雷同,甚至会直接再现原作品的独创性表达。因此,法院认为被告在进行人工智能模型训练时未经许可使用了享有著作权的美术作品“奥特曼”,部分或完全复制了其独创性表达,认定通过该平台用户获得的图片和原告主张著作权保护的作品构成实质性相似,进而认定被告侵害了原告作品的改编权和复制权。
综上所述,生成式人工智能数据训练的机器输入、机器学习与机器输出三阶段,以机器学习为核心,具有连续性。机器输入作为机器学习的前置环节,为机器学习提供数据;机器学习对数据进行处理与分析;机器输出作为机器学习的后置结果,生成并传播机器学习的结果。数据训练是否适用合理使用应区分厘清三者关系,不应笼统地归入“机器学习”。生成式人工智能数据训练涉及的著作权使用行为包括机器输入阶段的复制和机器输出阶段的复制、改编,不涉及机器学习阶段的学习。合理使用适用的关键不在机器学习阶段,而在机器输入阶段,即“为机器学习目的使用他人已经发表的作品”是否适用合理使用。
二、生成式人工智能数据训练的著作权规制困境
现行著作权制度在应对生成式人工智能带来的法律问题时,存在着明显的滞后性。根据现行著作权法规定,人工智能对受著作权保护的作品进行复制和处理,可能构成对复制权、改编权等专有权利的实质性侵犯,尤其当训练数据涵盖海量未获授权的作品时。如果数据训练不适用合理使用规则,人工智能企业只能花费昂贵成本得到作品授权,不然可能面临高额赔偿。传统的著作权许可模式依赖于“事前授权”,这一模式难以满足人工智能对庞大数据的需要。因此,如何认定人工智能获取数据进行机器学习的合法性,是亟待解决的重要问题。
(一)传统著作权许可模式失灵
按照现行著作权法的规定,除非符合合理使用或法律特别允许的情形,使用他人的作品必须经过著作权人同意并支付费用,否则就构成著作权侵权。由此,如果坚持“先许可后使用”的传统许可模式,生成式人工智能使用作品的海量需求与高昂的许可成本之间的冲突必然产生。
在生成式人工智能的数据训练过程中,每一件作品对其学习的贡献相对较小,单一作品的影响几乎微不足道。只有在大量作品数据的支持下,人工智能才能够获得具有实际意义的学习成果[4]。为了确保这一学习模式的持续有效性,不仅需要海量数据的支撑,还需要灵活且规范的数据交换与使用机制。传统著作权许可模式要求“事前授权、有偿使用”,但人工智能的训练需处理海量数据(如大语言模型可能涉及数十亿文本),逐一获取授权成本极高且效率低下,会给技术的发展带来难以想象的负担。首先,想要保证机器学习的客观和全面,高质量的数据作品是必不可少的,而这些内容往往在著作权的保护范围之内,需要先获得授权才能使用。其次,很多作品都存在属权不明确、源头不清晰的问题,在开发人工智能模型时根本无法精准定位到每个著作权人。再次,即使能够定位到著作权人,其高度的分散性本身就会使交易效率大大降低,双方在此基础上还要就商定作品实际价值和授权范围进行反复的沟通商榷,时间成本和经济成本更是无法估量。当交易成本高且预期回报低,相关方无法通过市场交易有效地利用他们的作品,会导致作品许可市场的失灵[5]。
(二)引入法定许可模式立法成本高昂
有学者提出可以引入法定许可模式,准许生成式人工智能运营者在支付合理报酬的前提下,直接使用作品而不必事先获得权利人的授权,从而缓解人工智能使用作品面临的法律难题[6]。然而,尽管这种模式看似能够提高作品交易效率,实际上并未有效降低使用作品的成本。法定许可作为一种过渡性和妥协性的措施,在实施过程中未能简化许可流程,反而加重了适用条件的严格性[7]。如果对此进行相关的立法,就要对现有法律进行较大的改动,并明确限制适用的具体范围。人工智能的高速发展很容易导致限缩性的法律条文跟不上未来实际需求。除此之外,法定许可的使用费和相关配套机制难以落实也是我国长期以来面临的难题。
(三)现行法律规定的合理使用情形难以适用
与授权许可和法定许可有别,合理使用的制度功能相对更广泛,可以有效减少数据训练的交易成本。然而,目前关于合理使用的法律规定,仍不能妥善化解数据训练的合法性问题。我国著作权法虽然吸收了合理使用适用的一般规则,但依然没有解决其适用规则的封闭性问题。我国《著作权法》规定的合理使用明确列明了12种具体情形,其中不包括生成式人工智能数据训练行为,人工智能相关行为的法律定性尚存争议。目前与人工智能数据训练相关联的合理使用情形可能包括以下几种:个人使用、适当引用和科学研究中的少量复制。
对于“个人使用”情形[8],作品的使用目的被限制为“个人学习、研究和欣赏”,其中的“个人”一般情况下仅包含“自然人”,未涵盖法人与非法人组织,更不能延及计算机算法模型。从使用目的来看,“学习、研究或者欣赏”不能基于商业目的,而生成式人工智能的数据训练具有营利性目的,商业利益与技术研发是密不可分的。
对于“适当引用”情形[9],首先适当引用的使用目的应当是“为介绍、评论某一作品或者说明某一问题”,人工智能使用作品进行训练与此目的不符。其次引用的程度需要适当,需要考虑到引用的篇幅和原作品的替代关系等,但基于人工智能在数据训练时难以解释的学习模式,具体使用作品到何种程度,在实际情况中很难评价。
对于“科学研究的少量复制”情形[10],该条文对这种情形提出了以下限制:首先,该合理使用类型的主体仅限于教学和科研人员[11],但人工智能数据训练的主体通常是企业,从事训练工作的人员亦多为履行职务行为的技术人员,并不属于一般意义上的教学或科研人员。其次,在使用量方面,合理使用对作品的使用程度通常限定为“少量”。尽管法律并未对“少量”的标准作出明确规定,需要司法机关结合具体案件进行认定,但人工智能数据训练所需的数据规模通常是海量的,远超出“少量”这一概念所能涵盖的范围。
综上所述,根据现行著作权法规定,生成式人工智能的数据训练使用他人作品难以归入规定的任何一个特定合理使用情形,虽然有“法律、行政法规规定的其他情形”这一兜底条款,但我国法律和行政法规尚未将人工智能数据训练行为明确规定为合理使用,因此合理使用兜底条款对此也暂无适用空间,实际上合理使用依旧被采取从严认定的原则[12]。生成式人工智能数据训练的著作权侵权问题仍然处于较为模糊的状态,在实务中存在较大的不确定性。根据现有的国内外案例也不难看出,法院仍然采取审慎的态度,回避了直接回答这一疑难法律问题,将其留给利益冲突的产业界双方自行通过市场行为和立法游说来博弈[13]。
三、生成式人工智能数据训练合理使用适用的国际实践
将人工智能数据训练纳入合理使用仍处于立法和司法实践的初期阶段,我国以及其他拥有先进人工智能产业的国家均缺乏足够的实践经验。
当前美国对于人工智能数据训练适用四要素判断后是否构成“合理使用”尚没有明确的一致意见。美国版权局于2025年5月9日发布的《人工智能与版权报告——第三部分生成式AI训练》[14]中认为:现有法律框架仍然能够应对生成式人工智能的发展,“合理使用的认定需要在所有相关情境下权衡多个法定因素……是否构成合理使用,将取决于所使用的作品类型、数据来源、使用目的以及对输出的控制方式——所有这些因素都会影响市场”。美国版权局认为现实情况正在快速演变,从而没有给出明确意见,认为应该继续观察技术、判例和市场的发展动态。
日本文化厅于2024年3月15日发布了《关于人工智能与著作权相关问题的意见》,确认机器学习阶段对数据的使用符合《日本著作权法》第30条之4款,属于合理使用。但该《意见》提出例外,针对使用特定创作者的少量作品进行训练,导致生成作品受其强烈影响的情况。若训练数据仅由某位创作者的少数作品组成,并用于额外学习以生成类似作品,可能被视为损害作者著作权,无法适用合理使用[15]。
2024年3月13日欧盟通过《人工智能法案》(Artificial Intelligence Act),第105段明确地将人工智能大模型训练中使用受著作权保护的作品与《数字化单一市场版权指令》中的文本和数据挖掘例外情况对应,提出除非权利人作出保留的情况,通用人工智能模型训练过程中的文本与数据挖掘不构成著作权侵权。但是,著作权持有人可以通过合同、声明或者机器可读的方式明确表示是否允许其作品用于数据挖掘,这种“选择-退出”机制是欧盟著作权保护框架的一项重要内容。具体来说,著作权持有者可以保留其作品的使用权,阻止作品被用于商业目的的数据训练活动。
可见,不同国家对于人工智能数据训练的合理使用适用的核心目标是一致的,即在技术发展和创新与著作权保护之间找到平衡,既要尊重著作权人的合法权益,又要支持人工智能技术的发展。各国都试图应对在快速发展的人工智能技术领域中传统著作权法适应性不足的问题,都试图通过制度改良去适当放宽著作权限制来确保技术开发者和科研机构能够进行数据挖掘和模型训练,推动技术创新。但在合理使用的适用上具有显著差异,主要体现在适用范围、著作权人的控制权及对技术创新的支持力度等方面具有差异。
四、我国对数据训练合理使用适用的司法立场和立法取向
生成式人工智能的广泛应用,必然改变传统作品创作和传播市场形态,必然导致现有作品著作权人和人工智能企业之间的重大利益冲突。回顾合理使用制度的历史演进,由于其具有限制权利保护的公平性和维系个人与社会利益和谐均衡的公益性,已经在历次技术变革中充当维持利益平衡、保障著作权法实施的重要角色。毫无疑问,人工智能数据训练一概适用合理使用,必将导致原始著作权人与人工智能使用人利益严重失衡,但以“先许可后使用”的传统模式又会严重制约人工智能的健康发展。
建议在司法上严格适用合理使用,适当扩张适用著作权法合理使用“兜底条款”,重点考量“以机器学习为目的使用他人已发表作品”的数据训练 “是否影响作品的正常使用”和“是否不合理地损害著作权人的合法权益”,既不一律排除适用合理使用,也不一概适用合理使用,合理平衡现有作品著作权人与人工智能企业的利益。在杭州互联网法院奥特曼案中[16],法院在评述民事责任承担时,认定数据训练行为在一定条件下适用合理使用的可能,一定程度上表明了司法立场。法院认为,“在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用”。
建议在立法上采用开放许可、延伸性集体管理等模式协调生成式人工智能数据训练的数据获取和使用。当然,这不仅需要在立法上进行体系化的设计,更需要进一步建立开放许可运行机制和完善集体管理体制机制。
(作者简介:许春明,同济大学上海国际知识产权学院教授、博士生导师;
刘桐瑞,上海市知识产权保护中心)
【1】吴汉东.人工智能生成作品的著作权法之问[J].中外法学,2020,32(03):653-673.
【2】陶乾.基础模型训练的著作权问题:理论澄清与规则适用[J].政法论坛,2024,42(05):152-164;
涂藤.机器学习的著作权侵权判定:超越非表达性使用理论[J].政治与法律,2024,(10):162-176.
【3】参见广州互联网法院(2024)粤0192民初113号民事判决书
【4】王文敏.人工智能对著作权限制与例外规则的挑战与应对[J].法律适用,2022,(11):152-162.
【5】曹新明,范晔.生成式人工智能数据训练的合理使用规则研究[J].中国版权,2024,(04):20-35.
【6】刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报,2019,22(02):68-79;
高阳,胡丹阳.机器学习对著作权合理使用制度的挑战与应对[J].电子知识产权,2020,(10):13-25;
张润,李劲松.利益平衡视角下人工智能编创使用行为的法律定性与保护路径研究[J].出版发行研究,2020,(11):72-79.
【7】熊琦.著作权法定许可制度溯源与移植反思[J].法学,2015,(05):72-81.
【8】我国现行《著作权法》第24条第1款第(一)项规定,“为个人学习、研究或者欣赏,使用他人已经发表的作品”, 允许不经著作权人许可且不需支付报酬。
【9】根据我国现行《著作权法》第24条第1款第(二)项的规定,“为介绍评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”,允许不经著作权人许可且不需支付报酬。
【10】我国现行《著作权法》第24条第1款第(六)项规定,在“为科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供科研人员使用,但不得出版发行”情形下,允许不经著作权人许可且不需支付报酬。
【11】李明德、管育鹰、唐广良:《著作权法专家建议稿说明》,法律出版社2012年版,第252页。
【12】石宏.《著作权法》第三次修改的重要内容及价值考量[J].知识产权,2021,(02):3-17.
【13】管育鹰.生成式人工智能相关版权争议焦点问题探讨[J].北京工业大学学报(社会科版),2025, 25(01):103-111.
【14】Copyright and Artificial Intelligence,Part 3: Generative AI Training pre-publication version,https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf
【15】顾伟,周响.人形机器人生成内容著作权合理使用制度研究[C]//上海市法学会.《智慧法治》集刊2024年第1卷——2024年世界人工智能大会法治论坛文集.上海市徐汇区人民检察院第一检察部;2024:11.
【16】参见(2024)浙0192民初1587号民事判决书。

