大模型训练数据是否适用“合理使用制度”？

大模型（Large Models）是生成式人工智能的基础技术，其快速崛起不仅重塑和赋能了内容创作行业的产业逻辑，在版权制度层面也引发了一系列新挑战。2024年5月16日，索尼音乐集团公开发函全球700多家人工智能公司，要求立即停止未经授权擅自使用索尼音乐知识产权训练大模型的侵权行为。环球音乐集团目前正在起诉知名人工智能创业公司Anthropic。此外华纳音乐集团的CEO Robert Kyncl在国会听证时也表示支持美国出台联邦立法，以规制人工智能公司无视版权的行为。

版权的制度目的实现信息产生、专有和使用的平衡，为此各个国家基于其公共政策采取了合理使用、法定许可、强制许可等限制制度。而大模型训练问题存在于生成式人工智能生命周期的伊始，如果不能得到妥善解决，其研发将始终处于版权侵权的不确定状态。

由此可见，大模型训练数据的版权争议问题亟待寻求一条出路。本文将从产业角度研究大模型训练过程中的著作权侵权责任豁免机制，以期为行业提供技术进步的确定性法律视角。

一、大模型训练数据的技术原理以及实践困境

(一）大模型训练数据的技术原理

从行业实践和技术原理来看，目前各类人工智能大模型训练数据的模式可以简单概括为三大阶段：数据输入阶段、机器学习阶段和结果输出阶段。在输入数据时，大模型首先采集数据并将其用于启动和控制模型生成，根据采集来源的不同，可以分为自采语料、开源语料和商业语料等。当数据输入后，由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题，大模型会通过数据清洗、数据标注等内部处理过程储存在相关服务器中。此后，机器学习依据数据训练的内容分为预训练和精调两个步骤，最终输出结果。

因此训练大模型过程中存在大量的数据权益问题。当下司法实践的版权纠纷大都聚焦于模型训练阶段未经授权的版权利用行为。因此对于大模型训练者而言，如何合法合规地获取和使用数据将是其未来模型发展的重要议题。

图片1.png

表1. 大模型训练不同阶段的数据使用

（二）侵权风险和司法实践争议

根据大模型训练阶段的技术流程和版权法的基本原理，传统的授权许可模式由于大模型的内部处理技术问题失灵，因此目前司法实务界对于相关侵权案例的定性还存在较大争议。

1. 数据输入阶段

数据在分类上通常涵盖个人数据、企业数据和公共数据。理论上，若内容完全基于公共领域语料生成，通常不涉及版权侵权问题。然而，若训练素材涉及受版权保护的作品，且生成物与现有作品存在表达层面的实质性相似，则可能构成著作权侵权。实际上，当大型模型不公开其训练数据时，界定其使用语料数据的范围变得复杂，权利人也难以举证由此引发的损失，这导致当前法律难以直接判定此类行为是否侵权。

在数据收集的过程中，不同的数据源都伴随着各自独特的版权法律风险。数据的获取主要通过三种途径展开：自主采集、数据交易以及开放数据的爬取。自主采集涉及利用APP、传感器等工具直接从源头收集数据；数据交易则是从合法的数据供应商处购买所需数据；而开放数据的爬取则是借助爬虫技术，从第三方平台获取公开的数据资源。面对这些多元化的数据源，合规处理的策略各不相同。在自主采集和数据交易方面，由于AIGC服务提供者并非数据的原始采集者，因此难以直接掌握数据的原始采集流程。因此，确保获得数据权利主体的明确授权，并建立数据使用的许可规范显得尤为重要。同时，与供应商或数据许可方签订的协议中，应明确要求对方确保数据或模型不侵犯任何第三方权益，并对此进行明确的声明和保证。至于开放数据的爬取，更应严格遵守相关法律法规，如Robots协议、网站声明或协议，确保在爬取过程中不涉及对反不正当竞争法等相关规定的违反。值得注意的是，开源数据并不意味着无限制使用，它通常伴随着数据集许可协议，旨在规范数据的利用方式，保护作者的权益，并促进数据的开放共享。这些许可协议通常涵盖是否保留原作者姓名、是否允许商业使用、是否允许基于商业目的传播、改编或二次创作，以及是否要求基于原作的新作品也采用相同的许可协议等内容。

进入数据清洗阶段，为提升数据质量，需要进行重复删除、缺失填补、异常处理等预处理。在此过程中，若篡改与作者相关的身份信息，可能侵犯署名权；若涉及作品信息的篡改，则可能构成修改权侵权。在数据标注阶段必然会涉及对数据进行的注释工作，若注释行为涉及对作品进行翻译、标记、整理或汇总，则可能引起对演绎权的侵犯。演绎权指的是在原作品创作思想表达的基础上演绎创作新作品的权利。我国2020年修正的《著作权法》并未采纳“演绎权”这一术语，而是在演绎权的概念上进一步分解为翻译权、改编权、汇编权等权利。但归根结底，演绎权及其分解而来的权利核心在于原作品的主要思想表达并未因创作语言、题材、种类或形式的变化而改变。而大模型在数据预处理阶段，涉及对所收集数据进行清洗标注等中间处理环节中必然存在侵犯改编权等权利的风险。

2. 机器学习阶段

机器学习主要分为预训练和精调两个步骤。在预训练阶段，AI模型可能会对数据进行进一步挖掘，此时可能会产生“使用”侵权的风险。在精调阶段，如果使用特定数据集或权重数据集对模型进行针对性训练时，集中使用特定作者作品进行训练，目的是为了取代该作者的作品市场，则可能构成替代性使用，此时将违反合理使用抗辩的标准。

3. 结果输出阶段

大模型输出结果的侵权情形主要有两种：第一种是使用者知道输入的指令可能生成与在先作品实质性相同的内容，此时用户应承担直接侵权责任；第二种是大模型在利用版权语料数据训练后，在一般指令下生成与在先作品实质性相同的内容，这种情况需要判断服务提供者是否尽到合理注意义务，能否适用避风港规则等等。

二、比较法视野下现行合理使用制度的适用

合理使用制度是著作权的核心例外制度之一，其制度目的在于平衡著作权人对作品享有的专有权利与公众获取作品的需求，但在“因素主义”“规则主义”等不同立法模式下，合理使用制度的适用范围和判断标准存在较大差异。

（一）制度概述

国际条约对于合理使用制度可以概括为“三步检验标准”，这一标准首次出现在于1886年9月9日签订的《保护文化艺术作品伯尔尼公约》第九条第1款，即作者享有作品复制权，第2款是例外规定，即“这种复制不致损害作品的正常使用也不致于无故损害作者的合作权益”。由此可见，此时的“三步检验标准”旨在对作品复制权的例外情形进行限制性规定。1994年4月15日签订的《与贸易有关的知识产权协定》（即TRIPS协定）关于“三步检验标准”主要例外规定在第十三条，即“这些情形是与作品的正常使用不相冲突，并且不会不合理地损害权利人的合法权益的”。

此外，合理使用制度在不同国家有着不同的具体规则，总体而言可以分类为采取“因素主义”和采取“规则主义”两大类。

采取“因素主义”的国家主要有美国、加拿大等。以美国为例，“因素主义”模式的本质在于，对合理使用的判断只能在具体个案中进行，应综合考虑“使用的目的与性质”“作品的性质”“使用部分占被使用作品的质与量”“使用行为对作品市场利益或价值的影响”等必要因素。这四项因素为必要条件而非充分条件，在四因素项下还存在子因素如“善意使用”“非竞争性使用”等，也可用于判断作品使用行为的“合理性”。与“规则主义”模式相比，“因素主义”模式采用开放式路径来适用合理使用制度，但其判断标准具有模糊性和不可预测性。

采用“规则主义”立法模式的代表国家包括法国、德国、日本、中国、俄罗斯等。该立法模式主要源于制定法传统，注重法律的确定性和稳定性，对合理使用制度的设计大多呈现出封闭式特点，即采取穷尽列举的方式，只有符合法律列举情形的，才能认定为合理使用行为。例如，我国、《著作权法》第二十四条列举了十二种具体的合理使用情形。可见，“规则主义”强调立法的严格界定，回避司法的广泛解释。

类别	代表国家	具体规则
“因素主义”模式	美国、加拿大等	侧重在立法中设定合理使用判断要素，为法官的个案裁判提供原则性依据。
“规则主义”模式	法国、德国、日本、中国等	对合理使用采用封闭式规定，通常会列明具体适用情形。

表2. 不同国家对于合理使用制度的规则概述

关于模型训练是否能被纳入合理使用制度之中这一问题，有学者认为，该类使用不涉及作品的表达性要素，因此不受著作权法控制。也有学者建议引入“技术性合理使用”概念，即将为了增值目的，在技术创造、运行、产出过程中使用版权作品的行为纳入合理使用之中。

从目前来看，人工智能产业被纳入新质生产力之中，为国家重点发展领域，如果合理使用制度将模型训练行为排除在著作权侵权行为之外，将不符合政策的合理性和实践价值性，并且最终还需要借由法律和法院判决来给出回应。

（2）具体案例分析

在ChatGPT发布之后，美国司法界首次针对未经授权使用版权材料训练人工智能的行为是否构成合理使用的讨论源自于Thomson Reuters Enterprise Center GMBH and West Publishing Corp. v. Ross Intelligence Inc.一案，在此案中，针对Ross公司提出的合理使用抗辩，特拉华州地方法院（以下简称“法院”）指出，合理使用的判断涉及法律和事实的交织，即便本质上是一个法律判断，也需对复制行为和市场等事实性问题进行考量。

关于合理使用的评估，法院提出了四个关键考量因素。首先，“使用目的和性质”方面，法院认为，若Ross的人工智能仅学习Westlaw批注中的语言模式以输出司法判例注释，这属于转换性的临时复制；但若复制非转换性文本以复制Westlaw的创新性成果，则不属于转换性使用。其次，“版权作品的性质”表明，作品受保护程度越高，复制行为被认定为合理的难度就越大。再次，“被告使用版权作品的数量和实质性”方面，法院强调需考虑与判决相关的原创表达，并需对Ross的人工智能运作方式及其输出结果进行事实调查，同时要求Ross证明其复制范围对实现转换性目的的必要性。最后，“使用版权作品对版权作品潜在市场或价值的影响”方面，法院认为，若Ross的使用具有转换性，并构建出全新研究平台用于不同于Westlaw的新目的，则不存在市场替代。

当前，法院初步认为，由于人工智能带来的好处和风险均极为显著，法院不能独立评估其利益，因此应由陪审团根据事实审查来裁决第四个因素及Ross公司合理使用抗辩的成立与否。由此可见，目前法院对于大模型训练版权材料的态度主要在于对事实问题的认定，并倾向于适用先前的合理使用制度规范法则。

三、立法论视角下对合理使用制度的优化

“半封闭半开放”式的合理使用认定标准是我国司法实践面对新情形的能动之举，也是最符合我国版权产业发展的明智选择。我国《著作权法》第24条列出可构成“合理使用”的具体场景，在2020年修法时进一步引入的兜底性条款解决了体系闭合和僵化困境的问题。然而对于大模型训练数据时著作权的侵权风险问题仍然处于模糊状态。因此从立法论视角出发，有以下两种解决策略可供选择。

（一）增设合理使用制度的大模型例外条款

对于大模型训练版权材料的情形，增设合理使用制度的具体例外条款可以为此提供法律保障。具体而言，新的例外条款至少需要考虑适用主体、目的性以及必要限度等多个方面。

首先，就适用主体而言，欧盟于2019年4月17日通过的《数字化单一市场版权指令2019/790》在第3条中明确界定了科研机构和文化遗产机构作为适用对象，而日本、美国等国家则未设定此类限制。考虑到我国国情，我们建议采取更为宽泛的立法策略，即不对主体进行限制。这种策略的优势在于，一方面，可以通过目的性的设定来精准地界定使用范围；另一方面，从实际操作层面来看，除了高校和科研院所，众多领先的互联网公司也在积极投入数据与算法的研发和应用中，其成果和技术水平在国内外均占有举足轻重的地位。因此，将这些公司排除在合理使用主体之外，显然不利于国家人工智能发展战略的全面推进。

其次，在目的性方面，当前欧盟的规定主要聚焦于“非营利目的”或“公共利益目的”，这在当下可能已显得过于局限。以英国为例，该国在2021年10月发布的关于AI与知识产权问题的咨询答复文件中，提出了允许基于任何目的进行文本和数据挖掘的版权和数据库例外条款。同样，日本也于2019年1月1日实施了新的《著作权法》，其中新修订的30-4条放宽了原47-7条的限制，明确指出在人工智能研究与开发中，当数据被用于“信息分析”时，可以以“任何方式”使用，而不仅仅是“记录或改编”。这些国际动态表明，在目的性方面，扩大适用范围已经成为一个普遍趋势。

最后，关于必要限度，虽然现有的立法并未给出明确的界定，但基于合理使用的基本法理，我们认为在设立限制性规范时，必须充分考虑并平衡各方当事人的利益。对于享受豁免例外的算法创作主体而言，他们应当严格控制在必要限度内使用相关技术措施，并鼓励与权利人及科研机构之间展开积极的协商与沟通。

（二）就人工智能领域进行系统性立法

新科技领域的立法总是可能受到各种担忧，例如《数字化单一市场版权指令(2019/790)》受到的担忧集中于其可能造成市场集中度的增加和总体福利的减少。然而，欧盟委员会仍然坚定地推动了这一法令的实施，由此可见，欧盟对于自身在数据挖掘技术发展上因严格监管而显著落后，以及版权保护与创新之间所显现的负相关关系具有清醒的认识。为此，在2024年5月21日欧盟理事会正式批准的《人工智能法》中，欧盟已经对人工智能的限制进行了调整，扩大了其应用范围，并适度减轻了监管力度。这一立法态度的转变，与全球其他科技大国的做法不谋而合。如美国政府通过连续出台《人工智能未来法案(2017)》、《美国人工智能安全委员会法(2018)》以及于2023年5月23日发布的《国家人工智能计划法》等多部法案，积极推动人工智能与算法的发展。同时，各州政府也在算法应用和规范制定方面出台了相关法案，支持标准的研制，并加强了对人工智能数据集和算法安全性、价值性的研究。

对于我国而言，制定一部专门助力人工智能发展与应用的特别法，既具有合理性也具备必要性。这样的特别立法可以在人工智能概念、隐私保护、责任认定、例外规定等方面作出更为细化的规定，并结合强制性国家标准，为我国在全球人工智能领域保持领先地位提供持续的动力。同时，《著作权法》第24条可以引用这部特别法，以更好地应对算法创作中的相关问题。

综上所述，我国在构建合理使用制度时，建议在《著作权法》第24条第1款第12项之后增设例外规范，并视情况在人工智能单行特别规定中制定相应例外，由《著作权法》第24条的兜底条款予以援引，从而扩大合理使用的适用范围。此举旨在摒弃主体限制，采取结果导向的立法策略，不再局限于“个人使用”或“科研院所”等特定主体，而是涵盖所有主体，在遵循必要限度原则的前提下，允许大模型在训练数据时非商业性目的的合理使用，如果超出必要限度原则需要支付一定的合理对价，从而更有效地平衡产业发展与著作权人的合法权益，更好地适应当前实践需求。

四、结语

人工智能技术的日新月异意味着未来势必会涌现出更多新型著作权侵权方式，对此部分国家已前瞻性地在著作权法体系中设立了相应的例外条款，旨在寻求科技进步与著作权人权益保护之间的和谐共生。然而，我国当前的《著作权法》框架对于训练数据的实施与应用尚未设定明确的著作权例外规定，而合理使用规则的缺失无疑会阻碍这一技术

为了推动科技领域的持续发展，我国有必要在保障数据挖掘技术流通与应用的同时，积极寻求著作权人利益与公共利益之间的平衡。这要求我们在法律层面构建一套旨在驱动创新的合理使用制度，以确保在充分尊重和保护著作权人权益的同时，也能够为科技创新提供充足的法律空间和支持。

[1] 吴汉东：《人工智能生成作品的著作权法之问》，载《中外法学》2020年第3期。

[2] "ChatGPT and Data Annotation." 23 Feb. 2023, labelyourdata.com/articles/data-annotation-for-training-chatgpt. Accessed 22 Apr. 2023.

[3] 冯晓青：《网络环境下私人复制著作权问题研究》，载《法律科学（西北政法大学学报）》2012年第3期。

[4] 李杨：《著作权合理使用制度的体系构造与司法互动》，载《法学评论》2020第4期。

[5] Thomson Reuters Enter. Ctr. GmbH v. ROSS Intelligence Inc., 529 F. Supp. 3d 303 (D. Del. 2021).

[6] Fank Stahler and Leander Stahler,,Copyight Protection in the Digital Single Market: Potential Consequences for Content Platform Competition, Review of Industrial Organization, 2022. 

[7] Handke, Christian and Guibault, L. and Vallbé, Joan-Josep, Is Europe Falling Behind in Data Mining? Copyright's Impact on Data Mining in Academic Research, 2015..

[8] 鲁甜、赵江琦：《人工智能时代无障碍阅读合理使用的适用之困与疏解之道》，载《出版发行研究》2021年第10期。

本文作者：

王进，海华永泰律师事务所高级合伙人、科创业务委员会主任。华东政法大学法律硕士、复旦大学EMBA、复旦大学法学院实务讲师，近20年律师行业经验。专注于公司与商事、复杂案件争议解决、科创与高科技等领域。在人工智能与数字经济方面，对人工智能合规与企业风险应对、数据合规与交易、网络安全领域有深入的研究和丰富的经验。联系方式：wangjin@hiwayslaw.com

乔恒祥，海华永泰律师事务所律师助理，中国政法大学法学硕士。专注于人工智能、数字经济行业等科创行业领域。

张潆兮，本科就读于复旦大学法学专业，担任复旦区块链协会法务部负责人、杨浦区基层法治观察员，多次在AI法律交叉学科比赛中获奖。

全站搜索

大模型训练数据是否属于合理使用？析美国特拉华州地区法院在Ross案中的新判断标准

欧盟《人工智能法案》解读(三) ：高风险人工智能系统合规要求之数据训练和数据治理

相关律师

王进

扫码分享

搜索