×

扫码分享

EN

大模型训练数据是否属于合理使用?析美国特拉华州地区法院在Ross案中的新判断标准

2024-11-26 作者:王进律师团队

一、引言

2023925,美国特拉华州地区法院(以下简称“法院”WestlawRoss一案Thomson Reuters Enterprise Center GMBH and West Publishing Corp., v. Ross Intelligence Inc.以下简称为Ross案”进行审理这是自ChatGPT发行以来美国司法界对于大模型训练未经授权的版权材料是否属于合理使用的第一案法院在判例法基础上澄清了AI训练版权材料时合理使用的认定标准,指出关键问题在于其行为是否符合公共利益严格区分事实和法律问题,并将争议的事实问题交由陪审团决定。

二、背景介绍

原告汤森路透公司作为法律领域广受欢迎的Westlaw法律数据库的版权持有者,其平台利用独特的编号系统对司法裁决进行了系统化整理,此系统以法律类型为依据对司法裁决进行归类。此外,Westlaw还引入批注功能,以概括裁决的关键点,每一批注均与特定编号相关联。用户点击这些批注或编号时,将分别导向相应的裁决页面或包含相同裁决要点的案件列表。汤森路透公司对于其原创和修订的文本以及包含批注和编号系统的法律材料汇编均享有注册版权。

被告Ross公司,作为一家专注于人工智能技术的初创企业,旨在通过机器学习和AI技术打造一个自然语言搜索引擎,该引擎能够直接为用户提供司法裁决的引用,无需人工介入的评论或观点。鉴于机器学习对训练数据的需求,Ross公司曾尝试获取Westlaw的使用许可,但遭到了汤森路透公司的拒绝,因其不允许其数据库被用于开发竞争性平台。

随后,Ross公司转而与第三方法律研究公司LegalEase合作,开展了名为批量法律意见书项目的协作。在此项目中,LegalEase提供了包含法律问题和答案的法律意见书,这些答案直接引用了司法裁决,作为Ross公司AI的训练数据。最终,该项目生成了约25,000个问答对,每份法律意见书均包含一个法律问题和四至六个相关答案。这些法律意见书的生成结合了人工和文本抓取机器人的技术。

在合作过程中,LegalEaseRoss公司发送了部分Westlaw数据库的内容,包括91个法律主题的编号系统清单和500个包含Westlaw批注、编号和其他注释的司法裁决。Ross公司承认在构建其分类系统时参考Westlaw的主题,但最终并未采用该分类方案。而对于发送的500个司法裁决,Ross公司则声称并未使用。

三、双方观点

汤森路透公司指控Ross公司侵犯了其版权,认为其批量法律意见书项目中的问题实质上是复制Westlaw数据库中的案头摘要并在其末尾加上问号的形式,而25,000个问答对均为抄袭之作。Ross公司被指直接或通过LegalEase间接复制了Westlaw中的版权内容,并以此为基础构建了一个类似的综合性法律研究平台。

对此,Ross公司回应称,Westlaw的批注的确给其律师起草问题的方式提供了启发,但这属于合理使用范畴,因为他们的目标是开发一个全新的AI产品,将Westlaw的批注转化为新的形式。他们认为其使用行为属于临时复制,旨在发现不受版权保护的信息或开发全新的产品,且最终产出在原作品基础上增加了价值,具有转换性。Ross公司还强调,即使Westlaw数据库拥有众多批注和编号,复制其中一小部分并不足以构成侵权。

在实际操作中,Ross公司对LegalEase提供的批量法律意见书进行了以下转换:(1)接收并整理大量法律意见书;(2)将其中易于理解的法律词汇转化为数值数据;(3)利用这些数据训练机器学习算法,教授AI理解法律语言,进而帮助AI学会通过识别语言模式来寻找答案。

四、法院审理的重点问题

对于Ross公司提出的合理使用抗辩,美国特拉华州地方法院(以下简称法院)进行了深入的法律与事实分析。法院认为,合理使用需要综合考虑法律和事实问题。尽管本质上是一个法律判断,但复制行为和市场影响等事实性问题仍需进行具体认定。鉴于当前这些事实问题存在争议,法院决定将其交由陪审团裁决。

针对合理使用的四个考量因素,法院进行了如下逐一分析:

(一)使用目的和性质

法院指出“使用目的和性质”涉及商业性使用和转换性使用两个方面,均属于事实问题,需由陪审团裁决。法院提及,转换性使用指的是对来源作品进行派生使用时或具有再生产功能,或与著作权人对原作品内容的使用方式、功能或目的截然不同的作品使用行为以此产生的内容则相应可以被称为转换性文本。在本案中,Ross公司的使用具有商业性质,旨在与Westlaw竞争。尽管商业性使用可能引发版权担忧,但转换性使用的存在可能为其带来合理使用的正当性。法院在对比Andy Warhol和谷歌图书馆案后,强调应重视转换性使用的重要性。若RossAI仅仅学习了Westlaw批注的语言模式而由此输出司法判例注释,则其行为应当被视为转换性的临时复制;而如果是仅仅复制了非转换性的文本,则可能不构成合理使用。

(二)版权作品性质

关于此问题,法院在初步评估后倾向于支持合理使用的主张,并坚持认为这应被视作一个事实问题,最终应由陪审团裁决。法院进一步指出,版权作品的保护程度越高,对复制行为的合理认定就越显困难。然而,在本案中,法院明确指出Westlaw的编号系统和批注并不构成版权保护的核心内容,理由如下:首先,汤森路透公司Westlaw的编号系统,因其主要是信息材料的组织方式,原创性极低,故而不属于版权保护的核心范畴其次,虽然汤森路透公司Westlaw的批注在选取和总结法律要点、附加批注的位置等方面体现了一定的创新性,但这些选择仍受到诸多限制,并且这些批注在很大程度上是依据判决的原文进行编排的,常置于段落起始部分。这种做法与新闻报道相似,需要与不受版权保护的基础事实进行区分。这些元素在创新性、想象力和原创性方面的表现相对较弱,且在很大程度上基于判决原文

(三)被告使用版权作品的数量和实质性

法院认为这取决于RossAI输出成果性质,同样应由陪审团裁决。法院指出,应从每个批注的层面界定使用的版权作品数量,并考虑复制的实质性程度。法院再次引用谷歌图书馆案,明确当复制的数量是服务于有效的转换性目的,那么实质性这一因素通常支持构成合理使用,尤其是逐字的复制行为只要没有向公众公开通常会被认定为合理使用。若复制服务于有效的转换性目的,且未向公众公开逐字复制的内容,则可能构成合理使用因此这一因素同样需要事实审查

(四)使用版权作品对版权作品潜在市场或价值的影响

法院对于此案的直接认定存在困难。根据判例法规定,必须详细考察复制行为对原创作品及其衍生作品市场造成的实际损害。如果复制行为服务于与版权作品截然不同的转换性目的,那么它就不太可能替代原版权作品。法院特别指出,在评估市场影响时,应当高度关注科技作品被创造和传播的具体方式。具体到本案,关于Ross公司开发的AI产品是否会取代汤森路透公司旗下的Westlaw服务,法院认为这是一个尚待查证的事实问题,目前双方的观点存在分歧。法院澄清,尽管汤森路透公司和Ross公司同处于法律研究平台市场,但这并不自动意味着RossAI产品是Westlaw的替代品。如果Ross公司对版权作品的使用具有转换性,构建了一个全新的研究平台,并服务于与Westlaw截然不同的新目的,那么就不存在市场替代的情况。

在这一点上,法院初步认为,由于AI技术带来的利益和风险都极为显著,法院目前不太可能单方面评估其整体影响。因此,在这种情况下,第四个因素以及Ross公司的合理使用抗辩是否成立,应由陪审团进行裁定,陪审团事实审查后裁决内容将在后续进一步介绍。

五、结语对与大模型训练有关版权诉讼的启发

生成式人工智能大模型效能核心在于其训练数据的丰富性和多样性。在这些数据中,版权材料凭借其信息的广泛性和内容的多元性,在大规模模型训练中发挥着举足轻重的作用。然而,自202211月底ChatGPT的发布标志着AIGC的新一轮变革以来,至今尚不足一年,全球范围内的版权立法尚未能跟上这一变革的步伐,进行针对性的调整。

不过,在之前弱人工智能的发展阶段,部分国家已预见性地进行了版权立法改革尝试,目的是豁免AIGC平台在模型训练阶段的版权责任,以促进本国AI产业的蓬勃发展。

尽管我国和美国在此方面的立法不尽相同但其司法实践仍然具有一定的参考价值。其版权法通过例式列举+一般要件的方式,构建了具有高度灵活性的合理使用制度。其中,四要素标准转换性使用规则为美国法院在个案中判断特定行为是否构成合理使用提供了宽广的自由裁量空间,这同样为论证模型训练适用合理使用的正当性提供了可能。

反观我国,《著作权法》第二十四条虽列举了合理使用的几种具体情形,如个人使用适当引用学习研究使用等,但这些规定难以覆盖AIGC模型训练中大规模复制和利用作品的商业化需求。虽然2021年修订的《著作权法》在合理使用规定中增加了一般要件兜底条款,但兜底条款的模糊性——“法律、行政法规规定的其他情形”——使得法院在司法实践中难以结合一般要件和具体案情直接适用。

因此,关于AIGC模型训练是否能适用合理使用的豁免,仍有待未来《著作权法》及《著作权实施条例》等相关法律的修订来进一步明确。通过深入分析其他国家在此类问题上的立法和司法实践,我们不仅可以为我国解决类似问题提供具体的参考,还能促使我们更加深入地思考如何在保护版权与推动AI技术发展之间找到最佳平衡点。同时,这也要求我们在知识产权理论和实务领域的相关讨论中,更加关注新技术的发展趋势,确保法律制度的稳定性和前瞻性。

 

本文作者:

王进,海华永泰律师事务所高级合伙人、科创业务委员会主任。华东政法大学法律硕士、复旦大学EMBA、复旦大学法学院实务讲师,近20年律师行业经验。专注于公司与商事、复杂案件争议解决、科创与高科技等领域。在人工智能与数字经济方面,对人工智能合规与企业风险应对、数据合规与交易、网络安全领域有深入的研究和丰富的经验。联系方式:wangjin@hiwayslaw.com

 

乔恒祥,海华永泰律师事务所专职律师,中国政法大学法学硕士。专注于人工智能、数字经济行业等科创行业领域。

 

张潆兮,本科就读于复旦大学法学专业,担任复旦区块链协会法务部负责人、杨浦区基层法治观察员。