通用人工智能训练素材需获版权许可？美国法院竟这样判

关于通用人工智能训练所需素材是否需获得版权授权的问题，一直是版权方与人工智能企业之间争论的焦点。近期，美国加州北区法院接连作出两个简易裁决，对通用人工智能的训练行为进行了认定，认为其属于合理使用范畴。

尽管这两个案件均为独立案例，然而，这标志着中美两国，作为人工智能科技领域的佼佼者，其法院首次就这一问题作出了回应。在此，我想与大家共同探讨这两个案件所涉及的法律层面问题。

一、案情简介

作家诉Anthropic案

三位作家对Anthropic公司提起诉讼，控告该公司在训练其Claude模型系列时使用了未经授权的资料。他们声称Anthropic通过盗版渠道免费获取了数百万本受版权保护的书籍，并将这些书籍数字化，建立了一个中央图书馆。接着，该公司利用这些书籍对大型语言模型进行了训练，其中就包括Claude模型。

Anthropic随后购得了原告的纸质书籍，随即将其装订拆解、对页面进行裁剪，并将这些内容扫描后存入中央电子图书馆，尽管如此，他们依旧保留了从盗版网站下载的书籍复制品。

法院审理后明确指出，将合法取得的纸质书籍进行数字化处理属于合理范畴，同时，利用这些数字化副本来训练大型语言模型亦具备显著的创新性，故此亦属合理使用。然而，对于非法下载的图书副本的使用，并未被认定为合理。接下来，法院将对Anthropic公司非法下载的侵权内容及其所造成的损害进行审理。

作家诉Meta案

原告包括13名作家，他们发现自家的作品被Facebook及Instagram的母公司Meta用于人工智能的训练，因此提起诉讼。

审理结果显示，Meta公司计划对图书进行人工智能训练，起初与出版社进行了沟通，但发现不仅要支付高达数亿美元的授权金，而且谈判过程亦相当繁琐，原因在于图书的版权大多掌握在作者手中。因此，Meta公司转而采取盗版途径，通过bt种子下载了众多盗版图书。值得注意的是，bt技术属于P2P类型，在下载过程中，用户还会上传盗版文件。

法院裁定Meta的行为属于合法使用，并否定了原告提出的版权侵犯诉讼。该判决指出，Meta的应用具有显著的转换特性，其核心目标是打造出能够产出丰富文本内容的应用工具，而非仅仅是模仿或取代原告的著作。

原告的书籍作为一部极具表现力的作品，享有较高的版权保护，而Meta公司完整地复制了该书内容。然而，由于Meta的Llama模型无法生成原告书籍中的任何有意义的片段，这种使用行为是正当的。此外，尽管原告的书籍可能面临市场间接竞争的挑战，但原告并未提供充分的证据来证实这种影响，故Meta的行为不构成市场替代。

二、判决的意义

版权人和人工智能公司的分歧

OpenAi公司在回复英国上议院时指出，鉴于现行的版权法几乎囊括了人类所有形式的表达，诸如博客文章、摄影作品、论坛发帖、软件代码片段以及政府文件等，故而若不使用受版权保护的内容，便无法培养出当前最先进的人工智能模型。

将数据限定于那些一个多世纪前所编纂的公共领域书籍与图绘中，或许能催生一项引人入胜的实验，然而，这样的做法却无法孕育出能够迎合现代公民需求的人工智能系统。

尽管在Meta案件中，法院判定：该裁决并不认可Meta利用受版权保护的内容来训练其语言模型的做法是合法的，这仅表明原告方所提出的观点存在偏差，并且他们未能提供充分证据来佐证其主张。

国际监管分歧

判断是否属于合理使用版权内容，这一问题不仅关乎国家间的竞争，而且中美两国在人工智能产业的发端阶段都较早，两国在政策层面对于人工智能训练的版权问题持较为宽松的态度。美国法院至今才对首个涉及通用人工智能训练的案例作出判决，而我国的情况更是如此，实际操作中法院暂缓审理，推迟对这类案件进行定性，从而为产业发展争取了时间。

一旦该法规得到切实执行，不难预见众多大型版权机构，包括唱片公司联盟、电影公司联盟、出版社联盟以及图片公司联盟，均会果断向人工智能企业发送通知，明确要求不得将他们的作品用于训练，除非人工智能企业愿意支付相应的版税。这一要求实际上将迫使人工智能企业不得不删除大量训练素材。

三、判决解决了哪些问题？

目前，人工智能训练过程中涉及的版权问题主要涵盖三个层面：数据的获取、数据的处理以及数据的最终输出。接下来，我们将分别对这三个方面进行详细介绍。

美国版权法在判定合理使用时，需考虑四个关键因素：使用目的和性质，如该使用是否为商业用途或非营利教育目的；受版权保护作品的特性；所使用部分在整体作品中的比例和重要性；以及该使用对作品市场或价值的潜在影响。在处理人工智能领域的合理使用问题时，必须参照这四个要素进行对照分析。

数据的取得：下载盗版素材用于训练不算合理使用

若训练资料系非法复制，则人工智能服务将背负利用未经许可材料进行训练的版权侵权之嫌。关于此问题，Anthropic案件的裁决提供了明确的答案。法院指出，盗版获取缺乏正当理由，由盗版渠道获取并复制的核心图书馆副本不构成合理使用，此外，即便后续购买正版作品，也无法抵消因盗版副本所造成的损害。

著作权侵权判决书_侵犯著作权罪判决书_

即便训练目的正当，初始的复制行为（即非法下载）仍旧构成了侵权，这种侵权行为不能因为后续的合理使用而得到辩护。此外，法院还判定，如果书籍并非用于训练并且被长期保存，那么它就构成了一个“永久性公共图书馆”，这样的行为已经超出了合理使用的界限。Meta在此案中并未对此进行深入探讨，关键在于Anthropic公司在诉讼过程中积极推动训练材料版权的合法化，而Meta并未采取类似措施，因此法院对此问题未进行详细分析。

作者认为，在我国法院审理这类案件时，除非版权方能够证实人工智能企业采用了盗版资料进行训练，否则，法院很可能会不对人工智能企业所用素材的正版与否进行辨别，转而将案件审理重点放在训练行为是否属于合理使用的范畴。

数据的取得：在线取得的数据有争议

撰写至此，作者心中浮现数个疑问：倘若OpenAi收购了自创刊至今的完整版《纽约时报》，仿效Anthropic公司的做法，将报纸进行扫描制成电子图书馆，并废弃纸质原版，那么他们利用《纽约时报》内容进行训练的行为，岂不是也变得合法了吗？

更进一步，若他们成为《纽约时报》的会员，并借助会员资格下载全部正版文章，进而用于训练，这行为是否仍属于合法范畴？

Anthropic案的裁决表明，购买报纸后扫描电子版进行训练是合法的；若购买会员后下载电子版，只要这是系统所允许的，也应视为合法；然而，若系统对会员阅读文章的数量有所限制，那么下载行为可能就不合法了。

若网站设有付费墙以技术手段进行保护，却遭人工智能企业破解，那么获取到的信息是否构成侵权？依据我国《著作权法》，破解此类技术保护措施以获取内容的行为，等同于侵犯版权，其性质与本案中下载盗版文件的行为相似。因此，利用破解技术保护措施下载的付费内容进行训练，并不属于合理使用的范畴。

还有一个疑问，人工智能企业广泛搜集网络信息，很多时候甚至忽略了网站的robots文件，在这种情形下搜集到的资料，是否构成了侵权行为？

在此，我们依据我国法律法规进行探讨，我国通过《反不正当竞争法》来规范这种行为。绕过robots文件抓取内容并不构成对版权的侵犯，然而，这种行为可能涉嫌不正当竞争。因此，使用绕过robots文件抓取的内容进行训练，并不等同于使用侵犯版权的内容进行训练。然而，这部分训练素材的获取是否合法，还需法院作出判断。

数据的取得：将正版图书转化为电子版构成合理使用

在美国的诉讼过程中，Anthropic公司成功购得了三位原告所拥有的正版图书作品。依据判决书内容，该公司邀请了谷歌图书馆项目的负责人担任其扫描工作的负责人。他们大量购买了图书，将之拆分并扫描成电子文档，随后保存了这些电子文档，并将纸质图书予以销毁。

法院判定此行为属于合理使用范畴，其依据包括：将合法购得的纸质书籍转化为数字版，这一过程仅是为了便于存储和检索，并未增加额外的复制或分发；此外，扫描的目的是为了构建公司内部的研究图书馆，而非直接用于商业目的或取代原作的市场；将合法书籍转为数字版后，并未引发额外的复制或分发，也未对原作的销售市场产生不利影响；并且，在美国法院处理类似案件（例如谷歌图书案）时，也曾认定，将实体书扫描成数字格式以供搜索使用，属于合理使用行为。

笔者认为，这里法院体现出了对人工智能产业有利的导向性。

人工智能企业购置书籍用作教学资料，这些书籍在训练过程中会被系统吸收并存储，而且单本电子书籍可以多次用于训练，这与人仅购买一本纸质书阅读相比，使用效果截然不同。然而，在本案中，法院明确指出，只要用于训练的书籍为正版，并且能够将书籍转换为电子格式以便反复利用，就符合要求。

数据的训练：训练行为本身构成合理使用

关于行为训练的合理运用方面，尽管加州北区法院的两项裁决得出了相近的结论，然而在推理过程上却存在差异。

在Anthropic案件中，对人工智能进行训练的行为被视为具有重大创新性，其过程与人类的习得和创作极为相似，故倾向于支持其合理应用。法院指出，当用户向Claude输入文本提示后，Claude能够迅速地以模拟人类阅读和写作的方式对文本作出回应。Claude之所以能够如此行事，得益于人文主义的熏陶，或者说，得益于对构筑众多Claude形态的核心语言模型进行的培养。这种培养所依据的是，从人文主义汇集的核心图书馆中精心挑选的书籍及其他文本。

Meta案件的判决逻辑在于，原告未能充分提供证据，法院认定Meta的应用具有极强的适应性，其旨在开发能产出丰富文本的工具，而非单纯复制或取代原告的书籍。然而，关键在于，尽管原告的书籍可能遭受了间接竞争的冲击，但原告并未拿出足够的证据来证实这种影响，因此Meta的行为并不构成市场替代。

判决同时指出，人工智能的训练过程或许会通过市场的稀释效应间接地对原作市场造成伤害。比如，AI大量产出类似作品（诸如浪漫小说、新闻报道等）可能会侵占人类作者的市场份额，进而削弱创作的动力。即便人工智能并未直接复制原作，但若其生成的竞争内容泛滥，也可能对市场造成损害。

数据的输出：向用户输出训练数据涉嫌侵权

关于人工智能企业是否应对输出内容实施限制，以防止其输出的内容与训练材料相吻合，这一问题实际上在各国现行的著作权法中已有明确规定。根据这些规定，输出的内容不得侵犯他人的版权。换言之，若人工智能输出的内容与训练材料完全一致或高度相似，便可能构成侵权行为。在本文所探讨的两个案例中，人工智能企业均采取了相应的预防措施。

在Anthropic案件中，经判决书确认，原告并未声称大型语言模型向用户提供的输出内容侵犯了其作品版权。这主要是因为Claude系统已设定了技术屏障，用以确保用户接收到的输出内容不会构成侵权。

在Meta案中，判决书揭示了Meta在运用下载文件对人工智能进行训练的过程中，实施了预训练措施，旨在避免其“记住”并输出训练数据中包含的特定文本，这其中包括了受版权保护的内容。经过测试，即便是专家也无法使任何模型生成超过50个单词及标点符号的原告书籍内容。

数据的输出：绕开技术措施诱导人工智能输出训练数据的争议

在当前业界审理的大量案件中，存在一个颇具争议的问题，即频繁使用提示词对人工智能进行多次调整，使其产出与训练材料相仿或相似的作品，这种行为是否构成侵权行为。

在纽约时报与OpenAi的诉讼案例中，OpenAi一方指出，纽约时报有意操控模型实施了一种类似医学上所谓的“反流”行为，即食物从胃部返回口腔的过程，笔者在此进行说明。OpenAi认为，纽约时报通过采取某些措施，旨在减少记忆的偶然性，以避免模型输出结果中出现重复信息。因此，这种操控行为并不构成对OpenAi技术的合理运用，同时亦违背了其使用规定。

作者赞同OpenAi的见解，鉴于人工智能企业已实施技术手段来避免训练数据内容的重复出现，此时若通过提示词反复调整，使人工智能输出训练数据内容，这并非一般用户所能轻易做到，且在法院审理过程中，此类行为可能被视为违反了技术保护措施，因此，不太可能对人工智能企业追究侵权责任。

最终，美国在两个与人工智能训练相关的版权争议案件上做出了裁决，据此推测，我国在不久的将来或许也将有所突破。目前，业界对几起涉及人工智能训练合理使用原则的案件高度关注，这些案件或许在近期内将公布一审判决结果。