【知识产权】大型语言模型和版权，下一步怎么办？

cioctocdo

7 February 2024

SEO Title

Large language models and copyright, what next?

几周前，《大西洋月刊》发表了一篇题为《这183000本书正在推动出版和科技领域的最大斗争》的文章这篇文章讨论了一个用于训练一些大型语言模型的数据集，由于包含了大量疑似盗版书籍，该数据集引发了争议。文章附带了一个搜索工具，使作者能够检查他们的书是否是数据集的一部分，这一功能引起了许多作者的愤怒反应他们同意。自那以后，这个数据集引发了几起诉讼，包括喜剧演员莎拉·西尔弗曼对Meta和OpenAI的一场备受关注的诉讼，作家协会对OpenAI的诉讼，以及最近的Mike Huckabee诉Meta案。

我的书都没有包含在这个特定的数据集中，我个人也不介意它们是否被用于训练，但许多其他人对此表示反对，并在社交媒体上强烈抱怨。那么作者应该怎么做呢？这一发展如何与正在进行的关于版权和生成人工智能的法律斗争相适应？

书籍3

这个包含盗版书籍的数据集是什么？为什么它被用来训练人工智能？现在臭名昭著的数据集被称为Books3，它是由一个非营利开源研究小组EleutherAI创建的，其既定目的是打破大型科技公司在机器学习研究中的主导地位，这是通过提供人人都可以下载的工具来实现的。其中一个工具是The Pile，这是一个大型开放数据集，包含其他22个较小的数据集，其中包含网络爬虫（Common Crawl和OpenWebText）、PubMed、ArXiv文章、维基百科、美国专利商标局、古腾堡项目和Books3等内容，在整个数据集中的权重为12%。Books3是一个数据集，包含在名为Bibliotik的洪流跟踪器中收集的小说和非小说书籍。

因此，毫无疑问，Books3包含大量作品的侵权复制品，但这与Meta和OpenAI等公司有什么关系？好吧，我们可以肯定的是，The Pile中包含的两个图书来源被用于Meta自己的LLaMa大型语言模型的训练，即Gutenberg数据集（公共领域作品）和Books3。这在LLaMa的论文中有说明，这两个来源占整个训练模型的4.5%。我们不确定Books3是否被用于OpenAI和谷歌等其他公司使用的任何其他模型，但长期以来，人们一直怀疑OpenAI在GPT-3训练中使用的数据集Books2也可能包含侵权书籍副本。

我需要在这里停下来，就科技公司将这些数据集纳入大型模型培训一事发表声明。我强烈赞成选择不参加模特培训，作家、艺术家和其他创作者的意愿应该得到尊重。我还郑重声明，在许多情况下，我认为培训通常应属于合理使用/公平处理，但有选择退出的警告和其他可能的例外情况。然而，我无法相信科技公司如此傲慢，以至于一秒钟都认为，包括一个包含盗版书籍的数据集会导致对他们的广泛诉讼。即使他们坚信自己的所作所为构成了合理利用，而且有理由这样认为，以这种方式让自己承担责任往好里说似乎是鲁莽的，往坏里说似乎也是鲁莽的。特别是因为我相信，正如我稍后将讨论的那样，坚持法律的正确立场相对来说是不贵的。

法律行动可行吗？

数据集中包含许多书籍的作者可能正在考虑对侵犯版权提起法律诉讼，因此应该与他们的律师交谈，而不是阅读这篇博客文章。但有些人可能不想，或者可能不确定下一步该怎么办。

在分析这种情况时，有相当多的考虑因素。从表面上看，这似乎是一个非常直接的侵犯版权案件：书籍的复制品是在未经作者许可的情况下制作的，这些复制品被用来训练大型语言模型。案件已经结案，等待资金流入……但我认为这并不完全简单，这些案件可能会在未来几年内提起诉讼。

首先要考虑的是最初是谁复制的？毫无疑问，EleutherAI似乎是本案中最有可能侵犯版权的一方，他们故意使用了包含侵权书籍副本的数据集。但EleutherAI并不是一个很好的诉讼目标，它是一个松散的机器学习爱好者群体，最初是一个Discord聊天群，后来发展成为一个自称的研究组织。即使他们被认定侵权，获得任何金钱补偿的机会也微乎其微。最多可以期待的是获得禁令，下令停止侵权数据集的任何分发。当然，它会通过其他非法手段提供，但至少官方分发会停止。

参与的第二方是Meta本身，也是一个更具吸引力的目标。我们确信他们在一些培训中使用了Books3，所以他们侵犯了版权，对吗？在我看来，事情变得有点棘手了。我一秒钟也不认为这些公司的内部法律顾问会为Books3的使用开绿灯，即使你认为这是合理的使用，而且这无论如何都是一场豪赌。因此，在我看来，有两种选择：研究人员没有咨询他们的律师，因为他们认为Books3是合理使用的，或者他们很有可能不知道Books3由侵权作品组成。我不知道，但在这些诉讼中，发现应该很有趣。

然而，即使EleutherAI进行的复制可能是直接侵犯版权的案件，我认为其他公司随后的使用可能会被证明是不太可起诉的。作者的专有权往往因司法管辖区的不同而有所不同，但在大多数地方，版权持有人有权复制、制作衍生品（改编）、出借、出版、展示、表演、向公众传播等。这意味着，要执行任何这些操作，都需要所有者的许可。

这就是我认为第一道防线将发生的地方，这已经是一些早期驳回动议的一部分，尽管我们只对此略知一二。争论的内容大致是这样的：这些书不是Meta复制的，它们采用了一个公开的数据集，并用于在内部训练大约2.5%的模型，这意味着这些书还没有出版，也没有向公众开放，由此产生的模型也不是这些书的衍生物。根据这一论点，被告将声称他们所做的相当于合理使用，因为由此产生的模型不包含作品的副本。此外，他们可能会辩称，由此产生的作品与数据集中的任何书籍都没有商业冲突，你不会使用LLaMa或ChatGPT来阅读《冰与火之歌》的全部内容。Meta在讨论衍生产品问题时，在Silverman案中驳回了这一论点：

“作者协会进一步阐明了事实/表达的二分法，第二巡回法院驳回了一种论点，即谷歌图书项目构成了侵权衍生作品。为此，谷歌在未经许可的情况下制作了数百万本书的数字副本，以创建一个允许互联网用户搜索其中某些单词或术语的工具。法院认为，原告没有“提供其书籍信息的假定衍生权利”，如“词频、句法模式和主题标记”。法院发现，这些“统计信息”不构成“受版权保护的表达”，谷歌使用这些信息“不支持原告的衍生作品论点”

这些论点会成立吗？我不知道，我们即将发现，我认为这两种情况都可能发生。我真的认为，这些书是盗版的事实看起来会很糟糕，尤其是在陪审团审判的情况下，但我也认为，在模型的整体训练中，每本书的价值是一个有说服力的合理使用论点。我不想叫这个。

如果你的书被包含在数据集中，并且你遇到了这些信息，你可能正在考虑对侵犯版权提起法律诉讼。如果你正在考虑这一点，最好加入正在进行的集体诉讼；作家协会的那个似乎特别强大。集体行动具有更高成功可能性的理由是，每本书对训练模型的影响可以忽略不计。因此，多个作者的集体努力可能会提出更具说服力的论点

输出和衍生

到目前为止，我所描述的内容与输入阶段有关，即模型的训练。很明显，在某些情况下存在复制行为，诉讼将试图确定这是合理使用/公平处理，还是侵犯版权。但大多数涉及生成人工智能的案件都缺少一些东西，这是侵权输出的证据。因此，如果你要求一个语言模型来复制一本书的内容，它不会做到，最多只能给出一本书，但不能逐字逐句。虽然一些研究已经成功地复制了一些非常受欢迎和被广泛引用的书籍中的段落，但这些段落是有限的。不用说，书籍摘要并不侵犯版权。

原因是，经过训练的模型不会在输入中保存作品的副本，LLM不是搜索引擎，训练模型会从作品中提取标记，而语言模型的核心类似于高度先进的数字语言大师，它通过分析大量文本来学习人类语言的艺术，使其能够生成连贯的内容。

这就是大多数现有诉讼试图声称LLM产生的所有输出实际上是所有输入的衍生物的地方，我认为这一立场站不住脚，需要完全扭曲版权法。想象一下，你让LLM检查你写的一封电子邮件的语法，争论的焦点似乎是它写的电子邮件在某种程度上是Books3中所有书籍的衍生物，这也意味着该电子邮件将是输入中任何其他文本的衍生物，包括网络抓取的材料，比如这个博客。其论点是，所有输出都是从每个输入中派生出来的，即使模型中实际上没有原始输出。这对我来说毫无意义。

坚持进行导数论证很可能是因为“合理使用”输入争论仍未解决。然而，我也认为，仅凭投入，个别作者可能难以获得实质性的损害赔偿。这种困难源于培训过程的性质。如前所述，这些书既不发行也不出售；任何潜在的侵权行为都发生在内部。此外，这种侵权行为的性质可能令人着迷。数据集作为批量文本处理，而不是单独处理；副本存在于数据集中，提取的是语言数据——不是含义，而是一个标记跟随另一个标记的概率。随后可以丢弃这些副本。从根本上讲，作者唯一被侵犯的排他性权利是复制权；从文本中提取信息不构成侵权行为。

这也是为什么我认为科技公司在未经许可的情况下使用包含书籍的数据集是一种糟糕的策略，我认为他们向作者支付报酬实际上相对便宜，因为你只需要购买一本书。培训模特不是作者的专属权利，从作品中提取信息也不是作者的专有权利，所以你所需要的只是购买一本，这就足够了，在某些方面，培训确实就像有人买了一本书并从中学习，作者没有阻止人们阅读他们的书的专属权利。

我的猜测是，我们正在走向某种形式的补偿和选择退出计划。我们可能会在法庭外达成相当多的和解，甚至可能会做出一些决定，但我认为目前更有意义的是，培训师支付某种许可费，或与大型出版商达成协议，以获取大量文本。毕竟，每个模型训练只需要做一次。

结论

没有人知道未来几年会发生什么。每当我被要求做出有根据的猜测时，我说没有人知道会发生什么事。然而，这一时期让我想起了其他一些技术进步的时代，人们忘记了互联网的诞生遇到了大量针对服务提供商的案件，然后是P2P战争，然后是中介责任诉讼。每一个现代技术的大时代都经历过类似的事情，我猜在某个时候事情会平静下来。但与此同时，我们可能会看到一些非常有趣的法律问题的探索。

未经作者同意对其作品进行培训的作者可能会加入一些正在进行的案件，看看我们是否会看到更多的诉讼，这将是一件有趣的事情。我甚至还没有讨论过管辖权的问题，英国和欧洲的作者可能也会加入进来。

我再一次被提醒，“愿你生活在有趣的时代”是一种诅咒。我们有多么有趣的时光。

Search

书籍3

法律行动可行吗？

输出和衍生

结论

标签