我要投稿

对AI模型的训练是否具有转换性（Transformative）”？

发布日期：2024-08-20 05:35:30 浏览次数： 1887 作者：人工智能与知识产权

版权领域有“合理使用”这个概念，即在某些情况下，他人可以不经著作权人许可、不向著作权人支付报酬而直接使用作品。我国《著作权法》第24条规定了合理使用的十三种情况，比如其中的第二款：为介绍、评论某一作品或者说明某一问题，在作品中适当引用他人已经发表的作品。这些传统领域的条款含义是清楚的，一般也没有争议。

AI模型（尤其是大语言模型【LLM】）在训练时需要海量的版权材料。那么在这种场景下，对版权材料的使用是不是“合理使用”？这个问题目前没有通说。相关诉讼判例也尚未形成某些定论。

在美国版权法中，“合理使用(Fair Use)”包括四个主要考量因素：

1. The purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes (使用的目的和性质，包括此种使用是商业目的还是非盈利的教育目的);
2. The nature of the copyrighted work （版权作品的本质）;
3. The amount and substantiality of the portion used in relation to the copyrighted work as a whole (如果将版权作品作为整体来看，那么使用的部分的数量);
4. The effect of the use upon the potential market for or value of the copyrighted work (使用对作品的潜在市场或价值的影响)。

在上述第一个考量因素中，最重要的点在于：对版权材料的使用是否具有“改造性/转换性（Transformative）”。简单说，就是要回答：此种使用是对原作的平庸的“挪用”，还是产生了新的、不能预料的效果（Whether the new work merely “supersedes the objects of the original creation, or instead adds something new, with a further purpose or different character, altering the first with new expression, meaning, or message; it asks, in other words, whether and to what extent the new work is “transformative”）。

在Oracle v Google关于Java API的世纪诉讼中，计算机领域的79位著名科学家表达了这样的观点：谷歌将这些原本应用于桌面电脑API应用到了一个新的领域（移动端操作系统Android），这种使用是具有“转换性”的。科学家们的这个观点被US最高法院所采纳，在最高法院2021年关于此案的判决中，有如下的文字：

可以看出：把版权材料应用于一个“新”领域是具有“Transformative”性可能的。这个想法已经被OpenAI考虑过了。在2019年OpenAI递交给美国专利商标局的一份意见中表达了：

“…训练AI系统当然是极具“转换性”的，其最主要对的理由在于：训练使用的版权材料毫无疑问是为了人类消费（例如娱乐）而用的。但是训练一个AI系统的目的显然和上述目的是完全不一样的，AI系统在训练过程中所“学习”到的”模式（Pattern）”和人阅读版权材料的过程也是完全不同的，这是一种“非表达（Non-expressive）”的过程；因此从目的和表达过程来看，对AI系统的训练显然是一种对原版权材料具有高度转换性使用的事情…”。

这种说法巧妙地利用了目前深度学习的两个阶段（训练-使用）相分离的特点，认为模型训练的目的为与“人类阅读”的目的不同，进而推出这种使用是与传统的对版权材料的使用是不同的。即：OpenAI认为：这种对版权材料的使用相当于：将版权材料应用在了一个全新的领域，从而具有转换性。

但是，计算机对版权材料的“阅读”显然从根本上就与人类不同，计算机不可能因为“娱乐或者学习”而去阅读一份文本。在最底层，计算机所接受的无非是0或1，这个过程并不是这个世代才有的。现代冯-诺依曼架构的计算机已经出现了快80年了。从这个意义上而言，向计算机输入文本这件事情并不是一个新的领域。

或许有人会说，最近几年才有大模型，用文本训练大模型是一个新出现的事物。即使从这个角度考虑，深度学习的历史（大约可以追溯到1950年）几乎和现代计算机的历史一样悠久。用深度学习模型作为语言模型至少也有40-50年的历史了。从这个角度来说，使用文本训练深度学习模型也并不是一个新的技术领域。

对如今的大模型而言，真正的不同实际发生在量而非质上。大模型的训练几乎耗费了互联网上所有可获得的材料。而正是藉由近20年间算力和存储能力的指数增长，这件事情才有了可以实现的基础。使用文本对模型进行训练不是什么新领域。而一旦考虑将模型训练完之后要做什么？这个事情会更加明了：训练后的大模型将向每个人兜售各种文本材料的切片组合，并且在其中植入各种明的暗的广告-这其实是一种传统的商业行为、只不过换成了更manipulating的手段而已。