美国AI产业今日迎来一项具有里程碑意义的法律裁决:加州联邦法官William Alsup在Anthropic公司与五位作家的著作权诉讼案中作出部分“简易判决”(summary judgement),裁定部分争议无需进入陪审团审理阶段。这份长达32页的裁定文件,不仅澄清了“公平使用”(Fair Use)在生成式AI训练中的适用范围,也披露了Anthropic公司在早期训练数据来源上的诸多细节。
案件涉及Anthropic自2021年成立初期便从未经授权的渠道获取海量图书数据,作为其AI模型训练的核心资料。据法官引用证据显示,该公司联合创始人Ben Mann在2021年初下载了Books3资料库(共19万余本图书),随后又从LibGen和PiLiMi等盗版图书库中获取至少700万本电子书。这些图书原本均为盗版资源,公司内部对此也有明确认知。
然而,2024年起,Anthropic改变了策略,开始大规模合法采购纸质图书,并将其拆解、扫描并数字化处理,用于内部模型训练。为了执行该战略,公司聘请了谷歌图书扫描项目前负责人Tom Turvey,并投入数百万美元购入大量二手图书,建立起自己的“研究图书馆”。
对于这两类数据来源,法官作出了明确区分裁定:
- 盗版电子书:不属于“公平使用”,相关侵权行为将进入陪审团审理阶段。
- 购买后扫描的纸质书籍:属“变形性使用”(transformative use),仅限公司内部训练使用,不构成公开传播,因此受“公平使用”保护。
法官Alsup在裁定中写道,对书籍的阅读、记忆和借鉴属于人类创作的一部分,不能对每次使用都征收费用。他强调,LLM的训练过程本质上类似人类读书后进行写作的行为,这一观点成为判决中对“公平使用”的核心辩护逻辑。
值得一提的是,Alsup法官曾在2012年和2016年主持著名的Oracle诉谷歌Java API案,并因其早年编程背景在庭审中驳斥技术专家的不当陈述,被称为“硅谷最懂技术的法官”。其在本案中的裁定,将对AI行业使用公开或已购内容进行模型训练的合法性产生深远影响。
尽管部分获得“公平使用”胜利,但Anthropic仍需面对盗版图书使用问题的陪审团审理。这一案件将成为衡量生成式AI模型训练行为法律边界的重要参考,也将对AI行业未来数据合规策略产生重大指导意义。