Anthropic胜利 - AI TrendTrackers

美国AI产业今日迎来一项具有里程碑意义的法律裁决：加州联邦法官William Alsup在Anthropic公司与五位作家的著作权诉讼案中作出部分“简易判决”（summary judgement），裁定部分争议无需进入陪审团审理阶段。这份长达32页的裁定文件，不仅澄清了“公平使用”（Fair Use）在生成式AI训练中的适用范围，也披露了Anthropic公司在早期训练数据来源上的诸多细节。

案件涉及Anthropic自2021年成立初期便从未经授权的渠道获取海量图书数据，作为其AI模型训练的核心资料。据法官引用证据显示，该公司联合创始人Ben Mann在2021年初下载了Books3资料库（共19万余本图书），随后又从LibGen和PiLiMi等盗版图书库中获取至少700万本电子书。这些图书原本均为盗版资源，公司内部对此也有明确认知。

然而，2024年起，Anthropic改变了策略，开始大规模合法采购纸质图书，并将其拆解、扫描并数字化处理，用于内部模型训练。为了执行该战略，公司聘请了谷歌图书扫描项目前负责人Tom Turvey，并投入数百万美元购入大量二手图书，建立起自己的“研究图书馆”。

对于这两类数据来源，法官作出了明确区分裁定：

盗版电子书：不属于“公平使用”，相关侵权行为将进入陪审团审理阶段。
购买后扫描的纸质书籍：属“变形性使用”（transformative use），仅限公司内部训练使用，不构成公开传播，因此受“公平使用”保护。

法官Alsup在裁定中写道，对书籍的阅读、记忆和借鉴属于人类创作的一部分，不能对每次使用都征收费用。他强调，LLM的训练过程本质上类似人类读书后进行写作的行为，这一观点成为判决中对“公平使用”的核心辩护逻辑。

值得一提的是，Alsup法官曾在2012年和2016年主持著名的Oracle诉谷歌Java API案，并因其早年编程背景在庭审中驳斥技术专家的不当陈述，被称为“硅谷最懂技术的法官”。其在本案中的裁定，将对AI行业使用公开或已购内容进行模型训练的合法性产生深远影响。

尽管部分获得“公平使用”胜利，但Anthropic仍需面对盗版图书使用问题的陪审团审理。这一案件将成为衡量生成式AI模型训练行为法律边界的重要参考，也将对AI行业未来数据合规策略产生重大指导意义。

Subscribe 订阅