开源组织OSI(Open Source Initiative)正式发布了“开放”人工智能的定义,这一举措或将引发与Meta等科技巨头的冲突。OSI一直以来在开源软件领域设立了行业标准,但AI系统包含训练数据等元素,超出了传统许可证的范畴。根据OSI的新定义,要被视为真正的开源AI系统,必须满足以下要求:
- 提供训练数据的详细信息,以便他人了解并复刻该AI系统。
- 提供构建和运行AI所需的完整代码。
- 提供训练过程中的设置和权重,帮助AI生成结果。
这一定义直接挑战了Meta的Llama模型。虽然Llama是目前最大规模的公开可用AI模型之一,但它对商业用途设置了限制(例如面向超过7亿用户的应用程序),且并未公开训练数据,因此未达到OSI对开源的标准,无法做到完全自由的使用、修改和共享。
Meta发言人Faith Eischen对《The Verge》表示,虽然Meta在许多方面与OSI立场一致,但不认同这一定义。Eischen称,“没有单一的开源AI定义,因为传统的开源定义并不能涵盖当今快速发展的AI模型的复杂性。”
OSI在开源软件领域已广泛树立了25年的标准,帮助开发者在不受法律诉讼或许可陷阱的威胁下进行协作创新。如今,AI的快速发展让科技巨头必须选择:要么接受这一原则,要么舍弃。Linux基金会近期也试图定义“开源AI”,反映了在AI时代,传统开源价值观如何适应新局势的激烈讨论。
OSI的最新定义也获得了业界的支持。Hugging Face CEO Clément Delangue称此定义“对推动AI开放性讨论具有重大意义,尤其在训练数据的重要性方面。”OSI执行董事Stefano Maffulli表示,这一定义的发布经过两年打磨,得到了全球专家的协作支持,包括机器学习和自然语言处理领域的学者、哲学家以及创用CC(Creative Commons)社区的内容创作者等。
Meta则将训练数据限制解释为“安全”考量,但批评者认为,Meta更可能是为了降低法律风险,保护其竞争优势。大部分AI模型几乎肯定使用了受版权保护的内容进行训练。据《纽约时报》报道,Meta内部已承认其训练数据中含有版权内容,因为“我们无法避免收集到这些内容。”目前,Meta、OpenAI、Perplexity和Anthropic等公司正面临多起侵犯版权的诉讼。
Maffulli认为,开源历史正在重演。他指出,Meta当前的论调类似于90年代微软面对开源威胁时的态度,Meta强调其在Llama上的大量投入,并质疑其他人是否有能力做同样的事。Maffulli将此视为大型科技公司通过成本和复杂性来合理化技术封闭的策略。他形容这些训练数据是“秘密武器”,“这是他们的核心知识产权。”