开源组织OSI（Open Source Initiative）正式发布了“开放”人工智能的定义

开源组织OSI（Open Source Initiative）正式发布了“开放”人工智能的定义，这一举措或将引发与Meta等科技巨头的冲突。OSI一直以来在开源软件领域设立了行业标准，但AI系统包含训练数据等元素，超出了传统许可证的范畴。根据OSI的新定义，要被视为真正的开源AI系统，必须满足以下要求：

提供训练数据的详细信息，以便他人了解并复刻该AI系统。
提供构建和运行AI所需的完整代码。
提供训练过程中的设置和权重，帮助AI生成结果。

这一定义直接挑战了Meta的Llama模型。虽然Llama是目前最大规模的公开可用AI模型之一，但它对商业用途设置了限制（例如面向超过7亿用户的应用程序），且并未公开训练数据，因此未达到OSI对开源的标准，无法做到完全自由的使用、修改和共享。

Meta发言人Faith Eischen对《The Verge》表示，虽然Meta在许多方面与OSI立场一致，但不认同这一定义。Eischen称，“没有单一的开源AI定义，因为传统的开源定义并不能涵盖当今快速发展的AI模型的复杂性。”

OSI在开源软件领域已广泛树立了25年的标准，帮助开发者在不受法律诉讼或许可陷阱的威胁下进行协作创新。如今，AI的快速发展让科技巨头必须选择：要么接受这一原则，要么舍弃。Linux基金会近期也试图定义“开源AI”，反映了在AI时代，传统开源价值观如何适应新局势的激烈讨论。

OSI的最新定义也获得了业界的支持。Hugging Face CEO Clément Delangue称此定义“对推动AI开放性讨论具有重大意义，尤其在训练数据的重要性方面。”OSI执行董事Stefano Maffulli表示，这一定义的发布经过两年打磨，得到了全球专家的协作支持，包括机器学习和自然语言处理领域的学者、哲学家以及创用CC（Creative Commons）社区的内容创作者等。

Meta则将训练数据限制解释为“安全”考量，但批评者认为，Meta更可能是为了降低法律风险，保护其竞争优势。大部分AI模型几乎肯定使用了受版权保护的内容进行训练。据《纽约时报》报道，Meta内部已承认其训练数据中含有版权内容，因为“我们无法避免收集到这些内容。”目前，Meta、OpenAI、Perplexity和Anthropic等公司正面临多起侵犯版权的诉讼。

Maffulli认为，开源历史正在重演。他指出，Meta当前的论调类似于90年代微软面对开源威胁时的态度，Meta强调其在Llama上的大量投入，并质疑其他人是否有能力做同样的事。Maffulli将此视为大型科技公司通过成本和复杂性来合理化技术封闭的策略。他形容这些训练数据是“秘密武器”，“这是他们的核心知识产权。”

Subscribe 订阅