周末到了,带大家吃个震碎三观的瓜!你们都知道 Meta 吧?没想到,它居然被两家成人电影公司告上法庭,理由是 Meta 偷偷用了 2396 部“成人影片”来训练 AI 模型…
说实话,这事真是颠覆了我的认知。
通常我理解的 AI 训练应该是基于学术文章、百科知识之类的正经数据,谁能想到 Meta 居然使用了成人影片作为数据源?
事情经过
这可不是无聊的段子,而是法院文件上的红章,两家成人内容公司直接把 Meta 告上了加州联邦法院。
原告方通过追踪系统发现,大量 IP 地址与 Meta 公司相关,堪称铁证如山。
核心指控很简单明了:自 2018 年起,Meta 通过 BT 网络下载并持续分发 2396 部付费影片,用来喂养自家 AI。更过分的是,Meta 下载完影片后还“做种”分享……
按照美国版权法,故意侵权的上限是每部影片最多 15 万美元,合起来总金额竟然高达 3.59 亿美元!
便宜的数据,最后可能变成最贵的账单……
为什么盯上这些“成人影片”?
你可能会好奇,Meta 为什么要专门选择这些成人内容?难道公司高层有特殊爱好?其实并非如此。
AI训练数据往往非常稀缺,尤其是涉及复杂人体互动、表情变化等方面。互联网的公开数据中,很多视频要么画质模糊,要么镜头短促,缺乏丰富的动态数据。而成人影片恰恰弥补了这一点,它们画面高清、表情动作复杂多变,非常适合用作AI训练的素材。
细想一下,其实很合理,porn 的镜头长,人物肤色和纹理真实,动作还有连贯性
而且现在的法律太约束技术的进步了,模型的进步就是需要大量数据,法律禁止就偷偷做呗
反正都是生成式的模型,我训就训了,数据都变成了模型内 latent space 的向量,你怎么能证明我用了你的数据。就算败诉了赔钱不就行了?
难怪有人开玩笑,说成人网站自己训练 Porn 大模型 ChatPorn,卖流量,多赚钱的买卖,比 Claude,GPT5 贵都有人买
这一操作,我只能说懂的都懂,不懂的…算了,不解释了。
AI 大模型版权官司接踵而来
说到这里,我不禁想起近年来 AI 公司频频遭遇的版权官司,其实这种情况在 AI 圈并不新鲜。
比如,OpenAI 曾被指控在训练 ChatGPT 时偷偷使用了大量文章数据,闹得不可开交。还有 Anthropic 公司,也曾被起诉从盗版网站下载了 700 万本书。美国版权法的最低赔偿标准是每本 750 美元,损失不小。
不过,Meta 这次踢到铁板了。它对上的是专业的版权斗士,这家公司手里有详细的追踪数据和 IP 记录,Meta 想抵赖都难。
说到底,AI 行业最大的成本可能不是显卡,不是算法,而是有价值的数据。
最后
看到这里,你可能觉得这件事离我们很远,毕竟只是几家大公司之间的商业纠纷。可是,这件事却给整个 AI 行业提了个大大的警钟。AI的快速发展离不开数据,但数据的来源和使用,始终是个大问题。
如果 Meta 最后真的败诉,不仅仅是赔点钱那么简单,公司的企业形象也不算大事,重要的是为成为案例,整个 AI 行业的数据使用规范,都可能因此受到深远影响。估计最后就是花钱买类似数据。
我们就等着看这场科技巨头与版权方之间的“大战”如何收场吧!
元芳,你怎么看这个事件?
出处:见配图右下角