·人工智能公司辩解称,使用受版权保护的作品来培训人工智能是合理的——这参考了美国版权法中“转换性使用”的概念,如果材料以一种“变革性”的方式改变,就会创造一个例外。
美国正在爆发一场“数据起义”,好莱坞、艺术家、作家、社交媒体公司和新闻机构都是反抗者。
一切的矛头都指向ChatGPT和Stable Diffusion等生成式人工智能工具,它们被指在未经许可或提供补偿的前提下,非法利用内容创作者的作品训练大型语言模型。
这场“数据起义”的核心是一种新的认识,即在线信息——故事、艺术品、新闻文章、网络帖子和照片可能具有重要的未开发价值。在互联网上抓取公开内容的做法由来已久,大多数采取这种做法的公司和非营利组织都会公开披露。但在ChatGPT发布之前,数据所有者对此并不太了解,也不认为这是一个特别严重的问题。现在,当公众了解了更多关于AI训练的基础知识后,这种情况发生了变化。
“这是数据价值的根本性重塑。”Nomic公司的创始人兼首席执行官布兰登·杜德斯塔特(Brandon Duderstadt)在接受媒体采访时说,“以前,人们通过让所有人都能访问数据并投放广告来获得数据价值。而现在,人们认为要保护好自己的数据。”
浪潮迭起
最近几个月,Reddit和推特等社交媒体公司、《纽约时报》和美国全国广播公司(NBC)等新闻机构、科幻作家保罗·特伦布雷(Paul Tremblay)和女演员莎拉·西尔弗曼(Sarah Silverman)等纷纷发采取行动,无极4平台黑钱爆料 反对他们的作品和数据被人工智能擅自收集。这一系列举动被美国媒体称为“数据起义(Data Revolt)”。
上周,西尔弗曼向OpenAI和Meta公司提起诉讼,指控他们在训练数据时使用其著作的盗版内容,因为这两家公司的聊天机器人可以准确地总结其书中的内容。此外,包括乔迪·皮科特(Jodi Picoult)、玛格丽特·阿特伍德(Margaret Atwood)和阮越清(Viet Thanh Nguyen)在内的5000多名作家签署了一份请愿书,要求科技公司在使用他们的书作为训练数据时,要征得他们的许可,并给予他们署名和补偿。
为了保护自己的作品,无极4测速 作家和艺术家们采取了不同的抗议方式。有的选择锁定作品,不让人工智能获取;有的选择抵制发布人工智能生成内容的网站;有的则选择编写一些颠覆性的内容,来干扰人工智能的学习。
7月13日,拥有16万会员的好莱坞三大工会之一SAG-AFTRA宣布罢工,在此之前,美国编剧工会已经罢工70多天。《纽约时报》称,这次大罢工使价值1340亿美元的美国影视业陷入停顿,SAG-AFTRA工会要求流媒体巨头为他们提供更公平的利润分配和更好的工作条件,并要求制片公司保证不会以AI和电脑生成面孔和声音来替代演员。
与此同时,一些新闻机构也在抵制人工智能。6月,在关于使用生成型人工智能的内部备忘录中,《纽约时报》表示,“人工智能公司应该尊重我们的知识产权。”同月,在代表在线出版商利益的贸易组织Digital Content Next发布的一份声明中,《纽约时报》和《华盛顿邮报》等在线出版商认为,使用受版权保护的新闻文章作为人工智能的训练数据具有潜在风险和法律问题,它们呼吁人工智能公司尊重出版商的知识产权和创作劳动。
社交媒体公司也纷纷表明立场。今年4月,社交新闻网站Reddit表示,它希望对访问其应用程序编程接口(API)的第三方收费。Reddit首席执行官史蒂夫·霍夫曼(Steve Hoffman)表示,他的公司“不需要把所有价值都免费提供给世界上最大的一些公司。”7月,推特所有者埃隆·马斯克(Elon Musk)也表示,一些公司和组织“非法”大量抓取推特的数据,为了应对“极端的数据抓取和系统操纵”,推特决定限制个人账户可以查看的推文数量。
这场“数据起义”也包括“诉讼浪潮”,一些人工智能公司由于数据隐私问题受到多次起诉。去年11月,一群程序员对微软和OpenAI发起集体诉讼,称这两家公司使用其代码训练人工智能编程助手,侵犯了他们的版权。今年6月,总部位于洛杉矶的克拉克森律师事务所向OpenAI和微软发起起诉书长达151页的集体诉讼,指出OpenAI如何从未成年人那里收集数据,并称网络抓取侵犯了版权法,构成了“盗窃”。此后,该事务所又对谷歌提起了类似的诉讼。
美国圣克拉拉大学法学院教授埃里克·戈德曼(Eric Goldman)在接受媒体采访时说,这起诉讼的论点过于宽泛,不太可能被法院接受。但他认为,诉讼浪潮才刚刚开始,“第二波和第三波”即将到来,而这将定义人工智能的未来。
网友回应