OpenAI突然“销毁”了10万多本书,到底发生了什么?

业界
2024
05/08
10:28
凤凰网科技
分享
评论

OpenAI陷入图书版权纠纷

OpenAI陷入图书版权纠纷

北京时间5月8日,最新解封的法庭文件显示,OpenAI删除了两个名为“图书1”(books1)和“图书2”(books2)的庞大数据集,这些数据集曾用于训练其GPT-3人工智能(AI)模型。

这些文件来自美国作家协会对OpenAI提起的集体诉讼。美国作家协会的律师在法庭文件中表示,这些数据集很可能包含“10万多本已出版书籍”,是该协会指控OpenAI使用受版权保护的材料来训练AI模型的关键。

几个月来,美国作家协会一直寻求从OpenAI获得有关这些数据集的信息。法律文件显示,OpenAI最初以保密为由拒绝提供这些数据集的下落,但最终披露已删除所有数据副本。

高质量的训练数据是强大AI模型的重要组成部分。目前,这些AI模型正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模型,其中包括许多书籍。许多创造这些数据的公司认为,他们为新的AI产品提供了训练数据,需要获得报酬。但是,科技公司不想被迫付费。这一争执已经引发了多起官司。

500亿个单词

OpenAI曾在2020年发布过一份白皮书,将图书1和图书2数据集描述为“基于互联网的图书语料库”,并表示它们占据创建GPT-3训练数据的16%。白皮书还表示,图书1和图书2总共包含670亿个数据词元(token),大致相当于500亿个单词。作为比较,《钦定圣经》有783,137个单词。

最新解封的法庭文件是OpenAI律师的信函,它被标记为“高度机密-仅限律师查看”。信中说,OpenAI已在2021年底停止使用图书1和图书2进行模型训练。由于这些数据集不再使用,它们在2022年年中被删除。信中还说,用于训练GPT-3的其他数据都没有被删除,并允许美国作家协会的律师访问其他数据集。

该文件还显示,创建图书1和图书2的两名研究人员已不再受雇于OpenAI。OpenAI最初拒绝透露这两名员工的身份,随后向美国作家协会的律师确认了这些员工的身份,但没有公开披露他们的姓名。OpenAI已经请求法院对这两名员工的姓名以及有关数据集的信息保密。美国作家协会对此表示反对,认为公众有知情权。目前,争议仍在继续。

OpenAI周二在一份声明中表示:“驱动当前ChatGPT和应用程序接口的模型不是使用这些数据集开发的。这些数据集是由OpenAI前员工创建的,最后一次使用是在2021年,并在2022年因未使用而被删除。”

【来源:凤凰网科技

THE END
广告、内容合作请点击这里 寻求合作
OpenAI
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

5 月 8 日消息,OpenAI 公司今天发布新闻稿,宣布推出专用的 AI 检测工具,能够识别某张图片是否由 DALL・E 3 模型生成,且准确率高达 98%。
业界
5月8日讯 美东时间周二,OpenAI宣布与数字媒体公司Dotdash Meredith签署了一项内容许可协议,该协议允许OpenAI将这家出版商的内容引入ChatGPT,并帮助训练其最先进的人工智能(AI)模型。
业界
5月6日消息,据多家媒体近日报道,OpenAI正在计划一款基于其ChatGPT聊天机器人的大型产品——全新的搜索引擎。
业界
4 月 30 日消息,比尔・盖茨(Bill Gates)已于 2020 年 3 月辞去微软董事会职务,并宣布此后将专注于慈善事业。
业界
4 月 27 日消息,据彭博社报道,苹果公司目前正在重新与 OpenAI 展开潜在合作关系谈判,该公司据称已经与 OpenAI 重新讨论将 GPT 技术部署在 iOS / iPadOS 18 中的可能性。
业界

相关推荐

1
3