英伟达被指为训练 AI 大模型,曾寻求安娜的档案高速访问,数据规模达 500TB 级

就在前脚安娜的档案失去 .org、.se 两个域名,还面临永久禁令之后,torrentfreak 继续爆料:在一项集体诉讼中,几位书籍作者引用了英伟达内部文件,声称这家市值万亿美元的公司直接联系了安娜档案馆,寻求高速访问安娜的档案数据,数据规模达 500TB 级别。

有趣的是,安娜的档案曾明确警告英伟达:其所提供的数据为非法获取内容。

英伟达被指为训练 AI 大模型,曾寻求安娜的档案高速访问,数据规模达 500TB 级 1

英伟达自己的大模型

除了卖显卡,英伟达也在训练自己的大模型,包括 NeMo、Retro-48B、InstructRetro 和 Megatron。

英伟达还在自家的 NVIDIA NIM API 免费提供这些模型(限额),另外 NVIDIA NIM 中还有免费的 DeepSeek、QWen 等模型:

英伟达被指为训练 AI 大模型,曾寻求安娜的档案高速访问,数据规模达 500TB 级 2

作家起诉英伟达侵犯版权

torrentfreak 报告称,早在2024年初,几位作者就因涉嫌侵犯版权而起诉英伟达。他们声称英伟达的大模型是在 Books3 数据集上进行训练的。


Books 3

Books3 是一个包含了许多盗版内容的数据集包,于 2020 年首次发布,之后很多大模型都使用了 Books3。不过随着诉讼的到来,Books3 本身已经关闭了,但数据还流传在互联网上。


作为初步回应,英伟达否认侵权,但主张即便使用也构成合理使用。

然而指控并没有消失,上周五作者提交了一份修改后的申诉,「包括阿卜迪·纳泽米安 (Abdi Nazemian) 在内的作者现在引用了各种英伟达内部电子邮件和文件,表明该公司被指曾计划或尝试下载数百万本受版权保护的书籍。」

并称「竞争压力迫使 NVIDIA 进行盗版”,其中包括与备受争议的 Anna’s Archive 库合作。」


英伟达被指为训练 AI 大模型,曾寻求安娜的档案高速访问,数据规模达 500TB 级 3

53. 内部文件显示,竞争压力迫使英伟达走上了盗版之路。2023 年秋季,英伟达面临着一个迫在眉睫的最后期限 – 年度开发者日。自 2022 年 9 月 NeMo Megatron 系列发布以来,OpenAI 发布了 ChatGPT 并取得了巨大成功,导致投资者对人工智能的关注度大幅提升。作为回应,英伟达试图在其 2023 年秋季的开发者日上开发并展示尖端的 LLM。为了获取其内部称为“NextLargeLLM”、“NextLLMLarge”


诉讼还指出「“由于急需书籍,英伟达联系了 Anna’s Archive——这是现存规模最大、也最肆无忌惮的盗版电子书库之一——洽谈获取其数百万份盗版资料,并‘将Anna’s Archive的内容纳入我们大型语言模型的预训练数据中’。”」

「“因为 Anna’s Archive 对其盗版馆藏的‘高速访问’收取了数万美元的费用 […] NVIDIA 试图找出对数据的‘高速访问’是什么样的。”」


英伟达被指为训练 AI 大模型,曾寻求安娜的档案高速访问,数据规模达 500TB 级 4

「我在英伟达的数据策略团队工作,我们正在探索将 Anna’s Archive 纳入我们大型语言模型的预训练数据中。我们想了解您是否愿意分享您在大型语言模型相关方面的工作经验。」


诉讼称安娜的档案承诺向英伟达提供大约 500 TB 数据的访问权限。其中包括数百万本通常只能通过互联网档案馆的数字借阅系统访问的书籍,该系统本身已成为法庭的目标。

不过该投诉没有明确提及英伟达最终是否向安娜的档案支付了访问数据的费用。

另外,英伟达还被指控使用其他盗版资源。包括从 LibGen、Sci-Hub 和 Z-Library 下载书籍。

附:申诉副本下载(PDF

安娜的档案的麻烦

这是首次出现的美国大型科技公司与安娜的档案之间的直接通信细节,导致安娜的档案从个人获取知识下载使用,变成了商业公司使用。并且随着安娜的档案招惹了越来越多的官司,压力也会越来越大。

不知道这是否会导致安娜的档案的消失。

而英伟达方面,应该不会有什么影响,嗯。


原文:https://www.appinn.com/nvidia-anna-archive-500tb/

写留言

Enable Notifications OK No thanks