英伟达被指为训练 AI 大模型，曾寻求安娜的档案高速访问，数据规模达 500TB 级

就在前脚安娜的档案失去 .org、.se 两个域名，还面临永久禁令之后，torrentfreak 继续爆料：在一项集体诉讼中，几位书籍作者引用了英伟达内部文件，声称这家市值万亿美元的公司直接联系了安娜档案馆，寻求高速访问安娜的档案数据，数据规模达 500TB 级别。

有趣的是，安娜的档案曾明确警告英伟达：其所提供的数据为非法获取内容。

英伟达被指为训练 AI 大模型，曾寻求安娜的档案高速访问，数据规模达 500TB 级 1

英伟达自己的大模型

除了卖显卡，英伟达也在训练自己的大模型，包括 NeMo、Retro-48B、InstructRetro 和 Megatron。

英伟达还在自家的 NVIDIA NIM API 免费提供这些模型（限额），另外 NVIDIA NIM 中还有免费的 DeepSeek、QWen 等模型：

英伟达被指为训练 AI 大模型，曾寻求安娜的档案高速访问，数据规模达 500TB 级 2

作家起诉英伟达侵犯版权

torrentfreak 报告称，早在2024年初，几位作者就因涉嫌侵犯版权而起诉英伟达。他们声称英伟达的大模型是在 Books3 数据集上进行训练的。

Books 3

Books3 是一个包含了许多盗版内容的数据集包，于 2020 年首次发布，之后很多大模型都使用了 Books3。不过随着诉讼的到来，Books3 本身已经关闭了，但数据还流传在互联网上。

作为初步回应，英伟达否认侵权，但主张即便使用也构成合理使用。

然而指控并没有消失，上周五作者提交了一份修改后的申诉，「包括阿卜迪·纳泽米安 (Abdi Nazemian) 在内的作者现在引用了各种英伟达内部电子邮件和文件，表明该公司被指曾计划或尝试下载数百万本受版权保护的书籍。」

并称「竞争压力迫使 NVIDIA 进行盗版”，其中包括与备受争议的 Anna’s Archive 库合作。」

英伟达被指为训练 AI 大模型，曾寻求安娜的档案高速访问，数据规模达 500TB 级 3

53. 内部文件显示，竞争压力迫使英伟达走上了盗版之路。2023 年秋季，英伟达面临着一个迫在眉睫的最后期限 – 年度开发者日。自 2022 年 9 月 NeMo Megatron 系列发布以来，OpenAI 发布了 ChatGPT 并取得了巨大成功，导致投资者对人工智能的关注度大幅提升。作为回应，英伟达试图在其 2023 年秋季的开发者日上开发并展示尖端的 LLM。为了获取其内部称为“NextLargeLLM”、“NextLLMLarge”

诉讼还指出「“由于急需书籍，英伟达联系了 Anna’s Archive——这是现存规模最大、也最肆无忌惮的盗版电子书库之一——洽谈获取其数百万份盗版资料，并‘将Anna’s Archive的内容纳入我们大型语言模型的预训练数据中’。”」

「“因为 Anna’s Archive 对其盗版馆藏的‘高速访问’收取了数万美元的费用 […] NVIDIA 试图找出对数据的‘高速访问’是什么样的。”」