AI 正在“矿机化”：成本降 10 倍，GPU 会被淘汰吗？

几天前，一家公司把大模型直接写入芯片（ASIC），推理速度为 17000 Token/s，相当于1秒生成30页A4纸的内容，但耗电量和使用成本比英伟达显卡降低 10 倍！
比特币的故事，正在 AI 身上重演。

比特币矿工的军备竞赛

2009 年，比特币刚诞生时，使用 CPU 挖矿，大家在同一起跑线。

很快，显卡挖矿软件出现，算力暴涨，CPU 被淘汰。

2012 年，第一批 ASIC 矿机问世，显卡矿工几乎一夜之间失去优势。

从此，CPU 与显卡从比特币挖矿市场退出，只剩下了 ASIC 矿机。

ASIC 到底是什么？

ASIC，全称是 Application-Specific Integrated Circuit——专用集成电路。

在原理上，他们的区别是这样的：

CPU：告诉我怎么做，我一步步运行指令，重复一万次
GPU：告诉我怎么做，我把一条指令同时运行一万次
ASIC：不用告诉我怎么做，电流流过，结果自然产生

因为 ASIC 把“怎么做”这件事，直接刻进了芯片结构里。它只做一件事，也只能做一件事。它不再运行程序。它本身，就是程序。

就像 CPU 的加法器一样，当两个数字输入进去，电路自动给出结果。

AI 大模型的 ASIC 时刻

比特币挖矿，从一开始就是一件高度重复、结构固定的计算任务。
而今天的大模型，本质上也是如此。

几天前，Taalas 发布了一款能运行 Llama 3.1 8B 的 ASIC 芯片，他们没有让 GPU 去加载模型，而是直接将模型，变成了电路。

这就无需将大模型放入内存再去运行，因为它已经在芯片中了。

英伟达显卡如何处理大模型的数据？

以 Llama 3.1 8B 模型为例，它由 32 层处理流程叠起来，即 32 道工序处理用户输入的内容。

每一道工序，都在对输入内容做一次加工。当你输入一句话时，会先转换成一串数字（向量），然后这串数字要依次通过 32 道工序（读取参数、计算、写回内存，来回 32 次），最终输出结果。

这个过程就像美化照片：

第一步调亮度
第二步调对比度
第三步增强边缘

最终生成一张精修后的照片。

Taalas 如何将大模型写入芯片？

如果这 32 道工序已经是固定的，能不能把它直接做成电路？

答案是可以。

Taalas 将 32 层 Llama 3.1 按顺序刻在芯片上，并发明了一种硬件方案：神奇乘法器（Magic Multiplier）。可以存储 4 位数据并使用单个晶体管执行与其相关的乘法。

现在，当用户输入时，它先转换为向量，并流入构成第 1 层的物理晶体管。它通过神奇乘法器进行乘法，而不用将结果保存在显存中。

电信号只是沿着物理线路流入第 2 层晶体管…直到生成最终的输出 Token。

模拟 DeepSeek R1-671B：单块芯片装不下怎么办？

对于像 DeepSeek R1-671B 这样的大模型，一块 ASIC 根本装不下。

为了解决这个问题，Taalas 设想用大约 30 块定制 ASIC，把模型参数按模块分布在不同芯片上协同推理。每块芯片依然是“硬连线”的专用设计，只负责模型的一部分。

模拟结果依然惊人：

单用户推理速度约 12,000 token/秒
每 100 万 token 成本约 7.6 美分
成本大约是同等 GPU 方案的一半

未来是 ASIC 的吗？

不一定。

ASIC 的代价，是极端专用。模型一旦升级，可能就要重新流片。

GPU 可以运行任何模型。
ASIC 只能运行被刻进去的那个模型

如果 AI 推理变成一个标准化、规模化的产品，那么未来可能是这样的：

用户应用层面，直接使用 ASIC 进行大模型输出，成本低廉、速度很快、能耗降低，堪称完美。

而开发层面，GPU 会重回训练、实验和通用计算领域，去训练新的大模型。

但有一件事可以确定：

当“智能”被刻进硅片，算力的战争，进入了新的阶段。

这到底是不是 AI 的矿机时刻？

当年显卡矿工不愿相信 ASIC 会赢，但利润足够大时，效率终究战胜通用性。

今天，大模型推理正在变成一种标准化、规模化的重复计算。

历史告诉我们：当计算足够标准化，它终究会被刻进硅片。

这一次，轮到 AI。

一连串的疑问？

如果模型被刻进芯片，那么：

算力会更集中吗？
小公司还能参与吗？
开源模型还有空间吗？
算力是否会再次集中到少数巨头手中？

原文链接：https://www.appinn.com/ai-mining-machine-era-gpu-obsolete/

参考内容：