AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

几天前,一家公司把大模型直接写入芯片(ASIC),推理速度为 17000 Token/s,相当于1秒生成30页A4纸的内容,但耗电量和使用成本比英伟达显卡降低 10 倍!
比特币的故事,正在 AI 身上重演。

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗? 1

比特币矿工的军备竞赛

2009 年,比特币刚诞生时,使用 CPU 挖矿,大家在同一起跑线。

很快,显卡挖矿软件出现,算力暴涨,CPU 被淘汰。

2012 年,第一批 ASIC 矿机问世,显卡矿工几乎一夜之间失去优势。

从此,CPU 与显卡从比特币挖矿市场退出,只剩下了 ASIC 矿机。

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗? 2

ASIC 到底是什么?

ASIC,全称是 Application-Specific Integrated Circuit——专用集成电路。

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗? 3

在原理上,他们的区别是这样的:

  • CPU:告诉我怎么做,我一步步运行指令,重复一万次
  • GPU:告诉我怎么做,我把一条指令同时运行一万次
  • ASIC:不用告诉我怎么做,电流流过,结果自然产生

因为 ASIC 把“怎么做”这件事,直接刻进了芯片结构里。它只做一件事,也只能做一件事。它不再运行程序。它本身,就是程序。

就像 CPU 的加法器一样,当两个数字输入进去,电路自动给出结果。


AI 大模型的 ASIC 时刻

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗? 4

比特币挖矿,从一开始就是一件高度重复、结构固定的计算任务。
而今天的大模型,本质上也是如此。

几天前,Taalas 发布了一款能运行 Llama 3.1 8B 的 ASIC 芯片,他们没有让 GPU 去加载模型,而是直接将模型,变成了电路。

这就无需将大模型放入内存再去运行,因为它已经在芯片中了。

英伟达显卡如何处理大模型的数据?

Llama 3.1 8B 模型为例,它由 32 层处理流程叠起来,即 32 道工序处理用户输入的内容。

每一道工序,都在对输入内容做一次加工。当你输入一句话时,会先转换成一串数字(向量),然后这串数字要依次通过 32 道工序(读取参数、计算、写回内存,来回 32 次),最终输出结果。

这个过程就像美化照片:

  • 第一步调亮度
  • 第二步调对比度
  • 第三步增强边缘

最终生成一张精修后的照片。

Taalas 如何将大模型写入芯片?

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗? 5

如果这 32 道工序已经是固定的,能不能把它直接做成电路?

答案是可以。

Taalas 将 32 层 Llama 3.1 按顺序刻在芯片上,并发明了一种硬件方案:神奇乘法器(Magic Multiplier)。可以存储 4 位数据并使用单个晶体管执行与其相关的乘法。

现在,当用户输入时,它先转换为向量,并流入构成第 1 层的物理晶体管。它通过神奇乘法器进行乘法,而不用将结果保存在显存中。

电信号只是沿着物理线路流入第 2 层晶体管…直到生成最终的输出 Token。

模拟 DeepSeek R1-671B:单块芯片装不下怎么办?

对于像 DeepSeek R1-671B 这样的大模型,一块 ASIC 根本装不下。

为了解决这个问题,Taalas 设想用大约 30 块定制 ASIC,把模型参数按模块分布在不同芯片上协同推理。每块芯片依然是“硬连线”的专用设计,只负责模型的一部分。

模拟结果依然惊人:

  • 单用户推理速度约 12,000 token/秒
  • 每 100 万 token 成本约 7.6 美分
  • 成本大约是同等 GPU 方案的一半

未来是 ASIC 的吗?

不一定。

ASIC 的代价,是极端专用。模型一旦升级,可能就要重新流片。

  • GPU 可以运行任何模型。
  • ASIC 只能运行被刻进去的那个模型

如果 AI 推理变成一个标准化、规模化的产品,那么未来可能是这样的:

用户应用层面,直接使用 ASIC 进行大模型输出,成本低廉、速度很快、能耗降低,堪称完美。

而开发层面,GPU 会重回训练、实验和通用计算领域,去训练新的大模型。

但有一件事可以确定:

当“智能”被刻进硅片,算力的战争,进入了新的阶段。

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗? 6

这到底是不是 AI 的矿机时刻?

当年显卡矿工不愿相信 ASIC 会赢,但利润足够大时,效率终究战胜通用性。

今天,大模型推理正在变成一种标准化、规模化的重复计算。

历史告诉我们:当计算足够标准化,它终究会被刻进硅片。

这一次,轮到 AI。

一连串的疑问?

如果模型被刻进芯片,那么:

  • 算力会更集中吗?
  • 小公司还能参与吗?
  • 开源模型还有空间吗?
  • 算力是否会再次集中到少数巨头手中?

原文链接:https://www.appinn.com/ai-mining-machine-era-gpu-obsolete/

参考内容:

  1. How Taalas “prints” LLM onto a chip?
  2. Taalas Specializes to Extremes for Extraordinary Token Speed

写留言

Enable Notifications OK No thanks