几天前,一家公司把大模型直接写入芯片(ASIC),推理速度为 17000 Token/s,相当于1秒生成30页A4纸的内容,但耗电量和使用成本比英伟达显卡降低 10 倍!
比特币的故事,正在 AI 身上重演。

比特币矿工的军备竞赛
2009 年,比特币刚诞生时,使用 CPU 挖矿,大家在同一起跑线。
很快,显卡挖矿软件出现,算力暴涨,CPU 被淘汰。
2012 年,第一批 ASIC 矿机问世,显卡矿工几乎一夜之间失去优势。
从此,CPU 与显卡从比特币挖矿市场退出,只剩下了 ASIC 矿机。

ASIC 到底是什么?
ASIC,全称是 Application-Specific Integrated Circuit——专用集成电路。

在原理上,他们的区别是这样的:
- CPU:告诉我怎么做,我一步步运行指令,重复一万次
- GPU:告诉我怎么做,我把一条指令同时运行一万次
- ASIC:不用告诉我怎么做,电流流过,结果自然产生
因为 ASIC 把“怎么做”这件事,直接刻进了芯片结构里。它只做一件事,也只能做一件事。它不再运行程序。它本身,就是程序。
就像 CPU 的加法器一样,当两个数字输入进去,电路自动给出结果。
AI 大模型的 ASIC 时刻

比特币挖矿,从一开始就是一件高度重复、结构固定的计算任务。
而今天的大模型,本质上也是如此。
几天前,Taalas 发布了一款能运行 Llama 3.1 8B 的 ASIC 芯片,他们没有让 GPU 去加载模型,而是直接将模型,变成了电路。
这就无需将大模型放入内存再去运行,因为它已经在芯片中了。
英伟达显卡如何处理大模型的数据?
以 Llama 3.1 8B 模型为例,它由 32 层处理流程叠起来,即 32 道工序处理用户输入的内容。
每一道工序,都在对输入内容做一次加工。当你输入一句话时,会先转换成一串数字(向量),然后这串数字要依次通过 32 道工序(读取参数、计算、写回内存,来回 32 次),最终输出结果。
这个过程就像美化照片:
- 第一步调亮度
- 第二步调对比度
- 第三步增强边缘
最终生成一张精修后的照片。
Taalas 如何将大模型写入芯片?

如果这 32 道工序已经是固定的,能不能把它直接做成电路?
答案是可以。
Taalas 将 32 层 Llama 3.1 按顺序刻在芯片上,并发明了一种硬件方案:神奇乘法器(Magic Multiplier)。可以存储 4 位数据并使用单个晶体管执行与其相关的乘法。
现在,当用户输入时,它先转换为向量,并流入构成第 1 层的物理晶体管。它通过神奇乘法器进行乘法,而不用将结果保存在显存中。
电信号只是沿着物理线路流入第 2 层晶体管…直到生成最终的输出 Token。
模拟 DeepSeek R1-671B:单块芯片装不下怎么办?
对于像 DeepSeek R1-671B 这样的大模型,一块 ASIC 根本装不下。
为了解决这个问题,Taalas 设想用大约 30 块定制 ASIC,把模型参数按模块分布在不同芯片上协同推理。每块芯片依然是“硬连线”的专用设计,只负责模型的一部分。
模拟结果依然惊人:
- 单用户推理速度约 12,000 token/秒
- 每 100 万 token 成本约 7.6 美分
- 成本大约是同等 GPU 方案的一半
未来是 ASIC 的吗?
不一定。
ASIC 的代价,是极端专用。模型一旦升级,可能就要重新流片。
- GPU 可以运行任何模型。
- ASIC 只能运行被刻进去的那个模型
如果 AI 推理变成一个标准化、规模化的产品,那么未来可能是这样的:
用户应用层面,直接使用 ASIC 进行大模型输出,成本低廉、速度很快、能耗降低,堪称完美。
而开发层面,GPU 会重回训练、实验和通用计算领域,去训练新的大模型。
但有一件事可以确定:
当“智能”被刻进硅片,算力的战争,进入了新的阶段。

这到底是不是 AI 的矿机时刻?
当年显卡矿工不愿相信 ASIC 会赢,但利润足够大时,效率终究战胜通用性。
今天,大模型推理正在变成一种标准化、规模化的重复计算。
历史告诉我们:当计算足够标准化,它终究会被刻进硅片。
这一次,轮到 AI。
一连串的疑问?
如果模型被刻进芯片,那么:
- 算力会更集中吗?
- 小公司还能参与吗?
- 开源模型还有空间吗?
- 算力是否会再次集中到少数巨头手中?
原文链接:https://www.appinn.com/ai-mining-machine-era-gpu-obsolete/
参考内容: