今天,我手握着世界上最大的计算机芯片。它的尺寸令人印象深刻,但速度更令人惊叹,当然也更为重要。大多数计算机芯片都很小,只有邮票大小甚至更小。相比之下,Cerebras WSE(晶圆级引擎)是一个边长 8.5 英寸(22 厘米)的巨大正方形,最新型号的单芯片上集成了惊人的 40 亿个晶体管。这数十亿个晶体管使 WSE 创下了 AI 推理运算的世界纪录:比大致相当的 NVIDIA 集群快 2.5 倍左右。“这是世界上最快的推理速度,”Cerebras 首席信息安全官 Naor Penso 今天在温哥华网络峰会上告诉我。“上周,NVIDIA 宣布 Llama 4 达到了每秒 1,000 个tokens的速度,这令人印象深刻。我们今天刚刚发布了每秒 2,500 个tokens的基准测试。”如果你对这些概念一头雾水,可以把“推理”理解为思考或行动:根据输入或提示构建句子、图像或视频。“标记”则理解为思维的基本单位:单词、字符或符号。AI 引擎每秒处理的 token 越多,它就能越快地提供结果。速度至关重要。对你来说可能并非如此,但当企业客户想要在购物车中添加 AI 引擎,以便他们能够告诉你,只需再添加一种配料,就能做出韩式烤牛肉玉米卷时,他们希望能够立即为成千上万的人提供这一服务。有趣的是,速度将变得更加重要。我们正在进入一个代理时代,人工智能可以为我们执行复杂的多步骤项目,比如计划和预订周末去奥斯汀观看一级方程式赛车之旅。代理并非魔法:它们吃大象的方式和你吃大象的方式一模一样……一次一口。这意味着将一个庞大的整体任务分解成40、50甚至100个子任务。这意味着更多的工作量。“人工智能代理需要做更多的工作,而且各种工作需要相互沟通,”彭索告诉我。“推理速度不能太慢。”WSE 的 40 亿个晶体管是实现如此速度的部分原因。相比之下,英特尔酷睿 i9 只有 335 亿个晶体管,而苹果 M2 Max 芯片也只有 670 亿个晶体管。但构成这台计算速度“魔鬼”的不仅仅是数量。它还具备共置性:将所有功能集成到一块芯片上,并配备 44GB 最快的 RAM(内存)。“AI 计算需要大量内存,”Penso 说,“NVIDIA 需要芯片外的计算,但有了Cerebras,就无需芯片外的计算了。”独立机构 Artificial Analysis 证实了该速度声明,称他们已经在 Llama 4 上测试了该芯片,实现了每秒 2,522 个tokens,而 NVIDIA Blackwell 的速度为每秒 1,038 个tokens。我们已经测试了数十家供应商,而 Cerebras 是唯一一款在 Meta 旗舰模型方面胜过 Blackwell 的推理解决方案,”Artificial Analysis 首席执行官 Micah Hill-Smith 表示。WSE 芯片是计算机芯片设计的一个有趣的演变。虽然我们从 20 世纪 50 年代就开始制造集成电路,从 20 世纪 60 年代就开始制造微处理器,但几十年来,CPU 一直是计算领域的主导力量。相对较近的是,GPU(图形处理单元)从图形和游戏的辅助工具转变为人工智能开发的关键处理组件。Cerebras 首席营销官 Julie Shin 告诉我,WSE 不是 x86 或 ARM 架构,而是一种全新的 GPU 加速架构。“这不是一项渐进式技术,”她补充道。“这是芯片的又一次跨越式发展。”
今天,我手握着世界上最大的计算机芯片。它的尺寸令人印象深刻,但速度更令人惊叹,当然也更为重要。大多数计算机芯片都很小,只有邮票大小甚至更小。相比之下,Cerebras WSE(晶圆级引擎)是一个边长 8.5 英寸(22 厘米)的巨大正方形,最新型号的单芯片上集成了惊人的 40 亿个晶体管。这数十亿个晶体管使 WSE 创下了 AI 推理运算的世界纪录:比大致相当的 NVIDIA 集群快 2.5 倍左右。
“这是世界上最快的推理速度,”Cerebras 首席信息安全官 Naor Penso 今天在温哥华网络峰会上告诉我。“上周,NVIDIA 宣布 Llama 4 达到了每秒 1,000 个tokens的速度,这令人印象深刻。我们今天刚刚发布了每秒 2,500 个tokens的基准测试。”
如果你对这些概念一头雾水,可以把“推理”理解为思考或行动:根据输入或提示构建句子、图像或视频。“标记”则理解为思维的基本单位:单词、字符或符号。
AI 引擎每秒处理的 token 越多,它就能越快地提供结果。速度至关重要。对你来说可能并非如此,但当企业客户想要在购物车中添加 AI 引擎,以便他们能够告诉你,只需再添加一种配料,就能做出韩式烤牛肉玉米卷时,他们希望能够立即为成千上万的人提供这一服务。有趣的是,速度将变得更加重要。我们正在进入一个代理时代,人工智能可以为我们执行复杂的多步骤项目,比如计划和预订周末去奥斯汀观看一级方程式赛车之旅。代理并非魔法:它们吃大象的方式和你吃大象的方式一模一样……一次一口。这意味着将一个庞大的整体任务分解成40、50甚至100个子任务。这意味着更多的工作量。“人工智能代理需要做更多的工作,而且各种工作需要相互沟通,”彭索告诉我。“推理速度不能太慢。”WSE 的 40 亿个晶体管是实现如此速度的部分原因。相比之下,英特尔酷睿 i9 只有 335 亿个晶体管,而苹果 M2 Max 芯片也只有 670 亿个晶体管。但构成这台计算速度“魔鬼”的不仅仅是数量。它还具备共置性:将所有功能集成到一块芯片上,并配备 44GB 最快的 RAM(内存)。“AI 计算需要大量内存,”Penso 说,“NVIDIA 需要芯片外的计算,但有了Cerebras,就无需芯片外的计算了。”独立机构 Artificial Analysis 证实了该速度声明,称他们已经在 Llama 4 上测试了该芯片,实现了每秒 2,522 个tokens,而 NVIDIA Blackwell 的速度为每秒 1,038 个tokens。我们已经测试了数十家供应商,而 Cerebras 是唯一一款在 Meta 旗舰模型方面胜过 Blackwell 的推理解决方案,”Artificial Analysis 首席执行官 Micah Hill-Smith 表示。WSE 芯片是计算机芯片设计的一个有趣的演变。虽然我们从 20 世纪 50 年代就开始制造集成电路,从 20 世纪 60 年代就开始制造微处理器,但几十年来,CPU 一直是计算领域的主导力量。相对较近的是,GPU(图形处理单元)从图形和游戏的辅助工具转变为人工智能开发的关键处理组件。Cerebras 首席营销官 Julie Shin 告诉我,WSE 不是 x86 或 ARM 架构,而是一种全新的 GPU 加速架构。“这不是一项渐进式技术,”她补充道。“这是芯片的又一次跨越式发展。”
AI 引擎每秒处理的 token 越多,它就能越快地提供结果。速度至关重要。对你来说可能并非如此,但当企业客户想要在购物车中添加 AI 引擎,以便他们能够告诉你,只需再添加一种配料,就能做出韩式烤牛肉玉米卷时,他们希望能够立即为成千上万的人提供这一服务。
有趣的是,速度将变得更加重要。
我们正在进入一个代理时代,人工智能可以为我们执行复杂的多步骤项目,比如计划和预订周末去奥斯汀观看一级方程式赛车之旅。代理并非魔法:它们吃大象的方式和你吃大象的方式一模一样……一次一口。这意味着将一个庞大的整体任务分解成40、50甚至100个子任务。这意味着更多的工作量。
“人工智能代理需要做更多的工作,而且各种工作需要相互沟通,”彭索告诉我。“推理速度不能太慢。”
WSE 的 40 亿个晶体管是实现如此速度的部分原因。相比之下,英特尔酷睿 i9 只有 335 亿个晶体管,而苹果 M2 Max 芯片也只有 670 亿个晶体管。但构成这台计算速度“魔鬼”的不仅仅是数量。它还具备共置性:将所有功能集成到一块芯片上,并配备 44GB 最快的 RAM(内存)。
“AI 计算需要大量内存,”Penso 说,“NVIDIA 需要芯片外的计算,但有了Cerebras,就无需芯片外的计算了。”
独立机构 Artificial Analysis 证实了该速度声明,称他们已经在 Llama 4 上测试了该芯片,实现了每秒 2,522 个tokens,而 NVIDIA Blackwell 的速度为每秒 1,038 个tokens。
我们已经测试了数十家供应商,而 Cerebras 是唯一一款在 Meta 旗舰模型方面胜过 Blackwell 的推理解决方案,”Artificial Analysis 首席执行官 Micah Hill-Smith 表示。
WSE 芯片是计算机芯片设计的一个有趣的演变。
虽然我们从 20 世纪 50 年代就开始制造集成电路,从 20 世纪 60 年代就开始制造微处理器,但几十年来,CPU 一直是计算领域的主导力量。相对较近的是,GPU(图形处理单元)从图形和游戏的辅助工具转变为人工智能开发的关键处理组件。Cerebras 首席营销官 Julie Shin 告诉我,WSE 不是 x86 或 ARM 架构,而是一种全新的 GPU 加速架构。
“这不是一项渐进式技术,”她补充道。“这是芯片的又一次跨越式发展。”