大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

白交克雷西发自凹非寺
量子位 | 公众号 QbitAI

太快了太快了。

一夜间，大模型生成已经没什么延迟了……来感受下这速度。

眼花缭乱了吧，生成速度已经接近每秒500 tokens。

还有更直观的列表对比，速度最高能比以往这些云平台厂商快个18倍吧。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了
（这里面还有个熟悉的身影：Lepton）

网友表示：这速度简直就是飞机vs走路。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

值得一提的是，这并非哪家大公司进展——

初创公司Groq，谷歌TPU团队原班人马，基于自研芯片推出推理加速方案。（注意不是马斯克的Grok）

据他们介绍，其推理速度相较于英伟达GPU提高了10倍，成本却降低到十分之一。

换言之，任何一个大模型都可以部署实现。

目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型，并且可直接体验Demo。

他们还在官网上喊话奥特曼：

你们推出的东西太慢了……

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

每秒接近500tokens

既然如此，那就来体验一下这个号称「史上最快推理」的Groq。

先声明：不比较生成质量大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了。就像它自己说的那样，内容概不负责。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

目前，演示界面上有两种模型可以选择。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。

提示词：你是一个小学生，还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。

结果啪的一下，只需1.76秒就生成了一长串读后感，速度在每秒478Tokens。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

不过内容是英文的，以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

至于GPT-4这边的表现，内容质量自然更好，也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成，也有近二十秒钟的时间。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

除了Demo演示外，Groq现在支持API访问，并且完全兼容，可直接从OpenAI的API进行简单切换。

可以免费试用10天，这期间可以免费获得100万Tokens。

目前支持Llama 2-70B 和7B， Groq可以实现4096的上下文长度，还有Mixtral 8x7B这一型号。当然也不局限于这些型号，Groq支持具体需求具体定制。

价格方面，他们保证：一定低于市面上同等价格。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

不过可以看到，每秒500tokens似乎还不是终极速度，他们最快可以实现每秒750Tokens。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

谷歌TPU团队创业项目

Groq是集软硬件服务于一体的大模型推理加速方案，成立于2016年，创始团队中很多都是谷歌TPU的原班人马。

公司领导层的10人中，有5人都曾有谷歌的工作经历，3人曾在英特尔工作。

创始人兼CEO Jonathan Ross，设计并实现了第一代TPU芯片的核心元件，TPU的研发工作中有20%都由他完成。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

Groq没有走GPU路线，而是自创了全球首个L（anguage）PU方案。

LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽，最终实现的LLM推理性能比其他基于云平台厂商快18倍。

据此前他们介绍，英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens，而 Groq 设置每个tokens大约需要1焦耳到3焦耳。

因此，推理速度提高了10倍，成本却降低了十分之一，或者说性价比提高了100倍。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

延迟方面，在运行70B模型时，输出第一个token时的延时仅有0.22秒。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

甚至为了适应Groq的性能水平，第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

据介绍，Groq的芯片采用14nm制程，搭载了230MB大SRAM来保证内存带宽，片上内存带宽达到了80TB/s。

算力层面，Gorq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

Groq主要基于该公司自研的TSP架构，其内存单元与向量和矩阵深度学习功能单元交错，从而利用机器学习工作负载固有的并行性对推理进行加速。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

在运算处理的同时，每个TSP都还具有网络交换的功能，可直接通过网络与其他TSP交换信息，无需依赖外部的网络设备，这种设计提高了系统的并行处理能力和效率。

结合新设计的Dragonfly网络拓扑，hop数减少、通信延迟降低，使得传输效率进一步提高；同时软件调度网络带来了精确的流量控制和路径规划，从而提高了系统的整体性能。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理，暂不支持模型训练。

此外Groq还提供了编译平台和本地化硬件方案，不过并未介绍更多详情，想要了解的话需要与团队进行联系。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

而在第三方网站上，搭载Groq芯片的加速卡售价为2万多美元，差不多15万人民币。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

它由知名电子元件生产商莫仕（molex）旗下的BittWare代工，同时该厂也为英特尔和AMD代工加速卡。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

目前，Groq的官网正在招人。

技术岗位年薪为10万-50万美元，非技术岗位则为9万-47万美元。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

“目标是三年超过英伟达”

除此之外，这家公司还有个日常操作是叫板喊话各位大佬。

当时GPTs商店推出之后，Groq就喊话奥特曼：用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

马斯克也曾被它痛斥，说“剽窃”自己的名字。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

在最新讨论中，他们疑似又有了新操作。

一名自称Groq工作人员的用户与网友互动时表示，Groq的目标是打造最快的大模型硬件，并扬言：

三年时间内赶超英伟达。

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

这下好了，黄院士的核武器有新的目标了。

参考链接：
[1]https://wow.groq.com/
[2]https://news.ycombinator.com/item?id=39428880å

— 完 —

报名中！

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项，欢迎报名评选！

评选报名截至2024年3月31日

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

中国AIGC产业峰会同步火热筹备中，了解更多请戳：在这里，看见生成式AI的应用未来！中国AIGC产业峰会来啦！

商务合作请联络微信：18600164356 徐峰

活动合作请联络微信：18801103170 王琳玉

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

2024 年 2 月
一	二	三	四	五	六	日
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

白交克雷西发自凹非寺
量子位 | 公众号 QbitAI

每秒接近500tokens

谷歌TPU团队创业项目

“目标是三年超过英伟达”

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

白交 克雷西 发自 凹非寺量子位 | 公众号 QbitAI

每秒接近500tokens

谷歌TPU团队创业项目

“目标是三年超过英伟达”

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

白交克雷西发自凹非寺
量子位 | 公众号 QbitAI