又有国产车载芯片厂,要「干倒」英伟达了

656次阅读
没有评论

ChatGPT 成为 AI 新浪潮的「显学」时,为了能让全球用户畅快地「调戏」这位以对话框形式存在的助手,大厂们开启了新一轮的算力军备竞赛——模型计算量增长速度远超人工智能硬件算力增长速度,同时也对数据传输速度提出了更高的要求。

因此,AI芯片成为了人工智能和智能驾驶发展的关键所在。存算一体芯片可能是国产芯片实现算力「换道超车」的机遇。

几天前,国内创业公司后摩智能,发布了首款存算一体智驾芯片——鸿途™H30,成为国内率先落地存算一体大算力AI芯片的公司。这款芯片的最高物理算力 256TOPS,典型功耗 35W,而比算力和功耗更重要的是,它采用了非冯·诺伊曼架构的全新架构方式。

不同的架构,不同的思路,让后摩智能成为车载芯片领域,又一个挑战英伟达霸主地位的新人。

颠覆传统芯片架构

后摩智能是国内最早用存算一体来做智能驾驶芯片的公司。此次发布的鸿途™H30,是它自2020年成立以来推出的首个产品。从介绍中可以看到几个关键词,「存算一体」、「智能驾驶」。

所谓「存算一体」,是一种新的设计方式,通过这种底层架构创新,可以大幅提升芯片性能,特别适合智能驾驶、泛机器人等场景。相比传统架构芯片,存算一体芯片在算力、成本、功耗、散热方面都具有优势,同时存算一体技术不完全依赖于先进存储工艺和封装技术,用成熟制程也能实现先进制程的效果,这对于供应链自主可控有重要的意义。

我们可以将存算一体的工作原理类比为厨师做番茄炒蛋。处理器就像厨师和厨,存储器就像仓库,指令就像菜谱,数据就像各种各样的食材。存算一体就是将厨房的灶台、菜板等搬到仓库中。类比番茄炒蛋中的厨房、厨师、仓库、菜谱和食材等,将运算器带着运算步骤和参数一起集成在内存上,从而避免在仓库和厨房之间来回跑,解决内存读写瓶颈。

又有国产车载芯片厂,要「干倒」英伟达了

后摩智能鸿途™H30发布会现场 | 后摩智能

与之对应的则是当前主流的冯·诺依曼架构,即数据通过设备输入到存储器,处理器从存储器中获取指令和数据,处理后输出结果。

如果我们继续使用厨师做菜的比喻,冯·诺依曼架构的流程是这样的:第一步,厨师从仓库中取出菜谱,读取第一条指令,然后从仓库中取出番茄放到案板上;第二步,回到仓库拿菜谱,读取第二条指令,然后再从仓库中取出刀具,将西红柿切成块;第三步,读取第三条指令,然后把切好的西红柿和刀具放回仓库。这样,厨师需要来回跑很多次,才能完成一道菜。

实际上,在这个过程中,只有一步是真正的计算,而大部分时间都花费在读写存储器上,这就好像厨师花费更多时间取菜、找菜谱和工具,而不是真正烹饪的时间。

对于一些简单的计算,冯·诺依曼架构仍然能够胜任。然而,随着自动驾驶、ChatGPT等大数据模型的出现,对于算力的需求急剧增加,冯·诺依曼架构开始遭遇瓶颈。

所以,存算一体通过底层架构创新,旨在解决冯·诺依曼架构的瓶颈问题。目前,国内一些公司已经开始利用存储介质 Nor Flash(存储空间比较小,一般存储一些初始化内存的固件代码),基于存算一体的思路,去做一些小算力、低功耗的芯片,这种策略已经得到了验证,并且已经在商业上落地。

然而,后摩智能是第一家使用SRAM存储介质,基于存算一体的思路去做大算力芯片的公司。在此之前,许多人对这种做法的可行性表示怀疑。然而,鸿途™H30的出现证明了存算一体做大算力芯片是可行的。

由于存算一体架构的优势,鸿途™H30具有更高的能效比。官方数据显示,该芯片物理算力达到 256TOPS@INT8,典型功耗 35W。简单的计算表明,该芯片在SoC层面的能效比达到了7.3TOPS/Watt。而在传统的冯·诺依曼架构下,采用 12nm 相同工艺,所能实现的能效比多在 2TOPS/Watt 的水平。

在实际性能测试中,鸿途™H30基于Resnet 50模型的基准测试,在Batch Size等于1和8的情况下,分别达到了8700帧/秒和10300帧/秒的性能。这是英伟达Orin芯片的2.3倍和5.7倍。

这也意味着,与英伟达Orin等主流的智能驾驶芯片相比,鸿途™H30不仅实现了性能和计算效率的翻倍,支持更多的算法模型,同时功耗只有它们的一半。

押注智能驾驶

从应用场景来看,鸿途™H30是一款专注于智能驾驶芯片的产品。目前,基于鸿途™H30 已成功运行常用的经典 CV 网络和多种自动驾驶先进网络,包括当前业内最受关注的 BEV 网络模型以及广泛应用于高阶辅助驾驶领域的 Pointpillar 网络模型。

为了保证H30的核心竞争力,提高产品的易用性,后摩智能还基于H30推出了智能驾驶硬件平台力驭和软件开发工具链后摩大道两款产品。

又有国产车载芯片厂,要「干倒」英伟达了

后摩智能创始人兼 CEO 吴强 | 后摩智能

其中,力驭平台是一款域控制器,主要面向末端物流无人小车、乘用车智能驾驶、车路协同等场景。它的CPU算力为200Kdmips,AI算力为256TOPS,支持多传感器输入,系统可靠性进一步提升。同时,力驭平台功耗仅为85W,支持灵活散热方式,便捷部署成本大大降低。

后摩智能还基于鸿途™H30芯片自主研发了一款软件开发工具链——后摩大道™,支持PyTorch、TensorFlow、ONNX等主流开源框架,编程兼容CUDA前端语法,同时支持SIMD和SIMT两种编程模型,兼顾运行效率和开发效率。通过无侵入式的底层架构创新,它保障了通用性的同时,进一步实现了鸿途™H30的高效、易用。

其实,存算一体技术在芯片领域有着广泛的应用前景,自动驾驶也是后摩智能不断迭代后的选择。在刚开始创业的时候,后摩智能的方向并不是很聚焦,既想做云端,又想做边缘端。在做的过程中,一些投资人朋友给予了他们一些建议,认为创业公司资源有限,应该聚焦在某个领域。后摩智能在此后逐渐调整方向,决定先聚焦于边缘端,再逐步扩展到云端。

不过,即便是边缘端,也有安防芯片、AloT、智能驾驶等不同场景。后摩智能发现,在智能驾驶领域聚焦,成功的概率更高。最后,后摩智能将资源集中在智能驾驶领域,不断进行技术创新和产品研发。

吴强解释了这样做的三个主要考虑因素:首先,市场需求巨大;其次,存算一体技术带来的技术产品优势和未来智能驾驶芯片的关键需求天然吻合;此外,智能驾驶的终局是要替代人类驾驶,需要底层智驾芯片无限接近于人脑计算方式和效率。

虽然选择了智能驾驶,可能很多人好奇,后摩智能为何第一款产品就推出256TOPS的大算力芯片,而不是从低到高逐步迭代呢?

吴强表示,一方面是为了满足商用车和乘用车的需求。商用车需要支持L4级别的自动驾驶,而乘用车则需要支持L2级别的自动驾驶。因此,为了满足这两种需求,鸿途™H30芯片将会分为不同的产品系列,从72TOPS 、144TOPS到256TOPS,并提供不同的技术方案以适应不同的场景和需求。

量产落地的「小目标」

一家公司的发展是与所处时代的「双人舞」。

在产品发布之后,后摩智能接下来的重点就是量产落地,拓展更多行业客户和战略合作伙伴。吴强表示,这主要取决于两点,一是量产芯片的性能指标,二是产品是否能真正解决客户的诉求和痛点。

汽车行业,技术的突破是一方面,商业的突破其实更难,因为它还有很高的信任门槛,车厂对于供应商的选择都是风险厌恶型的。芯片公司的产品不仅需要符合严苛的产品一致性、产品质量控制标准,还需要保证至少10~15年的供货周期。

同时,在芯片公司与车企、Tier 1、Tier 2供应商的合作过程中,又涉及大量的测试、沟通、打磨、反馈、修改过程,产品落地周期极长,难度巨大。 这也导致大量芯片创业公司的产品迟迟难以落地。

又有国产车载芯片厂,要「干倒」英伟达了

鸿途™H30 | 后摩智能

对此,后摩智能也做了充分的准备。据了解H30的商业落地主要面向商用车和乘用车两大场景。以H30打造的智能驾驶解决方案,如今已经在新石器无人车、环宇智行等产品上完成部署。

同时,鸿途™H30 将于6月份开始给头部客户送测。同时,后摩智能的第二代产品鸿途™H50 已经在全力研发中,将于2024年推出,支持客户 2025年的量产车型。

吴强还剧透了后摩智能的下一阶段「小目标」:用2年左右时间,实现智驾芯片大规模商用,成长为智驾芯片领域的国内头部企业。

存算一体芯片的技术研发与商用进程,在自动驾驶的普及、生成式AI与大模型的推动下得到了加速。2023年被业内视为存算一体技术走向规模化商业落地的元年。H30芯片的发布则标志着存算一体大算力芯片商用落地的新阶段的开启。

然而,技术本身并不是企业的壁垒,只能为企业提供一定的先发优势。后摩智能需要尽快把技术优势转化为产品优势,打造自己的软件生态、工具链、合作伙伴等。这样,当英伟达、高通等巨头进入市场时,后摩智能可以利用其具有的一定壁垒来抵挡竞争。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy