本文来源 The Information,Founder Park 编译删改。
AI 需要新的硬件平台,在科技巨头看来这是一个共识,他们眼下寄予希望最大的,是可穿戴设备,尤其智能眼镜。
Meta、Google、微软、OpenAI 等 AI 领域的领先公司,希望将旗下视觉和语言相关的 AI 技术,融入智能眼镜和其他带有摄像头的可穿戴设备里。
智能可穿戴设备,虽然是一个已经存在多年的行业,但多模态 AI 的突破性进展(不仅是文字、声音,还有图片表格物体手势等视觉识别),让巨头对这一领域重新燃起了信心。
最近的例子之一,OpenAI 正在考虑将 GPT-4 Vision 的物体识别功能植入 Snapchat 的智能眼镜中。
虽然将这些技术应用到可穿戴设备和移动设备上还需时日,但这一进步预示着未来可能出现的语音激活的 AI 助手,它们能够实现科幻电影《Her》中的场景,为我们的日常生活带来革命性的变化。无论是帮助学生写论文、解答数学题,还是提供周围环境的信息,从翻译路标到指导修车,这些助手的功能都将超越今日的智能手机。
正如 Objective 公司的首席执行官、苹果前工程经理 Pablo Mendes 所说,AI 模型将成为我们生活中不可或缺的一部分,不仅将融入我们的电脑和手机,还会出现在更多设备中。他认为,这一切离我们并不遥远。
手机还是当下的重点,Google 准备把小尺寸模型直接塞到智能手机里。但其他公司正在探索将技术应用在全新类型的设备里。最近,Meta 展示了与雷朋联合开发的智能眼镜,搭载了一个多模态 AI 语音助手的 demo 版本。
智能助手能够描述佩戴者看到的内容,推荐哪种裤子和衬衫好搭配,也能将出版物上的西班牙文字翻译成英文等等。
亚马逊 Alexa AI 团队也在讨论一个新的 AI 设备,同样具备视觉识别功能。
硅谷对带摄像头的可穿戴设备有一种执念。Google、微软长期致力于开发 AR 头显,但成果怎样不好说。他们试图在头显的 OST 屏幕上显示数字图像,指导佩戴者完成特定任务、提供导航或者视野中人物、事物的信息。但因为光学技术的限制,目前这一能力还很难普及。苹果计划明年推出的 Vision Pro 头像上搭载一些 AR 功能,但初期可能并不会配备多模态 AI。
大模型的出现改变了一切。得益于多模态大模型,未来的 AI 能够通过对外的摄像头「观察」佩戴者的行为,并对此进行分析、评论。但要将 LLM 缩小到足以在随身设备上高效运行、快速响应,仍需克服很多挑战。
此外,可穿戴设备上的摄像头,能否为社会所接受,也存在隐私和道德的问题。
下面是一些顶级巨头和 AI 开发者为实现这类产品所做的工作。
拿破仑必不可能轻易回到他的滑铁卢
上周 Google Gemini 的宣传视频火爆科技圈,他们展示了非常强大的多模态能力,AI 能够识别一个人正在模仿《黑客帝国》的招牌动作,学习如何玩一款涉及地图的游戏等等。
最领先的模型 Gemini Ultra 还未正式开放,虽然理论上模型能够完成视频展示的任务,但视频并非 100% 真实情况,不论是响应时间,还是前置条件,显然都还没到达视频展示的水平。
据了解 Google 消费硬件战略的内部人士透露,实现这一体验或许还需要数年时间,因为这种环境感知的计算需要大量能源,并且 Google 在高端可穿戴设备上载过坑(Google Glass)。
作为起步,谷歌正重新设计 Pixel 手机的操作系统,以集成更小型的 Gemini 模型。据《The Information》周四报道,这些模型将支持 Pixie——一款 AI 助手,它通过执行复杂的多模态任务,比如提供指引至最近的商店购买用户拍摄的产品,旨在超越 Siri 等现有助手。
2012 年,谷歌联合创始人谢尔盖·布林以及设计师黛安·冯芙丝汀宝演示 Google Glass
对于谷歌来说,一种能够学习和预测人们对周围世界所需或想要的信息的 AI 设备是刚需,因为谷歌核心的搜索技术,可以以数字化的方式实现这一点。谷歌以 Google Glass 进行了此类设备的初步尝试,但由于其设计笨拙且实用性有限,该项目在十年前告败。随后,谷歌专注于基于摄像头的处理技术,并推动 Android 手机制造商将手机摄像头变成「第三只眼睛」的,可以扫描环境并将图像上传到谷歌的云系统进行分析。谷歌本意是想用这种方式为用户提供图像中物体的更多信息,最终,这一构想落地在了 Google Lens 应用中。
据知情人士透露,谷歌最近放缓了开发类似眼镜设备的步伐,但仍在为这些设备开发软件。这些人表示,谷歌计划将该软件授权给硬件制造商,类似于其为三星等手机制造商授权 Android 系统的方式。
OpenAI
Altman 一直有开发硬件的野心
可以说,今年 3 月份,正是 OpenAI——这家得到微软支持的初创公司引发了对可穿戴 AI 设备的竞赛,当时他们展示了 ChatGPT 根据手写的草图构建一个网站的功能。OpenAI 的不少员工,包括 Andrej Karpathy,将语言模型比作操作系统,因为它们可以编写和运行代码,访问互联网,检索和引用文件。
从那时开始,CEO Sam Altman 就表达了对开发一种新型的 AI 消费设备的兴趣,显然是为了利用这些能力。今年早些时候,前 iPhone 设计师 Jony Ive 开始讨论开发这样一款设备的可能性。虽然 OpenAI 没有硬件团队,但它可以与其他公司合作,比如 Snap 这样的制造商或 AI 芯片设计公司。巧合的是,Altman 还投资了 Humane,这是一家制造带有摄像头的可穿戴「AI Pin」的公司。该公司也希望开发出能够取代智能手机的 AI 便携设备。
Microsoft
小模型开路,正在为 HoloLens 开发 AI 软件
最近,微软的研究人员和产品团队在多模态人工智能领域取得了重大进展,这使得他们更加有信心扩展公司自己的语音助手,并研发适用于小型设备的端侧小模型。根据专利申请和知情人士的说法,这项技术可以用于驱动轻便、经济实惠的智能眼镜或其他硬件设备。前几天,微软刚发布了他们的 2.7b 的小模型 Phi-2,评测成绩优于谷歌的 Gemini Nano。
工人在 Hololens 的帮助下修理机器
其中一些工作可能会基于微软的 HoloLens,这是一款面向工厂或军事单位等商业客户的,昂贵而笨重的 MR 头戴式显示器。微软目前正在为 HoloLens 开发一款 AI 软件,用户可以将头戴式显示器的前置摄像头对准物体,并与由 OpenAI 驱动的聊天机器人交谈,聊天机器人可以识别这些物体。
Apple
硬件有了,模型……
随着即将发布的 Vision Pro,苹果已经准备好利用多模态 AI 浪潮所需的所有硬件。但与竞争对手相比,苹果在人工智能的发展上落后了一些。苹果在今年才开始认真研究大型语言模型,而之前只是进行了一些涉猎。目前还没有迹象表明 Vision Pro 将在近期具备复杂的物体识别或其他多模态能力。(至少目前来说,与 iPhone 不同,由于隐私问题,Vision Pro 不会向开发者提供对原始相机数据的访问权限。)
尽管如此,苹果公司已经花费多年时间完善 Vision Pro 的计算机视觉功能,使设备能够快速识别周围环境,包括识别家具并判断佩戴者是坐在客厅、厨房还是卧室。苹果目前也在研究能够识别图像和视频的多模态模型。
然而,与其他正在开发的眼镜相比,Vision Pro 体积庞大而笨重,并且不适合户外佩戴。据报道,苹果公司今年早些时候暂停了自己的 AR 眼镜的研发,专注于推出头显产品,目前尚不清楚该项目何时会重新启动。但这款设备也是苹果可能会融入多模态 AI 技术的一个方向。
Apple Vision Pro 演示
Meta
年轻人就是跑得快
Meta CTO Andrew Bosworth 本周在 Instagram 上宣布,公司开始在其 Ray-Ban 智能眼镜的第二代产品中测试多模态功能,并表示部分用户将能够优先体验这一功能。
这些眼镜由高通的新型芯片驱动。Meta 的一些高管认为,Ray-Ban 智能眼镜是未来 AR 眼镜的先驱,这些未来的眼镜将数字图像与佩戴者周围的真实世界视图相结合。公司计划在未来几年推出 AR 眼镜,但遭遇了一系列挑战:显示技术的发展停滞,而且第一代智能眼镜据称在市场上推广并不成功。
然而,正如周二的公告所示,多模态 AI 的出现似乎重新激发了 Bosworth 及其团队的热情,他们相信眼镜在短期内能为消费者带来新的惊喜,无论眼镜是否配备更高级的显示技术。
Meta 的 Ray-Ban 眼镜
Amazon
一款支持多模态 AI 的新设备即将推出
据了解该项目的人士透露,今年夏天,在亚马逊的半年度产品规划过程中,Alexa 团队的工程师们正计划推出一款能运行多模态 AI 的新型设备。团队目前致力于降低在设备上处理图像、视频和语音的 AI 对计算和内存的需求。
目前还不清楚这个项目是否获得资助,也不清楚该设备打算为客户解决什么问题。不过,这个项目与亚马逊销售十多年的 Echo 语音助手设备系列是不同的。
Alexa 团队多年来致力于新型设备的开发,包括一款名为 Echo Frames 的智能音频眼镜。但目前尚不明确这款产品是否能有助于亚马逊开发具备视觉识别功能的设备,因为它没有屏幕显示功能或摄像头。
如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
更多阅读从100多个GPTs里,探究OpenAI究竟想要什么,又做了什么
估值超5亿美元,体验碾压Bard、Bing,AI搜索引擎Perplexity的想象力在哪里?
Meta、Midjourney、Adobe、DALL·E:四大巨头的 AI 绘图模型综合评测
时代周刊:为什么 Sam Altman 是 2023 年度 CEO?
MindOS:站在AGI风口,创业两年的教训与思考
专访Pika Labs创始人:视频模型技术路线尚未确定,明年会迎来AI视频的GPT时刻
转载原创文章请添加微信:geekparker