对话丨张鹏
整理丨Li Yuan
编辑丨郑玄
6 月苹果发布的 Vision Pro,可能是今年甚至过去三年以来最受关注也最具争议的硬件产品。
大众和部分行业分析师眼中,Vision Pro 价格昂贵却没有提供「超乎想象」的体验,加上缺少内容、产销预期一跌再跌——虽然还没正式发售,唱衰的声音已经不绝于耳。
外行看热闹,作为行业老兵,Rokid 创始人祝铭明清楚里面的「门道」。昂贵价格的背后是苹果超越时代的技术和工业能力,Vision Pro 集成了当下最先进的芯片、传感器和软件算法,将真实世界映射到数字空间,并在数字化的真实世界中叠加数字信息,从而实现了真正的 VST——这与之前的 HoloLens、Magic Leap、Oculus Quest 等 VR/AR 设备有本质的不同。
苹果定义了新的技术范式,但这个范式能否普及还需要时间验证——一方面成本需要下降,性能需要提升,内容应用也有待开发;另一方面,想让用户真正从上一代计算终端转移,需要大幅度提升新范式的体验,「体验改善 20% 是不够的,只有提升了 80%,才会真正迎来爆发的机会。」祝铭明在几天前的 Rokid 新品发布会上说到。
苹果开启了新的机会,但 Rokid 并没有选择第一时间「跟风」,最新发布的 Rokid AR Studio,依然采用 OST 的技术路线,其原理是在用户看到的真实世界叠加数字信息,实现增强现实的效果——这是谷歌眼镜发布以来 AR 行业已经坚持了 10 年的技术路线。
我们好奇祝铭明的个人思考,包括为什么要推出 Rokid AR Studio 这个产品,包括如何看待 OST 与 VST 的技术路线,也包括一名 AR 创业者对如何渡过黎明前黑夜的思考。
以下是极客公园创始人张鹏与祝铭明的对话,由极客公园整理。
一个不同于苹果的 AR 眼镜
极客公园:8 月 26 日,Rokid 在杭州发布了消费级 OST(Optical see-through 光学透视)个人空间计算平台 Rokid AR Studio,这一代产品有什么新鲜的亮点?
Misa:新发布的 Rokid AR Studio 是一个真 AR 产品,实际上包含 Max Pro(眼镜部分),Station Pro(计算主机)两部分。
Rokid AR studio 产品图
Rokid Max Pro 在光学上,仍然沿袭了上一代的 Rokid Max,因为 Rokid Max 仍然是最好的产品,但是新加入了一颗摄像头,可以和外界进行互动。
不要小看这个摄像头,它是一个专门为 Rokid 定制的摄像头,超广角、90 赫兹的刷新率,能够做到空间探测、手势识别,这样就能够真的把 AR 带到真实的场景当中去。
最早 Rokid Air 推出的时候,可以说是一个头戴显示器,后来推出的 Rokid Max 的 FOV(Field of View 视野)达到了 50 度,很爽,包括亮度各方面都有了很大的进步。这些设备,虽然具有 3 DoF(Degree of Freedom 自由度),但是还没有特别多真正的 AR 应用。
之前大家会吐槽,包括我们自己内部也有人说,Rokid Max 到底是不是 AR?是不是最多算是头戴显示器?而到了 Rokid Max Pro,现在所有人都不会怀疑这个就是真正的 AR。
极客公园:真 AR 是如何在 Rokid AR Studio 上体现的?
Misa:前面提到我们的产品中会有一颗前置的摄像头——之前展出的体验款的摄像头还是平视的,真正量产时摄像头会是略微向下的。通过这颗摄像头,可以检测手势动作。手都不用抬起来,放在大腿上,就可以非常轻松地可以进行微手势的操作,达到与空间的交互。
再举一个真 AR 的情景:真 AR 能带来一种无限屏的感觉。比如通常我自己现在每天的工作的状态是左边看 B 站,就是刷刷视频或者看看直播,旁边放一个网页浏览器,查一些资料,正前方通常是我的云电脑,我跑了个 Ubuntu Linux,在上面写代码。右边我会放聊天工具。你的眼镜戴着往哪看就是一个现实的空间,多个任务同时在做,它已经不像是一个简单的一个娱乐终端。
极客公园:交互也是一种计算,虚实融合本身也是一种计算。支持真 AR,需要很强的空间计算能力,这方面 Rokid 的产品表现如何?
Misa:Rokid AR Studio 的计算主机 Station Pro 的计算能力非常强。它用的是和 Meta 的 Quest Pro 相同的芯片,应该是当前量产的 XR 产品里的最强芯片,这也是高通对于 Rokid 大力的支持。
最强芯片带来的是空间计算的能力大大加强,所以它是名副其实空间计算的主机,针对 6 DOF、手势的探测的计算基本上都只有非常短的延迟。
除了计算之外,芯片也增强了 Rokid AR Studio 的渲染和引擎能力。不管是跑 Unity 还是其他的图像引擎,都可以渲染出非常精美的画面。发布会上可以看到,有很多第三方开发者,都开发出了非常精美的画面,比如生命演化的画面,精美的战棋画面等等,大量用到高性能的 GPU。
我们还不断地在推动高通给我们提供算力更强的产品。为支持这么强的计算能力,Rokid Station Pro 采用了主动散热,内置了 7600 毫安时的电池,相当于两个手机的电池,日常使用大家不用担心。
除了高通的芯片,Rokid 从上一代 Rokid Max 开始,就开始强调云端计算和边缘计算进行结合。Rokid AR Studio 可以在云端跑性能更强的应用,尤其比如编程、编译这种重任务。
除了重算力的任务,还有协同问题也需要使用云端的技术。比如我们如果大家各自戴上设备,一起在同一个空间里进行战棋对战,需要在云端做大量的同步。再比如,如果我在这里办公,中间我走了,那么再回到这里办公的时候,我还要再把这个办公的场景呈现出来,永久化,固定化,锚定这个世界。行业的人都知道,这叫点云技术,也是需要云端的技术。我个人感觉云和端的计算比例是四六分,40% 在端上跑,60% 在云上跑。
极客公园:Rokid 做出这一代的真 AR 产品,克服了什么技术难点吗?
Misa:最难的地方是我们只有一颗摄像头。
这就是我们和苹果技术路线最大的不同,我们想要做成眼镜形态,从物理上就要尽量地减少传感器的数量。苹果公司推出的 Vision Pro 里里外外有 12 颗摄像头。它的产品形态放得下。空间探测一定需要摄像头,我们就努力减少需要的摄像头的数量,一颗已经是能减少的极限了,再少就没有了。
通常来讲空间探测需要的摄像头最少要有两个。就像人的眼睛一样,一个眼睛感受不到深度,至少是不能那么精准的感觉到深度。这是我们面临的第一个挑战,我们连续做了将近三四年的时间,达到一个比较好的效果。
事实上,传感器越少,后端软件要做的工作就要越多,你可以理解为减一个摄像头,后端的 AI 能力、操作系统能力、复杂度就要往上翻一番。
比如,手势的角度和手大手小和最后识别的精度是有关系的,这个里面需要大量的进行数据训练。我们用的方法也很简单,就是采集足够的数据完成这件事,和自动驾驶没有什么区别,就靠 AI 自己去掌握这个规律。我们最后有一个保险是做人工的校对,把手伸直的时候机器记住你的手有多大。
还有另一个大众可能不太知道的,一颗摄像头对于操作系统能力的挑战。原生的安卓 AOSP 操作系统,一个摄像头在系统层面只能完成一个对应的任务,比如安卓手机,如果你在用手机录屏,就没有办法做别的需要用摄像头做的事情,因为在操作系统层面就是这样设计的。
而我们的一颗摄像头同时要做四个任务:空间识别、手势识别、简单视频会议、空间搜索,即直接对物理世界的物体进行识别搜索,至少是四个任务。而这四个任务要通过一个摄像头完成。我们有一个全球的专利,就是操作系统层面,如何让一个摄像头完成这些事。
用户使用摄像头和微手势进行交互
极客公园:做了这么难的优化,达到了用一颗摄像头进行空间识别和交互,有什么好处吗?
Misa:第一个好处是减轻了解决延时问题的难度。
Rokid 为了把眼镜做轻,同时解决散热的问题,把电池和芯片都放在了 Rokid Station Pro 这个主机上了。苹果的 Vision Pro 很大,但它也有一个优势是芯片和摄像头挨在一起,通过非常快的内部组线进行沟通。而 Rokid 是要通过一根长线连接在 Station Pro 上的算力,这根线天然是有延迟的,而且 Rokid 为了让用户佩戴体验更好,把这根线做的很细。
而我们要尽可能地消除这根线带来的延时。一颗摄像头的好处是我的通信量也减少,你可以想象如果我做两颗三颗摄像头,它在这一根线上跑的通信总量也有增加。
第二个带来的好处是整个结构简单,包括里面硬件的重量。Rokid Max Pro 增加了摄像头,带来了天上地下的体验差别,但只比上一代的 Rokid Max 多 1 克。这就是一颗摄像头所带来的优势,包括功耗、续航和重量。
我们也想把所有的东西都放进眼镜里,但最终我们做出的取舍是只用一颗摄像头。我们会一直坚持一颗摄像头的技术路线,或许未来会考虑加入深度传感器,不过目前,我们主要是靠 AI 的能力解决深度信息的问题。
有点像有人说的,想写最好的软件要搞硬件,要做最好的硬件,必须要有软件甚至要有 AI。
OST 与 VST 之争
极客公园:之前的 Rokid 设备有调节度数的功能,Rokid AR Studio 也可以调度数吗?
Misa:Rokid AR Studio 的眼镜 Rokid Max Pro 不能调整度数。上一代 Rokid Max 可以调度数的原因是 Rokid Max 主要是消费虚拟数据,它和真实世界缺少互动。Rokid AR Studio 强调的是虚实互动,所以要求你的视力保持内外都能够看清楚,所以从 Rokid Max Pro 开始,我们建议用户去佩戴眼镜。
极客公园:这和 Rokid 选择的技术路线是有关系的,对吧?Rokid 选择的是 OST(Optical see-through 光学透视),而不是 VST(Video see-through 视频透视)的路线。
Misa:是的。苹果 Vision Pro 就是采取的 VST 的技术,通过摄像头将外面的环境传递到内部显示屏上,做完颜色的重建,坐标系的对齐,环境的重建再给你显示出来,这个是典型的 VST。其实你的肉眼是没有直接观察到外面的世界的,但你确实能够看到外面,也能看到叠加在环境上的数据,原来行业的人也把这个技术路线叫做 MR(Mixed Reality 混合现实)。不过苹果发布会上来就说自己是一个 AR 设备,这个我们也拦不住。
我们的技术是 OST,简单讲肉眼能够观察到这个世界,然后把数字世界融合到真实世界里面去。OST 的技术不止有我们的眼镜形态,也有护目镜(goggle)的形态。微软的 Hololens 也是采取 OST 技术,Magic Leap 也是 OST 技术。不过,可以预见的是,护目镜形态的 OST 产品会被 VST 挤压得很厉害,做的比较重的情况下,OST 的优势比不过 VST。所以未来我们 OST,通常指的是眼镜形态的 OST。
极客公园:为什么 Rokid 选择了 OST 路线?
Misa:有两个非常重要的原因。
第一个重要原因是理念上的,我们一直认为人和真实世界、物理世界不要剥离开。在心理上我们不大认同割裂开的方式,总觉得人还是要尽量保持和自然的直接接触,最小程度进行隔离。
第二个客观讲是能力的问题,今天即便是苹果 VST,花了这么多的力气,这么高的成本,实际上也没有打造出大家理想中的产品,如果看客观的评价,会发现也没有那么好,这也是为什么它的发布时间要一再往后延。
我们想想,Vision Pro 里面可是跑了一个 M2 芯片,最强的芯片,还有专门的微处理芯片,协处理芯片在做这个事,再加上有一堆传感器,再加上极高成本的显示成本,最后才能做出这么好的显示效果。
苹果 Vision Pro 图片来源:视觉中国
VST 是不能忍受物理世界毛毛糙糙的,所以它需要尽量把清晰度、分辨率做的足够高,这就牵扯到算力、延迟、色彩、坐标诸多方面的准确性,坦白来说今天我们还没有看到其他公司完整具备这些能力。对于 Rokid 来讲我们要非常清醒的认识到,它至少今天不在 Rokid 的能力范围内。除此之外,我们认为 OST,作为另外一种形态,也会给用户多一个选择。
极客公园:之所以不能选择 VST 的路线,核心难点在哪里?
Misa:VST 涉及到的问题很多,芯片是大家看得到的难点,目前没有第二家公司能够做成 M2,即便开卷考试也做不到。但它不是最主要的,对于创业公司最核心的难点是定价权。
VST 是无法妥协的,举一个例子我们有 8000 块钱的手机,1 万块钱的手机,它的妥协是在我触碰屏幕的时候有一点延迟感,这个我可以接受。如果 VST 的模式下,你画面有阻隔、花屏、不清晰,我们从身体上是受不了这个东西的,有一个基本的要求是不能往下降的,决定你上面用的所有东西,代价都是比传统的产品要高很多。
我们要扪心自问的问题,Rokid 有没有能力去定义定价 2 万块钱的产品?如果这样的话,我估计直播间都是骂我的。这个能力是最重要的能力,剩下的就是堆料。今天来看 Vision Pro,它的超能力就是它的钞能力,里面堆的料都是整个行业内拿到最好供应商的东西,包括 VST 形态能够往里面放一堆传感器,导致的结果是基本的成本就会放在这里。
Rokid 今天非常有自知之明,目前还没有能力号召市场和客户接受这么高价格的产品,这个价格在电子产品当中算是奢侈品。
所以我觉得还是要客观的认识到这个问题。我们也不是非这条路不可,明明另一条路也有机会,甚至我个人更坚信那条路是未来的路,为什么要打大概率打不赢的仗?
很多人认为创业公司比大公司有更多的选择其实是不对的。创业公司都是华山一条路,赢就要赢在那条小道上。
极客公园:刚才说了 VST,OST 技术应该也有它的难点和问题?
Misa:OST 有一个问题是坐标无法统一,你肉眼看到的是物理世界坐标是改变不了的。眼镜呈现的世界会根据你的佩戴来决定,不容易对齐。如果鼻子高一点或者低一点,眼窝深一点或者窄一点,都会有影响。我好不容易把它对齐了,戴到换一个人的脸上也不能对齐。我们在做产品设计的时候,默认精度就不会那么高。
我前两天和产品工程师讲一句话,把今天客观上的不完美,当做一个产品特点去设计。从场景的角度,意味着你要丢掉毫米级精度的场景,如果你做的东西真的是毫米级精度的东西,坦白来说 AR 空间计算不适合你,但是我们又有多少的东西是真的需要毫米级精度呢?
另外,做 OST 眼镜,最大的难度叫螺丝壳里做道场,你只能在硬件当中做减法。
如果做过技术的人,尤其是做过产品设计的人,一定会发现一个规律:硬件上每减掉一个东西。都会带来一个指数的软件难度。拿前面提到的摄像头来讲,你把一颗摄像头拿掉,对于 AI 的算法和整个能力就是数量级难度的差距。
Rokid AR Studio 采用单颗摄像头方案
此外,为了保证轻便,OST 眼镜目前采取分体的模式,VST 体积大,可以放很多传感器和芯片,它们之间的通信和协同可以做的非常实时,数据通信吞吐量也是比较大的,我们的吞吐量至少受一根线的控制。哪怕 USB 3.0 这个技术,能够让线的通信速度变快,可以保证带宽,但是仍然很难保证不延迟。
我们在开发产品的时候,工程师一开始都十分头疼:原来默认的摄像头数据到 CPU 的延时是几毫秒,而做了分体,默认就是 10 毫秒到 50 毫秒,整个熟悉的基准都被打乱了,这个时候如何做到保持实时稳定是不容易的。
所有公司都会面临这个问题,这也是很多公司宁可把设备做的重一点,也要做一体机的产品的原因。分体是一个很难跨越的难题,能把稳定性、延时、预测、算法各方面做好,其实已经是行业中比较一流的公司。
极客公园:有人说 OST 未来真的能做的很好,可能还要做大环境建模、建图等一系列的技术。
Misa:我认同他的看法,未来需要做大环境建模。这个未来需要放到云上做,本地就是一个更实时的,下载更新同步的功能。坦白来说,现在很多的技术,云上就可以解决。即使我们现在拥有最强的芯片高通 XR2+,也没办法去真正承担大的计算量的任务。但硬件你只能等,软件可以通过做一些架构去解决问题,
选择做 OST,本身是一种较劲方式的选择。我更喜欢和软件较劲,而不是硬件。
这个和我从小的技术信仰是有关系的。自己也写代码,我相信软件能够定义一切,因为一旦你对硬件的东西过于痴迷和依赖之后,你的能力是不可改变的,我不喜欢这种感觉。
我还是希望尽量少对硬件产生依赖,因为 Rokid 对硬件掌控的力度是不多的。大部分的创业者,尤其是创新的创业者,你要想推动硬件的变化,即便你有这个能力,周期也是很长的。
我举一个最简单的例子,比如说我们想要尝试一颗摄像头的方案,光做这一件事我们要推动行业拿到这个结果也是很长时间的事。有的时候,过于把希望寄托于硬件上,你会发现你经常无能为力,你做的很多事都特别的无助。
很多人问我,能不能做一体机,能不能做无线,FOV 能不能做到 100 度,重量能不能做到 50g,坦白来讲,Rokid 可以回答一部分问题,但是 70%-80% 的问题不是由 Rokid 来回答的,是电池、材料、CPU、GPU、半导体、传感器产业来回答的。
AR 产业典型的特点是国内外的大公司,一直在等产业成熟,这个是没错的。因为大公司最熟悉和最有优势的是供应链形成之后快速做集成,最后拿出一个不错的产品。我并不是认为他们不想创新,这个是在他们的情况下,最适合他们的战略。Rokid 这样的初创公司是不能等的,我们等到别人都成功的时候,就没有你什么事了,所以我们一定是要往前走。
硬件的外表,软件的心
极客公园:Rokid AR Studio 的底层系统是什么?
Misa:Rokid AR Studio 搭载 Rokid 最新的 YodaOS-Master。简单讲,YodaOS-Master 是 Rokid 重写了整个架构的 AOSP 系统。为什么要用 AOSP?因为 AOSP 属于全人类,生态体系非常全面,不需要重复造轮子,包括鸿蒙也是基于 AOSP 做的。
在 AOSP 之上,我们做了很多的事。包括做了大量低延迟的设计,这一次 Rokid 发布会上,Unity 中国团队也来参与了,因为我们与 Unity 团队之间有紧密的合作,也贡献了很有意思的针对他们的优化。
我们在系统层面做了大量优化,等到硬件上 FOV 更大,分辨率更高,电池的密度更长时,我们不需要再去补足软件这一块,我们现在就是准备好了的。大公司才能去等硬件准备好了再去补足软件,创业公司把握改变世界的机会,在于软件。
极客公园:一年全球 AR 眼镜的出货量也就几十万台,目前看起来还是冷启动阶段。怎么能把把应用做起来,让开发者和行业用户进来?
Misa:实际上你的问题非常有挑战性,Rokid 用很长的时间去思考这个问题。我分享几个思考:
首先,Rokid 希望能够定义出一个独立的 AR 生态,而不是成为其他生态的附庸。Rokid 很早就不再将自己定位为手机的附属设备,也没有以很高的优先级在开发 Rokid 的电脑应用。因为 Rokid 希望整个生态能够不依托于别人,不是在别人的土地上种地。
这也是为什么我们的 AR 设备中包含着一个分体式的计算部分,一开始是 Station,新设备中变成 Station Pro。我在发布会上讲过,自从 Rokid Station 推出之后,90% 的上一代 Rokid Air 的用户不再连接手机和电脑,会直接连接 Rokid Station。这给了我们很大信心。这一代的 Rokid Station Pro 推出之后,不想更换眼镜部分的 Rokid Max 的用户,也可以更换新的 Rokid Station Pro。
其次,Rokid 希望能够连接到一个相对成熟的生态中,而不是自己定义一个新生态。
Misa 在 Rokid 发布会上
我们现在去看 AR,它是新产品、新形态、新交互。如果你的内容和应用也是新的,同时冷启动两个领域,我们认为对于创业公司这是无法成立的。我们去看 Meta,它就是既想定义新生态,也想定义新硬件。
Rokid 没有办法烧钱,我们希望能够长久走下去,这个是我们的风格。在这个情况下,我们想希望我们连接的另一头是过去相对成熟市场的生态。
Rokid 的设备上,爱优腾芒、抖音、B 站全部能上,包括云游戏、云电脑这些技术全部能上,这个是 Rokid 做的尝试,结果非常成功,我跟大家分享一个数据,我们的产品,月活用户达到 40%。用户平均日使用时长超过 1 个小时,这也是行业中举不出第二个例子的。
我没有那么自大,我没有信心说改变你们所有人交互的习惯,同时改变你们的内容习惯,我没有这个信心。当用户在一个新的生态上,原来他所熟悉的那些生态和内容都在的时候,他会非常有安全感,而且愿意去使用它。在用户在使用新交互的时候,能够看得到他熟悉的内容,或者说在熟悉的内容的基础上叠加一些新交互,才能让他慢慢习惯一些新的交互。
极客公园:在这点上,Rokid 和 Vision Pro 是很像的?
Misa:我们很多的设计和最新成果,其实和 Vision Pro 在软件上的想法非常接近,我看 Vision Pro 的发布会时,其实心理咯噔了一下。
我们去看 Vision Pro,它推出的时候,非常强调 2D 内容的自然兼容和迁移,上来表达的第一个观点,就是是过去传统 2D 的应用,直接能在它的空间当中进行呈现,这点和 Rokid 的想法不谋而合。
我们 YodaOS-Master 的操作系统,默认界面就是桌面环境,即一个操作台,环绕的 2D 屏幕,里面放一堆应用。安卓任何的应用,不需要做任何的改变,一行代码都不用改,甚至不需要给 Rokid 源代码,使用标准的 apk,用户装上去就可以在你眼前浮现出来,这就是我们做的事情。
当然在操作系统层面,我们做了大量的工作,让安卓的应用跑在 3D 的空间里。我们做了一个沙箱,骗这个应用说你是跑在硬件上,实际上被我养在一个沙箱里,一个蜜罐里。我们做了大量的工作去做这件事,所以苹果做了这个事,我们也做了这个事。
大家要清楚,为什么我们不再连手机?是因为我们没有办法说服手机公司,让他们在操作系统中为我们做这么一个事。有很多人问我,为什么不去改造一个手机?因为我们对这个操作系统的改动是内核级别的,这个级别的改动,上面的图像引擎,数据管道等等架构全部都要做改造。手机公司不会为你做这个改动的,因为改完之后也会是很难用的手机。
我们内部有一个简单的概念叫三七,70% 往回看迎接过去的生态,30% 给大家有想象力的东西,比如手表、空间搜索,比如 6 DOF 的应用,包括我们发布会上展示的,有人用我们的眼镜做 MR 电影,我戴上之后从来没有想过有这么美好的体验。
只给你这 30% 的东西,你是会犹豫的。而我现在用它来做什么?我首先在上面用 2 个小时检查代码,然后上网看东西,使用浏览器 1 个小时,剩下就是玩一点小游戏,比如说扔飞镖、投篮放松一下自己。
极客公园:Rokid 做了很多系统层面的兼容性的工作,让开发者不需要做兼容工作就能接入 AR 生态。
Misa:是的。原生引擎应用,Rokid 可以兼容。OpenAI 与 Rokid 有很多合作,OpenAI 的东西,Rokid 可以兼容。Hololens 所主导的 MRTK1-3 的 AR 开发架构,我们也能完整接入。
开发者都能感觉到这是多方便。我举个例子,有一个开发者,为我们开发了 8 个游戏,用了多久呢?大概一个月的时间。而且这八个游戏都不是很简单的游戏,都是很精彩的游戏,用的就是 Hololens 所主导的 MRTK 架构。
我们甚至专门为 Unity 做了一套 Rokid 的自研 JS Engine。插到 Unity 里,前端工程师可以直接用 JavaScript 开发 AR。我们提供了引擎,提供了模拟器,在网页上,不需要眼镜就可以提供模拟和开发。
在我们的系统负一屏,有一些小组件,比如小狗,星系,你可以把它们拖出来玩。你知道一个有 web 和 JS 开发经验的工程师开发一个这样的小组件要多久吗?只要一天。
Rokid 会帮助大家把大部分的难度解决掉。AR 眼镜已经不是一个硬件层级的产品了,早就是到了操作系统、架构、AI AR Engine 层级的产品了。
图像引擎当然我们还是老老实实用 Unity 做好的东西,但是你可以从发布会上看到,用户界面,JS AR 这些东西都是 Rokid 原生的了。这些东西都是普通用户看不见的。
极客公园:这些 Rokid 的创新会开源吗?
Misa:我自己就是一个开源者,未来我们一定会考虑。
至少有一点是肯定的,只要大家兼容我们系统 YodaOS-Master 的标准,我们就可以接你的眼镜。现阶段为什么不这么做?大家喜欢的设计风格不同,有的人喜欢墨镜的设计感,有的人喜欢科技的设计感,Rokid 不可能设计出各种眼镜,为什么不让大家一起做这个事?所以我们会非常的开放。
我经常和大家讲,Rokid 是一家隐藏在精致硬件下的软件公司,所以我们一定会把所有的东西都告诉大家,大家可以去上 Rokid AR Platform 这个网站,看看我们开放了多少数据。包括摄像头的原始数据我们都是开放的,其他公司不会开放这种数据给大家的。
我们觉得行业实在太早了,我们只是黑暗森林里的先行者,还没有掉到悬崖下面去而已,但是我们的路一定对吗?不一定。不如把这条路给到大家,看看最后谁走出去了,有人做的比 Rokid 好,我就跟着你们。
极客公园:在社交、游戏或者其他方向,你有没有已经看到了哪些创业者带来了新设备交互范式下的创新?
Misa:我刚才讲到 MR 电影,就是一个我没想到的创新。它在 360 度的空间中讲地球生命的诞生。首先地球充满单细胞生物,慢慢会凝聚成大的爆炸进入寒武纪,恐龙诞生。
大家都知道 MR 产品对观影是不友好的,可能精彩的瞬间你转过头了,就错过了。我看到的这个电影做了一些精彩的设计,如果精彩的事情即将发生而你没有面对那个方向,他会设计一个蝴蝶或者一个其他东西,吸引你的注意力,把你自然地引过去看到那个东西,所以你发现这种创新影响的不仅仅是交互,甚至是编剧。这种东西是过去导演和影片没有的。
里面还有一个创新,恐龙的行为是用 AI 驱动的,是不可预测的,每一个人看到的它是不一样的。其中还有一个交互是把手掌伸出来,变出一块肉,恐龙就过来吃,既有交互又有情节非常的有趣。
AR 产品一定会带来更大想象力,但我也很关心人们怎么解决这些新的技术给人们有时候会带来的不适感。这个 MR 电影通过设计让用户不错过好的情景,让我觉得真的非常精彩。
用户体验微手势应用
AR 公司如何商业化
极客公园:Rokid 成立到今天也过了八九年的时间,一个公司能够持续八九年在不成熟的技术路线上投入,最终做出来一代代产品走向市场,肯定是因为这个创业公司能够印证自己的价值。Rokid 的现金牛业务是什么?
Misa:Rokid 的现金牛业务来自于 To B 业务。
其中一个我非常自豪的事情是,天宫一号太空站上的 AR 眼镜就是我们的眼镜,央视的空间课堂报道中就能看到。
此外,Rokid 在文博领域市占率达到 90% 以上。我给你们分享一个数字,我们开发布会的那天,正值暑假,那一天有 2 万人在博物馆使用我们的眼镜。
极客公园:那么在 To C 业务上呢?
Misa:To C 业务上,Rokid 不亏钱卖产品。我们希望卖的越多公司越健康,而不是卖的越多风险越大,到时候买了产品都不知道找谁来维修。
购买了硬件后,又买过我们的会员,或者买过我们单项内容的付费用户数,占所有用户的 20%。
Rokid 不强调内卷,压榨各个层面的利润以及渠道、供应链、合作伙伴、内容商为了让自己赚那么一点毛利。我希望 Rokid 让每一个环节的合作伙伴都赚到钱的情况下,让用户体验更好的东西,我们希望能建立一个健康的体系。
一个公司的创新力最终回归于这个公司的利润,Rokid 该赚钱还是赚,创业公司没有那么飘在天上,它也得赚钱。
极客公园:Rokid 每年支持开发者花上千万,也是需要利润来支撑。
Misa:是的。Rokid 支持开发者每年花上千万,哪怕学生给我们做的作品和比赛,我们的奖金都是几万块。Rokid AR Studio 新发布,也需要激励开发者。开发者可以申请样机来开发。
我们希望开发者都来给我们提意见,和 Rokid 一起改变世界。如果你能骂我一句让我做出很好的产品,我一定是非常开心的。在我们公司也一样,指着老板的鼻子骂,最后是有价值的我一定会支持,我希望大家一起参与进来。
极客公园:在这方面,Rokid 抱着非常开放的心态?
Misa:我们现在最缺的就是 3D 的内容,在未来,一定要借助 AI 的生成能力来填补 3D 的内容空缺。
我们有一个商业订单,AR内容是由第三方公司制作的。因为时间比较紧,尽管花了总收入的接近四分之一请第三方公司制作内容,最后效果也没有非常完美。我们后来尝试用 AIGC 重做了一遍那个单子,成本只需之前的八分之一,不到两天就做出来了。AIGC 技术的最大贡献就将在 XR 领域。
如果有谁在做这个方面的研究,尤其是 3D 内容的生成,你们来找我。
Rokid 是一家很有开放的心态的公司。现在已经投入正式运营的有 100 多家博物馆和景区用的是 Rokid 产品。但是没有一家是 Rokid 做的,全部是合作伙伴做的。我们一开始做样本的第一家博物馆,良褚博物院,在合适的时候我们也交由合作伙伴运营。
Rokid 就是要告诉大家,我们做好平台,我们做好技术服务,做好产品。围绕 Rokid 有好多的内容和服务商在为我们提供服务。理论上来讲我如果想多赚一点钱,什么东西都自己做能赚到更多的钱。但是 Rokid 想专注做好自己的事,手不往前伸。
希望大家能够有信心与 Rokid 一起合作,长久合作,多支持我们的产品。