AR眼镜,让AI全天候陪伴

如何实现AR眼镜的全天候陪伴,行业亟需找到创新解决方案。

文|哀佳 石丹

ID | BMR2004

在科技飞速发展的今天,增强现实(AR)与人工智能(AI)的融合正引领着一个全新的行业变革。AR技术通过在用户的真实视野中添加数字信息层,极大地丰富了人们的现实体验。而有AI技术加持的AR眼镜能够展现更强的互动性和智能化。

最近,在Meta的虚拟和增强现实技术研发部门Reality Labs庆祝其成立十周年之际,Meta首席技术官Andrew Bosworth透露,Ray-Ban Meta智能眼镜将很快推出更新版。这个新版本将使Meta AI能够接受空间拍照输入,并对用户所看到的内容进行回答。新增的多模态AI功能将使用户能够直接向Meta AI询问他们所观看的内容详情。不仅仅是Meta的Ray-Ban Meta,国内众多厂商如Rokid和雷鸟创新等也纷纷意识到,AI与AR结合才是未来的关键。

尽管市场对“AR+AI”组合的兴趣日益增长,但这一趋势也面临着不少挑战。技术整合的复杂性提高了开发成本,这对很多初创公司和中小型企业来说是一大难题。同时,消费者的接受度也受限于当前技术的可用性和实用性,例如由于技术限制导致的图像延迟、识别精度不足、使用不方便等问题仍待解决。如何实现AR眼镜的全天候陪伴,行业亟需找到创新解决方案。

01

AR眼镜是AI的最佳载体?

如何感知、如何理解、如何交互、如何协同以及数字内容创作是AR眼镜必须要打造的五大AI能力。

在“AR眼镜是AI的最佳载体”这个认识上,雷鸟创新创始人李宏伟非常坚定。在他看来,道理很明确,AR眼镜可有跟人类几乎一致的视觉能力,摄像头就在你眼边,AR眼镜能看你所看,还可以提供屏幕和扬声器,让AI在“看见”之后把处理过的信息以图像、文字或语音的方式快速呈现在人的面前,可以实现让AI时刻陪伴的效果。

李宏伟向《商学院》杂志记者介绍,在“AI+AR”这块,雷鸟创新主要做了几个方面的事情:第一,独立开发了一个让大模型能够记住用户长时间使用习惯的功能,也就是所谓记忆。对于用户来说,使用一个产品,他希望这个产品能记得自己说过什么,能学习自己的使用习惯。

第二,做了一个大模型中台,它可以有调度不同大模型的能力,因为不同场景下不同大模型的能力不太一样。雷鸟大模型中台是雷鸟创新构建的人工智能平台,在雷鸟创新的全部AI业务应用中起到了至关重要的作用。主要包含了数据管理、大模型管理、算法工具库、API调度工具、安全合规管理、资源管理、用户账号等基础能力。它可以使雷鸟创新能够在不同的业务领域快速复用后台的各种人工智能技术和服务,从而提高整体的运行效率和业务敏捷性。

第三,做了RayNeo AI Studio,可以给开发者提供支持,让开发者在上面做更好的“AI+AR”的应用。RayNeo AI Studio提供一个零代码开发环境,不需要专业的技术门槛,每一个人都可用一句简单的话,快速生成一个AI Agents(AI智能体),轻松做出属于个人AR眼镜独有的AI应用。另外,开发者还可以把自己开发的AI Agents发布到RayNeo商城上,让其他人都能体验到。

第四,可以用AI的大语言模型来控制眼镜的所有功能,用户不止可以用它和眼镜来对话,还可以操作所有的功能。

近期,雷鸟创新完成了新一轮亿元级融资,本轮融资主要用在两个方面,首先是新一代消费级AR眼镜的技术研发、量产和市场普及;其次是继续推动“AI+AR”眼镜生态建设。

与李宏伟的想法类似,Rokid创始人&CEO祝铭明认为,未来20年有两件事会改变世界:一个是AI,一个就是AR,而Rokid的使命就是把这两件事变成一件事。

祝铭明指出,Rokid本质上是一家藏在精美硬件产品中的系统软件公司。但Rokid现在被大家所感知到更多的是硬件,主要是因为这个行业在早期需要先有一个操作系统和坚实的硬件,才能展示它的能力。

在他看来,如何感知、如何理解、如何交互、如何协同以及数字内容创作是AR眼镜必须要打造的五大AI能力。比如:如何通过传感器,如相机、麦克风等来感知并且理解客观的物理世界,以及人的意图、关系和行为。在理解物理世界之后,又如何给人以更好、更自然的方式去展现对这个世界理解的结果,怎么样提供有效的、有价值的信息给到用户,同时用更方便、更自然的方式完成这件事,以及如何在虚拟和真实世界之间去协同甚至是创作?

“AI眼镜加上AR可以理解现实世界,它可以告诉你这个火龙果可不可以吃,也可以告诉你,面前的艺术品到底是什么流派、前世今生、奇闻逸事。它不只帮你翻译,还可以用自然语言跟眼镜交互,控制眼镜。AR和AI的结合可以提供一系列的功能,我觉得,它俩的结合真的可以做到增强人生。”李宏伟说。

02

关键瓶颈:AI时代的信息展示

VST跟OST并行发展,没有谁对谁错。未来真正的玩家会同时拥有VST和OST,不同的场景选择用不同的产品,玩家自己去思考哪个产品更合适。

在祝铭明看来,未来人类获得信息的效率会越来越高。当同时获取文字信息、图像信息、视频信息甚至更复杂的空间信息时,就会发现信息的展示和交互变成了最重要的瓶颈。信息终端和信息科技的核心问题就是解决两个问题:第一,如何让人们更自然、更方便、更平等地获得信息;第二是如何更丰富、更有效、更自然地与这些信息沟通。

目前,国内AR眼镜在交互的方式上主要形成了两大阵营:VST(视频透视)和OST(光学透视)。

2024年2月,苹果发售的Vision Pro便是,便是VST方案路线。这种方式交互的效果就像拿着手机照相,外部的世界通过摄像头显示在手机屏幕上,通过手机屏幕看到外部世界。真实世界是通过相机捕捉到实时视图,然后与计算机图像技术结合,将相机捕捉到的“真实世界”与计算机生成的“虚拟图像”叠加后,共同呈现在不透明的显示器上,达到类似透明的效果。

硬件配置上,Vision Pro的屏幕包括两块微型OLED显示屏、12个摄像头、5个传感器和6个麦克风的输入,确保内容实时呈现在用户眼前。

“在拿到Vision Pro的第二天我就戴着它下楼,坐上出租车去机场,到外地出差,大概体验了24小时。除了安检的时候拿下来,我一直戴着它。我的感受是Vision Pro已经花了很大的力气想把VST做好,但是在不明亮的环境下,或者距离10米以外的地方,看物体有很多扭曲、变形、模糊的问题。”李宏伟表示。

与VST需要通过“摄像头”去感知外部世界相比,OST的交互方式可以理解为直接通过“光学镜片”去看外部世界,外部世界的光线直接通过眼镜片进入到眼睛当中。真实世界是通过放置在用户眼前的半透明光学合成器看到的。光学合成器也被用来将计算机生成的图像反射到用户的眼睛里,从而将真实世界和虚拟世界结合起来。

在李宏伟看来,AR的最底层需求是跟现实交互,对现实世界的感知、分析非常重要。虽然Vision Pro在VST方面已经投入大量精力,但还是看不远。所以要把VST做好,可能还需要更长一点的时间,而在与真实世界进行互动方面,OST具备天然优势。

“Vision Pro的发布让我们更加确定OST的方向是对的,雷鸟创新由TCL电子孵化,有TCL集团的强大背景和资源支持。我们很坚信“全彩MicroLED+光波导”是消费级AR的最优解。在全彩Micro LED方面,雷鸟创新还在持续突破,X2的全彩光引擎大概是0.7CC(相当于0.7立方厘米),而雷鸟新一代的光引擎只有0.36CC,体积缩小了接近一半,并且还在持续突破,这将帮助我们把AR眼镜做得更加轻便、更符合日常佩戴。此外,新一代光引擎的显示效果、清晰度、MTF的指标也非常好,它的光通量、对光效的利用也非常好。”李宏伟说。

李宏伟还表示:“Vision Pro的发布已经加速了AR行业爆发节点的到来。虽然Vision Pro还没那么完美,可能不是大家认知的‘iPhone’,但至少是‘iPhone’前一代的产品。在未来1—2年里,雷鸟创新希望能够不断打造领先行业的革命性产品,进而在2025年能够做出一个像第一代‘iPhone’那样的产品。”

与雷鸟创新类似,Rokid的方案路线也是OST。在祝铭明看来,VST跟OST并行发展,没有谁对谁错。未来真正的玩家会同时拥有VST和OST,不同的场景选择用不同的产品,玩家自己去思考哪个产品更合适。

03

加速与多模态AI交互融合

接入多模态AI不仅能极大地提升AR眼镜的交互能力,使其更加智能和人性化,还能拓展AR眼镜的应用场景,增强用户的沉浸感和满意度。

对于目前流行的一体式AR眼镜,通常采用的交互手段包括触控、穿戴式指环、手势识别、语音指令以及遥控器等多种方式。

特别是随着2023年AIGC技术的兴起,语音交互功能获得了显著提升。利用以ChatGPT为核心的大型语言模型,语音交互的便捷性和流畅度达到了新的高度。这种进阶版的AI语音助手不仅在识别速度和准确性上有所提高,还能通过分析用户的语音特征和使用习惯来持续优化。用户在浏览信息、规划路线或发出指令时,所体验的不再仅仅是单向的命令响应,而变得更像是与一个智能伙伴进行的自然而流畅的双向对话。

然而,仅仅依赖语言交互并不能充分发挥AR眼镜的智能潜力,尤其是在复杂的环境和多样化的应用场景中。这就需要AR眼镜接入多模态AI,以实现更加丰富和灵活的交互体验。多模态AI结合了视觉、听觉、触觉等多种感知模式,能够更全面地理解用户的意图和环境的上下文,从而提供更加准确和个性化的响应。

例如,通过视觉识别技术,AR眼镜可以识别用户看向的对象,并提供相关信息或操作选项;通过分析用户的手势,AR眼镜能执行更加复杂的命令,如缩放地图、翻页浏览等;结合位置感应技术,AR眼镜还能提供基于位置的服务,如室内导航、周边信息推荐等。此外,多模态AI还能根据用户的表情和情绪提供更加人性化的交互体验,例如通过识别用户的疲劳程度来调整信息展示的密度和速度。

2023年底,扎克伯格曾展示了一个基于智能眼镜的服装搭配使用场景:当眼镜镜头对准衣服,AI不仅可以识别衬衫的样式,还能进一步给出相应的穿搭建议。在这个看似简单的场景中,其实需要运用自然语言处理、图片识别、推理等多种技术,这些都是单模态AI难以实现的。

此外,新加坡初创公司Brilliant Labs也发布了一款由多模态人工智能助手Noa驱动的轻型AR眼镜产品Frame。除了语音命令,Noa同时能够进行视觉处理、图像生成和转译,它集成了几个人工智能模型,比如会话搜索引擎Perplexity A、文本到图像模型Stable Diffusion、OpenAI的文本生成模型GPT-4、以及语音识别系统Whisper。

目前,AR眼镜采用的多为单模态AI大模型,这使得产品的玩法相对单一,难以实现更复杂的多元信息处理能力。未来我们有望看到多模态AI在眼镜终端的进一步应用落地。接入多模态AI不仅能极大地提升AR眼镜的交互能力,使其更加智能和人性化,还能拓展AR眼镜的应用场景,增强用户的沉浸感和满意度。随着多模态AI交互技术的成熟,未来的AR眼镜或将成为我们生活和工作中不可或缺的智能伙伴。

04

实现AI全天候陪伴

若AR眼镜想要像智能手机一样成为市场爆款,必须解决便携性与续航能力的平衡问题。

过去,AR眼镜受限于其能力,主要局限于大屏观影、大屏游戏等特定场景,或者更简单的信息提醒,这是AR生态的1.0阶段。而“AR+AI”2.0阶段的目标是更贴近生活,最有代表性的场景就是社交。

在李宏伟看来,社交是每个人最重要的需求之一。为此,雷鸟创新主要做了两大类场景。第一类是陌生人社交,这可以帮助解决真实性和如何“破冰”的问题。

想象一下,当你在酒吧或音乐节上,看到让你怦然心动的人,并且想上去打招呼,绝大部分人都没有这样的勇气,不知道该怎么做。但如果此时通过实时分析对方的面部表情,显示出相应可以“搭讪”的方法,比如兴趣爱好等,或许能增加你不少的信心和勇气。或者你还可以直接在眼镜上打个招呼,这样就避免了初次交流时的尴尬。此外,AR眼镜还可以在社交中提供实时翻译,帮助我们听懂其他语言。它还可以查找基于大模型的百科知识,在我们交流过程中遇到不熟悉的领域时,能够给予我们提醒等。

还有一种社交场景是虚拟偶像陪伴,这也是李宏伟最喜欢的应用。比如可以让你喜欢的二次元明星直接来到你家或者陪你出去玩。就站在你面前的地板上,你可以走近他,你可以围着他转一圈,通过AI大模型的加持,他有自己的脾气,可以跟你对话,给你唱歌、跳舞,借助雷鸟虚拟偶像陪伴APP,无论你身在何处,你喜欢的明星总能陪在你身边,这不只是观看的体验,更重要的这是完全亲密的专属互动。

祝铭明表示,Rokid现阶段有不同的产品,比如,典型的重工业使用的产品如X-Craft。人类历史上第一个登上太空“服役”的AR眼镜就是Rokid的产品,但是,这类专业领域使用的产品与老百姓日常生活关系不大。普通民众关注更多的还是希望如何能实现日常佩戴。

比如,Vision Pro被“吐槽”最多的问题在于其重量和重量分布上。Vision Pro的重量在600克到650克之间,相当于将1斤鸡蛋挂在你的眼前,长时间佩戴容易导致面部压迫感。尽管官方采用双环带设计以减轻部分压力,但这种设计仍难以彻底缓解长时间佩戴带来的不适,甚至有可能会破坏用户刚做好的发型。

对此,李宏伟指出,为了提升AR眼镜的便携性和舒适度,雷鸟创新采用了前轻后重的配重策略,大幅减轻了鼻梁的压力。眼镜腿的全新转轴设计也有助于降低夹持力,有效避免因长时间佩戴引起的头痛或压迫鼻梁的不适。同时,Rokid在设计上还考虑到近视用户的需求,其眼镜支持0—600度的近视调节,而其他品牌则可能需要用户更换镜片以适配。

此外,若AR眼镜想要像智能手机一样成为市场爆款,就必须解决便携性与续航能力的平衡问题。目前市场上的AR眼镜平均续航时间大约为5—6小时,如何在保持设备轻便的同时实现长时间续航,将是业界必须面对的挑战。

来源 | 《商学院》杂志2024年5月刊