未来我们有望看到多模态
ARKnovv A是目前为数不多的支持AI图生图的眼镜产品,眼镜可以对其拍摄画面进行“二创”以生成风格多样化的图片,并支持导出到社交平台。该功能背后依赖于开源大模型Stable Diffution。 ARKnovv A的AR创作功能(图源:VR陀螺) 二、多模态AI是众望所归,全天候AI是北极星指标 如果说年是“AIAR”的小试牛刀,那么年便是其进一步爆发的节点。有消息指出,在新的一年中,华为、科大讯飞等更多厂商会进一步入局AR眼镜市场,以实现市场占位。从功能来看,预计“AIAR”将会迎来以下新变化: 多模态AI 目前AR眼镜所采用的多为单模态AI大模型,这使得产品的玩法相对单一,难以实现更复杂的多元信息处理能力。AI在眼镜终端的进一步应用落地。 所谓多模态AI,指的是能同时处理文本、图像、音视频、代码等多种信息的人工智能,它的信息处理方式更接近于人类的“所看、所听、所想”。近期谷歌所发布的Gemini正是多模态AI的代表之一,从演示视频 澳大利亚 WhatsApp 号码数据 中我们可以发现Gemini可以“理解”用户在纸上所画的内容,并能结合用户的对话交流给予相应的反馈。 Gemini演示视频(图源:谷歌) 无独有偶,Meta也正在为Ray-Ban Meta引入多模态AI能力,去年年底扎克伯格展示了基于智能眼镜的一个服装搭配使用场景:当眼镜镜头对准衣服,AI不仅可以识别衬衫的样式,并且还能进一步给出相应的穿搭建议。
https://lh7-us.googleusercontent.com/u7nug2ZJAZa32EmwIAjwj4xdTqvrc9qJao03mnstViiXSFGx5B7rqRdeeWPAShLjjlAf8Q0jcUMV75KEujwJ8nr9l1kITI-r59avKl9ZYtlwo6C04qFZesQPXhGrMliPLMO1bK17d8mmJa43uo5Dy-A
在这么一个简单的场景中,其实需要调用自然语言处理、图片识别、推理等多种能力,这些都是单模态AI所难以实现的。 可以预见,未来多模态AI将有望成为AR眼镜的标配,甚至我们可以进一步推测:AR眼镜产品的摄像头将会成为至关重要的模组之一,摄像头或许会在AR眼镜上率先落地,其优先级甚至会高于光学屏幕。 图源:Meta 更强的生产力属性 除智能手表、智能手机以外,AR眼镜同样是一个绝佳的随身携带可穿戴式设备。当前智能手机主要作为用户信息中枢、智能手表从中探索出来的核心应用场景是信息辅助以及健康检测。AR眼镜的杀手级应用无疑是“AI Agent”,因为它具备了与用户一样以第一视角感知、记录世界的能力(这些是其他设备所欠缺的)。
頁:
[1]