未来我们有望看到多模态

Afroga2497 發表於 14:11:45

ARKnovv A是目前为数不多的支持AI图生图的眼镜产品，眼镜可以对其拍摄画面进行“二创”以生成风格多样化的图片，并支持导出到社交平台。该功能背后依赖于开源大模型Stable Diffution。 ARKnovv A的AR创作功能（图源：VR陀螺）二、多模态AI是众望所归，全天候AI是北极星指标如果说年是“AIAR”的小试牛刀，那么年便是其进一步爆发的节点。有消息指出，在新的一年中，华为、科大讯飞等更多厂商会进一步入局AR眼镜市场，以实现市场占位。从功能来看，预计“AIAR”将会迎来以下新变化：多模态AI 目前AR眼镜所采用的多为单模态AI大模型，这使得产品的玩法相对单一，难以实现更复杂的多元信息处理能力。

AI在眼镜终端的进一步应用落地。所谓多模态AI，指的是能同时处理文本、图像、音视频、代码等多种信息的人工智能，它的信息处理方式更接近于人类的“所看、所听、所想”。近期谷歌所发布的Gemini正是多模态AI的代表之一，从演示视频澳大利亚 WhatsApp 号码数据中我们可以发现Gemini可以“理解”用户在纸上所画的内容，并能结合用户的对话交流给予相应的反馈。 Gemini演示视频（图源：谷歌）无独有偶，Meta也正在为Ray-Ban Meta引入多模态AI能力，去年年底扎克伯格展示了基于智能眼镜的一个服装搭配使用场景：当眼镜镜头对准衣服，AI不仅可以识别衬衫的样式，并且还能进一步给出相应的穿搭建议。

https://lh7-us.googleusercontent.com/u7nug2ZJAZa32EmwIAjwj4xdTqvrc9qJao03mnstViiXSFGx5B7rqRdeeWPAShLjjlAf8Q0jcUMV75KEujwJ8nr9l1kITI-r59avKl9ZYtlwo6C04qFZesQPXhGrMliPLMO1bK17d8mmJa43uo5Dy-A

在这么一个简单的场景中，其实需要调用自然语言处理、图片识别、推理等多种能力，这些都是单模态AI所难以实现的。可以预见，未来多模态AI将有望成为AR眼镜的标配，甚至我们可以进一步推测：AR眼镜产品的摄像头将会成为至关重要的模组之一，摄像头或许会在AR眼镜上率先落地，其优先级甚至会高于光学屏幕。图源：Meta 更强的生产力属性除智能手表、智能手机以外，AR眼镜同样是一个绝佳的随身携带可穿戴式设备。当前智能手机主要作为用户信息中枢、智能手表从中探索出来的核心应用场景是信息辅助以及健康检测。AR眼镜的杀手级应用无疑是“AI Agent”，因为它具备了与用户一样以第一视角感知、记录世界的能力（这些是其他设备所欠缺的）。

頁: [1]

z's Archiver

未来我们有望看到多模态