ImageBind是一种以视觉为核心的AI模型,可以理解和转换6种不同模态之间的数据。Meta展示了一些案例,比如听到狗叫可以画出一只狗,并给出深度图和文字描述;输入鸟的图像加海浪的声音可以得到鸟在海边的图像。
与之前只支持一个或两个模态且难以互动和检索的多模态AI模型相比,ImageBind具有突破性意义。它是第一个能够同时处理6种感官数据的AI模型,也是第一个在没有明确监督的情况下学习一个单一嵌入空间的AI模型。
ImageBind的核心方法是将所有模态的数据放入一个统一的联合嵌入空间,无需通过不同模态组合进行训练。利用近期的大型视觉语言模型,将视觉和其他模态扩展到新的联合嵌入空间。
对于那些原始数据中没有直接联系的模态,如语音和热量,ImageBind表现出了涌现能力,可以自动将它们联系起来。
有行业观察者将ImageBind与元宇宙联系在一起,为设计和体验身临其境的虚拟世界打开了大门。Meta的研究团队表示,未来还将加入触觉、语音、嗅觉和大脑功能磁共振信号,进一步探索多模态大模型的可能性。
同时,Meta表示ImageBind可以利用DINOv2的强大视觉功能进一步提高能力。DINOv2是Meta开源的计算机视觉预训练模型,与Meta的元宇宙愿景密不可分。Meta的CEO扎克伯格强调,DINOv2可以为元宇宙的建设提供强大支持,提升用户在元宇宙中的沉浸体验。
尽管ImageBind目前还只是研究项目,没有直接的消费者用户或实际应用,但随着模型的完善,AI应用场景将进一步扩展,元宇宙建设也将更加先进。
例如,当ImageBind融入虚拟现实设备时,使用者可以获得更沉浸式的体验,不仅可以感受游戏场景的温度,还能感知物理层面上的运动。
据国盛证券分析师刘高畅预测,随着多模态的发展,AI的泛化能力将提高,通用视觉、机械臂、物流搬运机器人、行业服务机器人和智能家居等将进入人们的生活。未来5-10年内,复杂多模态方案结合的大模型有望具备与世界交互的能力,在通用机器人和虚拟现实等领域得到应用。
来源:科创板日报 作者:科创板日报
对于元宇宙这一概念,相信“1000个人心中有1000个哈姆雷特”,谈到元宇宙,我们就要知道它的3个发展阶段。(1)数字孪生阶段:这个阶段简单来说,就是将现实世界,映射到虚拟世界中。(2)数字原生阶段:这个阶段,创作者本身...
据不完全统计,2021年,“数字人”融资事件合计20起,金额超20亿元。预计到2030年,我国虚拟人整体市场规模将达到2700亿元。“解构虚拟人的概念我们就会发现,它的核心在于身份和资产,”民生证券元宇宙首席分析师马天诣...
今年,虚拟货币被称为流年不利,多次暴跌暴涨。虚拟货币崩_虚拟数字货币交易流程_墨墨脱背崩乡背崩村图片虚拟货币是科技专家和资本大亨玩的游戏,成为炒作的载体,吸引投机者聚集。可以看出,缺乏模糊的监管空间,虚拟货币的技术标签和...
计算能力和数据是元宇宙和数字经济发展的基础,元宇宙和数字经济的发展需要5G基础上的“ABCD”,其中A是人工智能(Artificial Intelligence),B是区块链(Blockchain),C是云计算(Clou...