MetaAI 10周年,推出Ego-Exo4D、无缝沟通和Audiobox

760次阅读
没有评论

为庆祝Meta的基础人工智能研究(FAIR)团队成立10周年,该公司推出了三个全新的研究项目:Ego-Exo4D、无缝沟通和Audiobox。

Ego-Exo4D数据集

新一代音频生成模型Audiobox

SeamlessM4T多模态翻译模型无缝沟通

MetaAI 10周年,推出Ego-Exo4D、无缝沟通和Audiobox

我们正在庆祝Meta的基础人工智能研究(FAIR)团队成立10周年——这是通过开放研究推进人工智能最先进的十年。在过去的10年里,人工智能领域经历了深刻的转变,通过这一切,FAIR成为许多人工智能研究突破的来源,也是以开放和负责任的方式进行研究的灯塔。

六年前,FAIR对责任、开放和卓越的奉献首次吸引了我来到这里。像许多其他人一样,我承诺在尊重和正直的文化中与世界上最好的研究人员合作,并雄心勃勃地进行人工智能研究,使世界变得更美好。我从未回头。当然,我不是第一个在这里的人——梅塔的一些人在我之前。

过去的十年

FAIR的推出可以追溯到2013年底。在那些日子里,和今天一样,对人工智能人才的竞争非常激烈。马克·扎克伯格亲自前往NeurIPS会议,说服研究人员加入这个新的研究组织。他们与副总裁兼首席人工智能科学家Yann LeCun合作,组建了一个由新兴深度学习领域一些最有才华的研究人员组成的团队。多年来,数百名杰出人士进行了具有深远影响的前沿研究,加入了这一努力,使我们能够在人工智能中许多最棘手的问题上取得进展。

看到十年的进步是什么样子令人着迷。例如,考虑物体检测领域发生了什么。就在10多年前,神经网络首次能够通过AlexNet识别图像中的数千个物体。更快的R-CNN在2015年为我们带来了实时对象检测,随后在2017年使用Mask R-CNN进行了对象实例分割,2019年通过泛光特征金字塔网络(FPN)实现了统一架构和语义分割。在短短七年的时间里,FAIR为人工智能最根本的问题之一取得了巨大进展。在2023年,我们实际上可以分割任何东西。这些时刻都直接导致Meta的同事以及世界各地的人们创建的几个下游应用程序和产品发生了一步的变化。

我们在人工智能的许多其他问题上看到了类似的轨迹。另一个很好的例子是我们过去五年的机器翻译工作,我们是最早开创无监督机器翻译技术的人之一,这使我们能够在不依赖英语的情况下引入100种语言的翻译模型。这直接导致了我们的“不让语言掉队”的突破,以及最近将文本转语音和语音转文本技术扩展到1000多种语言。为了实现这些结果,我们在自己的研究团队、更广泛的研究社区(共享数据集、任务和竞争)、部署该技术为世界各地数十亿人服务的Meta的产品团队以及维基百科等可以从该技术中受益以增强自身服务的外部合作伙伴之间不断的思想流动。

回想起来,很容易确定通过时间考验的贡献。但在旅程的早期,总是有更多的不确定性。对于每一次突破,都有数百个想法被探索,但没有成功。我上面描述的时间线被简化为几张快照,但现实是,研究的进展要密集得多,更混乱。成功的研究需要接受这种不确定性,承担经过计算的风险,并利用我们的经验和直觉来追求最有前途的假设。这需要远见、直觉、严谨、耐心、资源和扎实的团队合作!

就研究影响而言,今年对FAIR来说是一个非凡的一年。我们以Llama的发布开启了这一年,这是一个开放的预训练的大型语言模型。随后又发布了其他几个版本,将最先进的技术推向了我们所能想象的。我们的工作和研究人员在ACL、ICRA、ICML和ICCV等多个会议上获得了最佳论文奖,涵盖了人工智能研究的大多数子领域。我们的工作被世界各地的新闻媒体报道,并在社交媒体平台上转发了数百万次。所有Meta都依靠我们推出Llama 2的开源策略。在Connect,我们推出了新的人工智能产品和经验,这些产品和经验现在掌握在数百万人手中——这是早期研究的高潮,当时被Meta的生成人工智能和产品团队放大。

今天,我们宣布了跨越音频生成、翻译和多模态感知的新模型、数据集和更新。Audiobox的继任者,通过统一语音、声音效果和音景的生成和编辑能力,包括自然语言提示等各种输入机制,正在推进音频生成人工智能。在我们与SeamlessM4T合作的基础上,Seamless引入了一套保留表达和改善流媒体的人工智能语言翻译模型。Ego-Exo4D通过包含自我和外中心观点的基本数据集和基准套件扩展了我们在自我中心感知方面的工作。虽然以自我为中心的视角显示了参与者的观点,但外中心的观点揭示了周围的场景和背景。这两种观点共同为人工智能模型提供了进入复杂人类技能的新窗口。

Meta具有独特的准备来解决人工智能的最大问题——没有多少公司拥有资源或能力对软件、硬件和基础设施进行投资,将我们从研究中学到的知识编织成数十亿人可以从中受益的产品。FAIR是Meta成功的关键部分,也是世界上仅有的拥有实现真正突破的所有先决条件的团体之一:业内一些最聪明的人,开放的文化,最重要的是:进行探索性研究的自由。这种自由帮助我们保持敏捷,并为建设社会联系的未来做出贡献。

未来

虽然过去十年人工智能的大部分进展是通过分裂和征服方法实现的,将问题分解为单独的明确任务,但在未来十年,我们越来越多地寻找将拼图拼凑在一起以推进人工智能的方法。基金会模型的崛起只是其开始:具有日益普遍能力的大型模型,我们可以灵活地适应我们的特定需求和价值观。可用于推理和计划的世界模型将变得越来越普遍,使我们能够克服当前人工智能模型的局限性。我们预计未来将以跨平台部署的大量多样化人工智能,而不是单一的人工智能,这将改变我们的工作方式、游戏方式、连接方式、创造方式和生活方式。

追求这条道路还需要我们深刻了解如何从头到尾负责任地构建人工智能模型。我们仍然致力于安全负责任地完成这项工作。我们对开放科学的承诺是其中的关键部分,并将继续成为FAIR DNA的一部分。当我们旨在公开分享我们的工作时,无论是我们的论文、代码、模型、演示还是负责任的使用指南,它有助于我们设定质量和责任的最高标准,这是我们帮助社区构建更好的人工智能解决方案的最佳方式。这也直接帮助Meta构建更安全、更强大、公平和透明的人工智能解决方案,并且可以使世界各地使用我们产品的许多不同的人受益。

MetaAI 10周年,推出Ego-Exo4D、无缝沟通和Audiobox

Ego-Exo4D是一个旨在支持视频学习和多模态感知的人工智能研究的数据集和基准。该数据集由Meta的FAIR团队、Project Aria以及来自世界各地的15所大学合作伙伴在两年内共同收集。Ego-Exo4D捕捉了参与者佩戴Project Aria头戴式耳机的摄像机的“自我中心”视角和周围摄像机的“外部中心”视角。

该数据集的重点是复杂的人类活动,如体育、音乐、烹饪、舞蹈和自行车维修。

Meta认为,这一技术在增强现实(AR)系统中具有广泛的应用前景。例如,一个佩戴智能头戴设备的人可以在虚拟AI导师的指导下通过教学视频快速学习新技能;在机器人学习领域,一个观察周围人类活动的机器人可以在较少的物理经验下学习新的处理技能;或者在社交网络中,人们分享知识和互补技能的视频可以促使新的社群形成。

这个超过1,400小时的视频数据集将于12月作为开源项目发布,明年计划举行Ego-Exo4D的公开基准竞赛。

无缝沟通项目旨在实现更自然、更真实的跨语言交流

在今年8月,无缝沟通项目推出了SeamlessM4T多模态翻译模型,现在FAIR团队又推出了一系列基于这一模型的新AI研究模型,以进一步促进跨语言界限的自然、真实的交流。

该项目包括四个模型:

– SeamlessExpressive:保留了语言边界跨越的表达和细微差别。

– SeamlessStreaming:以大约两秒的延迟传递语音和文本翻译。

– SeamlessM4T v2:一个多语言和多任务模型,可轻松进行语音和文本通信。

– Seamless:将SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2的功能集合到一个模型中。

Meta还发布了SeamlessExpressive的演示,您可以在其中体验声音翻译的效果。

Audiobox是Meta的新一代音频生成模型

它能够通过结合声音输入和自然语言文本提示来生成声音和音效,从而更容易为各种用途创建定制音频文件。

与其前身Voicebox相比,Audiobox通过允许用户使用自然语言提示来创建所需的声音或语音类型,提供了更强的可控性。

Meta表示,最初将向一组特选的研究人员和学术机构提供该模型,以推动音频生成研究的最新技术,并确保人工智能的负责任开发。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy