编者按:2023年是人工智能发展不平凡的一年,人们也见证了AI技术的跨越式的发展。基于Transformer 的大模型AI和通用机器人技术的创新颠覆性地推进了AI的前沿。特别是新一代AI技术涌现的能力和行为让人们对 AI 的应用前景在期待中也可能包含一些不安。从语言理解到机器人的操作,AI正逐渐渗透到我们生活的方方面面。近期,初创公司 coach.ai 和AI Frontiers技术论坛的创始人Junling Hu博士发表了“AI in 2023: A Review (2023 年人工智能回顾)”。文章梳理了2023年在人工智能领域的一些进展,突出了大型语言模型、机器人技术和大脑活动检测方面的创新。从GPT-4和Gemini的性能提升到机器人在家庭中的应用,再到基于大脑信号的实时图像重建,这些进步展示了新一代AI技术在不同领域的多样性和颠覆性。对于2024年,我们有理由期待对大模型AI的更深的了解以及真正杀手级应用的出现。如需转载,请联系我们(ID:15937102830)
2023年是人工智能的分水岭之年。首次,人工智能已进入公共领域,触及我们生活的各个方面。它开始取代搜索引擎,成为我们提问的首选之地。人工智能有望颠覆许多行业:从教育到营销,IT支持,再到医学。在这里,我想总结人工智能在七个主要领域的进展。它们绝对不是详尽无遗的,我选择这些领域是因为它们的重要性以及颠覆未来的潜力。如果您注意到其他有趣的发展,请随时在这里留下评论。
01
人工智能能力的突破
如今的人工智能系统可以轻松通过图灵测试,我们不再争论人工智能是否可行。如果在2023年之前人工智能被看作是一个幼儿,那么在2023年,它已经成熟为一个十几岁的青少年,尽管它还不是成年人。成年人的人工智能系统应该能够像人类成年人一样思考和推理,这意味着能够通过大学考试或完成类似困难的任务。在2023年,无论是GPT-4还是谷歌的Gemini都在朝着这个目标取得了重大进展。
GPT-4和Gemini都非常庞大。这是因为一个大型语言模型的大小越大,其智能性就越高。据估计,GPT-4拥有约1.8万亿参数,大约有120层,并在模型内使用专家混合。谷歌没有发布Gemini的大小,但它显然比PaLM 2大得多,后者有3400亿参数。根据Gemini的报告,训练Gemini需要的资源明显多于PaLM 2,可能是三倍之多。这使其在1万亿参数的范围内。Gemini的架构可能类似于GPT-4:一个仅解码的Transformer模型,带有专家混合。
如今的大型语言模型(LLMs)表现出色,这可从它们在一系列具有挑战性的数据集上的表现中看出。
在常识推理(HelloSwag)领域,GPT-4实现了95%的准确率,相当于人类表现。在小学数学(GSM8K)领域,两个大型语言模型(LLMs)都达到了约95%的准确率。在涵盖57个学科的大学考试(MMLU)中,两个LLMs的准确率都超过了90%,超过了人类表现(89%)。对于曾经导致LLMs遇到困难的问题(Big-bench-hard),GPT-4达到了89%的准确率,而Gemini达到了83%。看起来LLMs正在克服它们的缺点。在编码问题(HumanEval)中,GPT-4达到了88%的成功率。对于带有数学推理的阅读理解(DROP),两个LLMs的准确率都在83%左右。唯一一个这些LLMs表现不佳的领域是数学竞赛问题(MATH)。总的来说,我们的大型基础模型在7项任务中有3项超过了人类,另外3项接近人类表现,只有1项表现不佳。人工智能正逐渐接近具有人类成年智能的阶段。
对于2024年,我们可以预期大型基础模型性能的持续提高。到2024年底,我预计最好的LLMs将在几乎所有数据集上超过人类。届时,我们可能宣布人工智能已经达到成年阶段,具有与成年人相当的推理和理解能力。
开源基础模型
所有大型基础模型都是闭源的,由几家公司拥有。许多公司担心它们对这些模型的依赖,因为无法看到其内部运作情况。这一担忧导致了许多开源模型的出现。
Meta在2月份发布了Llama,而LIMA则在5月份发布。然而,与当时的OpenAI模型(当时是GPT 3.5)相比,它们大多数都没有达到令人满意的性能。
Meta的Llama 2和Mistral的Mixtral 8x7B模型是表现最佳的之一。它们引起了人们的兴奋,因为它们接近了GPT 3.5的水平。但它们仍然远远落后于GPT-4。以下是最新的性能图表:
平均而言,开源模型比最佳GPT-4模型低20%。这引发了有关部署开源模型的问题。这是因为商业产品要求高准确性。因此,大多数公司可能会坚持使用OpenAI或Google的基础模型,主要是因为它们提供高度准确的结果。因此,今年我们将看到OpenAI继续崛起,越来越多的公司将使用OpenAI API来支持其GPT-4产品。Google也将是这场竞争中的积极参与者,凭借其现有的GCP和性能出色的Gemini,Google可能成为企业的人工智能提供商。
我们尚未解决幻觉问题。实际上,如一些研究所示,幻觉可能是大型语言模型的固有属性。缓解幻觉的方法包括将答案限制在现有文件内,并使用外部搜索来检查答案的有效性。另一种方法是要求回应中进行”Chain of Thoughts”推理。研究人员发现这显著减少了错误答案。由于幻觉在许多实际应用中是一个大问题,我们预计在2024年将看到更多解决这个问题的研究。
02
多模态人工智能
另一个重大进展是多模态大型语言模型(LLMs)的成熟。Bard在7月份允许上传图像,使用户能够基于图像提出问题。OpenAI在2023年9月发布了GPT-4V,它能够理解文本、图像和语音。Google在2023年12月发布了Gemini,它可以同时处理文本、图像、音频和视频。现在我们拥有了完全多模态的大型语言模型,也被称为LMMs(大型多模态模型)。
2023年的新趋势是将所有这些模态整合到一个单一模型中。这样的模型以Transformer作为其核心架构,并将每种类型的输入转换为可以由Transformer处理的标记。我们不仅可以处理不同的模态,还可以从这样的模型中生成不同的模态。
多模态能力的实现是由于在所有人工智能领域广泛采用Transformer,使得能够使用统一的架构处理文本、图像、音频和视频。视觉Transformer和视频Transformer已被证明优于CNN模型,语音Transformer模型也优于基于CNN的语音识别模型。今天,我们只需要一个单一的Transformer模型来处理这些输入格式,唯一额外的工作是生成图像标记或语音标记。
最新的VideoPoet5是这种多模态处理和多模态生成模型的示范。VideoPoet使用一个仅解码的Transformer,处理多模态输入,包括图像、视频、文本和音频。
VideoPoet取得了最先进的零样本视频生成技术,并能够生成高保真度的视频。
03
生成式人工智能的爆炸
在2023年,利用人工智能生成图像、音乐和视频成为最大的进展。文本到图像的生成在图像质量和逼真度方面取得了显著的成就。以下是2023年主要的生成模型的概要。
对于图像生成,Meta在四月份发布了Segment Anything Model(SAM),能够对任何图片进行零样本分割。十月,OpenAI发布了Dall-E 3。它具有最佳的图像生成质量和深度语言理解。
在文本到视频生成方面,Meta于11月6日发布了Emu Video。该模型将视频生成简化为两个步骤,允许它从文本和图像生成一个4秒的视频。Emu Video胜过了所有先前的模型,包括MAV、Google的Imagen、AYL、PYOCO、R&D、Cog、Gen2和Pika。在人类评估中,Emu超过了所有这些其他模型,在90%以上的时间内被人们优先选择。
2023年最令人激动的成就发生在年底。AudioBox 7在十二月发布,使得人工智能能够基于文本生成任何声音。在此之前,Lyria 8也能够根据文本提示以艺术家风格生成任何音乐。
VideoPoet也于十二月发布,引领了一个新的视频生成范式,摒弃了扩散模型,并将其整合到大型语言模型(LLM)中。
Alphacode 2在与Gemini同时宣布。它以Gemini作为基础模型,在编码竞赛中的表现达到了85%,相比人类参与者。Magicoder也发布了,它是最好的开源代码生成器。
2023年标志着扩散模型的胜利,因为许多图像生成都是基于这个模型的,包括Emu Video。然而,扩散模型的替代方案也出现了。OpenAI的Dall-E 3采用了一种不依赖扩散模型的一致性模型9。Google的VideoPoet直接使用Transformer,也避免在图像生成中使用扩散模型。换句话说,这两家最大的人工智能公司正在摆脱扩散模型在图像生成中的应用。我的预测是,在2024年,扩散模型将会减弱。摆脱扩散模型的驱动力是追求使用单一Transformer模型执行所有任务。我们预计在2024年会看到更多关于Transformer生成图像的研究结果。
04
人工智能代理的崛起
在2023年,我们开始看到“代理”,一种能够代表我们采取行动的人工智能系统。这些行动可以包括发送电子邮件、呼叫餐厅、从数据库中检索信息或生成图表。一旦引入了行动,人工智能助手就可以变得更加强大。这个行动模型被无缝集成到大型语言模型(LLM)中;因此,它是可学习和可调整的。
代理的一个应用领域是数据分析。将来,分析数据将不再是人类的工作,而将被委托给人工智能。如果一位高管对客户趋势感兴趣,他们只需用自然语言提出问题,答案和图表将自动生成。无需数据科学家编写复杂的SQL代码来检索数据。这表明,文本到SQL和图表生成将是2024年的重要应用。还有其他访问数据库以满足客户需求的应用程序。
OpenAI通过提供Assistants API支持人工智能代理范式。它将您的代码链接到外部工具,使其具有潜在的强大功能。然而,助手需要大量上下文,并且每次将上下文附加到总标记使其非常昂贵。此外,将助手与其他工具集成并不容易。在2024年,人工智能助手仍然是一个开放的竞争领域。一个灵活的助手API和低成本的解决方案可能会很有吸引力。Langchain已经取得了很多进展,但并非完美之选。AutoGen似乎更容易使用。AutoGPT是一次不错的尝试,但在许多关键功能上仍有所欠缺。我们可能会看到部署良好的代理解决方案的新公司出现。这是初创创新可能发生的地方。
尽管OpenAI和Google在基础模型方面领先,但良好的提示工程和代理操作可能会产生许多有趣的应用。我们预计会看到一些专业化的代理,如旅行助手、研究助手、价格谈判代理等。每个助手都可以利用专业化工具,为客户提供价值。
05
改进LLMs的更好微调方法
ChatGPT的成功引起了对一种称为RLHF(强化学习与人类反馈)的方法的关注。这种方法极大地提升了原始的GPT-3模型,并导致了成功部署GPT-3.5,为ChatGPT提供支持。RLHF还用于增强GPT-4、谷歌的PaLM 2和Meta的Llama 2模型的性能。因此,它是当今LLMs最广泛使用的微调方法。
由于RLHF取得了如此成功,并且与所有基础模型一起使用,人们正在尝试找到改进它的方法。这通过简化RLHF步骤来实现。RLHF包括三个步骤:1. 监督微调:使用人工创建的数据对当前模型进行训练。2. 训练奖励模型。在这一步中,收集用户对AI生成输出的偏好,并为每个输出给出一个分数。然后,训练一个评分模型或奖励模型。3. 应用强化学习和奖励模型对大型语言模型进行训练。
DPO
对RLHF的一项改进是替换强化学习步骤。斯坦福大学的研究人员提出了一种称为DPO(Direct Preference Optimization)的方法10。与训练奖励模型然后学习强化学习模型不同,DPO直接使用偏好数据来训练LLM。因此,DPO将两个步骤(奖励函数学习和RL)简化为一个单一步骤。
作者表明,DPO优于强化学习方法。如今,DPO在从业者中已经得到了广泛应用,用于微调他们的模型。这一趋势将在2024年持续发展。
RLAIF
改进RLHF的另一种方法是消除数据收集的瓶颈。RLHF的关键步骤之一是收集人类反馈数据,通过雇佣人提供答案来获取这些数据是昂贵的。人类数据收集过程也很耗时。我们可以不依赖于人类,而是使用诸如GPT-4之类的LLM为我们提供反馈,以提高RLHF的效果。RLAIF(带有人工智能反馈的强化学习)11采用GPT-4生成偏好数据,他们证明RLAIF在促进模型方面具有与RLHF类似的效果。通过利用人工智能进行反馈,我们消除了与从人类那里收集数据相关的瓶颈。
似乎我们正在朝着使用人工智能生成评估数据的方向发展,不仅仅是偏好数据,还包括其他监督训练任务。
Week-to-Strong Alignment
第三个重要的发展是研究RLHF在未来是否仍然有用。有一个隐含的假设,即RLHF将始终提高模型的性能,因为人类更懂。然而,这个假设可能不再成立。在未来的一年(今年或明年),我们将看到人工智能进化成为超级智能。这意味着它将在几乎所有任务上击败人类,从写一封出色的电子邮件到解决数学问题。当我们强迫一个LLM符合人的写作或说话方式时,我们可能会降低LLM在其他任务中的表现。换句话说,使用RLHF进行训练可能会使LLM的能力减弱。这与经典的监督训练形成鲜明对比,其中人类始终更聪明。这种情况显示在下图的中间图中,其中一个人试图教授一个超级智能人工智能。
OpenAI的研究人员已经调查了这个问题,并首次尝试模拟这个问题12。他们使用一个弱LLM(GPT-2)来教一个强LLM(GPT-4),并确认了GPT-4的性能确实下降了。这表明RLHF在未来可能效果不佳。OpenAI的研究人员提出了通过添加辅助置信度损失来解决这个问题。这使得微调后的GPT-4的性能可以提高到GPT 3.5的水平,但仍然低于原始GPT-4的水平。这篇论文代表了首次尝试理解将弱模型应用于训练强模型的效果。他们将这种方法称为弱到强泛化,我们预计在2024年会看到OpenAI发布更多关于这方面的研究成果。
06
令人兴奋的机器人学发展
随着LLMs的不断成熟和更强大,人工智能的前沿已经从构建数字模型转向了物理模型。人工智能发展的下一个阶段将是在机器人领域。
2023年机器人技术的进展令人兴奋,尽管不及LLMs的发展迅猛。这主要是由于构建和测试物理组件所面临的固有挑战。该领域一个令人兴奋的成就是特斯拉Optimus 2,能够精确地拾取并放置鸡蛋而不破碎。这种精准的处理对于机器人进入家庭标志着重大突破。
另一个值得注意的突破是基于Transformer的机器人架构RT-2 13。它引入了一个视觉-语言-动作模型,将机器人的动作编码为Transformer可以处理的标记。Transformer可以生成这样的动作标记,以便机器人相应地采取行动。该架构如下:
transformer模型可以接受文本和图像作为输入,然后生成相应的动作。这种架构将使今天的机器人能够使用LLM作为其核心模型。这样的机器人除了移动和抓取外,还可以具备听觉、视觉和语言能力。
在十月,谷歌研究人员发布了Open X-Embodiment数据集14。通过21个机构的合作,从22个不同的机器人中收集而来,包含527种技能。该数据集可以帮助机器人快速启动学习,并利用其他技能中的“预训练”来提高它们的性能。因此,它将加速机器人学的发展。
07
检测大脑活动
当我们测量一个人的大脑信号时,我们是否真的能够检测到这个人在听到或看到什么?2023年的另一个令人震惊的成就涉及基于由MEG记录的脑信号的实时图像重建15。它达到的准确度水平真的令人惊讶。
看起来我们不仅可以从大脑信号中恢复正确的形状和颜色,还可以恢复非常具体的细节。这项工作由Meta的研究人员进行,建立在先前从大脑信号中检测语音和从fMRI记录中进行图像重建的工作基础之上。
在不久的将来,我们可能能够将这些技术应用于一个人在睡觉时,并监测他们的梦境。有一天,我们是否能够将一个人的梦想投影到像电影一样的大屏幕上?图像恢复方面的研究预计将在2024年继续,可能会取得更好的性能。
想要了解更多,欢迎入群交流!
权益福利:
1、AI 行业、生态和政策等前沿资讯解析;
2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流(社群邀请人数已达上限,可先加小编微信:15937102830)
关于MoPaaS魔泊云
源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务;特别是针对企业应用场景,提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。
END
▼ 往期精选 ▼
▼点击下方“阅读原文”!