2023 年人工智能回顾

1,354次阅读

2023 年人工智能回顾

编者按：2023年是人工智能发展不平凡的一年，人们也见证了AI 技术的跨越式的发展。基于Transformer 的大模型AI和通用机器人技术的创新颠覆性地推进了AI的前沿。特别是新一代AI技术涌现的能力和行为让人们对 AI 的应用前景在期待中也可能包含一些不安。从语言理解到机器人的操作，AI正逐渐渗透到我们生活的方方面面。近期，初创公司 coach.ai 和AI Frontiers技术论坛的创始人Junling Hu博士发表了“AI in 2023: A Review (2023 年人工智能回顾)”。文章梳理了2023年在人工智能领域的一些进展，突出了大型语言模型、机器人技术和大脑活动检测方面的创新。从GPT-4和Gemini的性能提升到机器人在家庭中的应用，再到基于大脑信号的实时图像重建，这些进步展示了新一代AI技术在不同领域的多样性和颠覆性。对于2024年，我们有理由期待对大模型AI的更深的了解以及真正杀手级应用的出现。如需转载，请联系我们（ID：15937102830）

2023 年人工智能回顾

2023年是人工智能的分水岭之年。首次，人工智能已进入公共领域，触及我们生活的各个方面。它开始取代搜索引擎，成为我们提问的首选之地。人工智能有望颠覆许多行业：从教育到营销，IT支持，再到医学。在这里，我想总结人工智能在七个主要领域的进展。它们绝对不是详尽无遗的，我选择这些领域是因为它们的重要性以及颠覆未来的潜力。如果您注意到其他有趣的发展，请随时在这里留下评论。

01

人工智能能力的突破

如今的人工智能系统可以轻松通过图灵测试，我们不再争论人工智能是否可行。如果在2023年之前人工智能被看作是一个幼儿，那么在2023年，它已经成熟为一个十几岁的青少年，尽管它还不是成年人。成年人的人工智能系统应该能够像人类成年人一样思考和推理，这意味着能够通过大学考试或完成类似困难的任务。在2023年，无论是GPT-4还是谷歌的Gemini都在朝着这个目标取得了重大进展。

GPT-4和Gemini都非常庞大。这是因为一个大型语言模型的大小越大，其智能性就越高。据估计，GPT-4拥有约1.8万亿参数，大约有120层，并在模型内使用专家混合。谷歌没有发布Gemini的大小，但它显然比PaLM 2大得多，后者有3400亿参数。根据Gemini的报告，训练Gemini需要的资源明显多于PaLM 2，可能是三倍之多。这使其在1万亿参数的范围内。Gemini的架构可能类似于GPT-4：一个仅解码的Transformer模型，带有专家混合。

如今的大型语言模型（LLMs）表现出色，这可从它们在一系列具有挑战性的数据集上的表现中看出。

2023 年人工智能回顾

在常识推理（HelloSwag）领域，GPT-4实现了95%的准确率，相当于人类表现。在小学数学（GSM8K）领域，两个大型语言模型（LLMs）都达到了约95%的准确率。在涵盖57个学科的大学考试（MMLU）中，两个LLMs的准确率都超过了90%，超过了人类表现（89%）。对于曾经导致LLMs遇到困难的问题（Big-bench-hard），GPT-4达到了89%的准确率，而Gemini达到了83%。看起来LLMs正在克服它们的缺点。在编码问题（HumanEval）中，GPT-4达到了88%的成功率。对于带有数学推理的阅读理解（DROP），两个LLMs的准确率都在83%左右。唯一一个这些LLMs表现不佳的领域是数学竞赛问题（MATH）。总的来说，我们的大型基础模型在7项任务中有3项超过了人类，另外3项接近人类表现，只有1项表现不佳。人工智能正逐渐接近具有人类成年智能的阶段。

对于2024年，我们可以预期大型基础模型性能的持续提高。到2024年底，我预计最好的LLMs将在几乎所有数据集上超过人类。届时，我们可能宣布人工智能已经达到成年阶段，具有与成年人相当的推理和理解能力。

开源基础模型

所有大型基础模型都是闭源的，由几家公司拥有。许多公司担心它们对这些模型的依赖，因为无法看到其内部运作情况。这一担忧导致了许多开源模型的出现。

2023 年人工智能回顾

Meta在2月份发布了Llama，而LIMA则在5月份发布。然而，与当时的OpenAI模型（当时是GPT 3.5）相比，它们大多数都没有达到令人满意的性能。

Meta的Llama 2和Mistral的Mixtral 8x7B模型是表现最佳的之一。它们引起了人们的兴奋，因为它们接近了GPT 3.5的水平。但它们仍然远远落后于GPT-4。以下是最新的性能图表：

2023 年人工智能回顾

平均而言，开源模型比最佳GPT-4模型低20%。这引发了有关部署开源模型的问题。这是因为商业产品要求高准确性。因此，大多数公司可能会坚持使用OpenAI或Google的基础模型，主要是因为它们提供高度准确的结果。因此，今年我们将看到OpenAI继续崛起，越来越多的公司将使用OpenAI API来支持其GPT-4产品。Google也将是这场竞争中的积极参与者，凭借其现有的GCP和性能出色的Gemini，Google可能成为企业的人工智能提供商。

我们尚未解决幻觉问题。实际上，如一些研究所示，幻觉可能是大型语言模型的固有属性。缓解幻觉的方法包括将答案限制在现有文件内，并使用外部搜索来检查答案的有效性。另一种方法是要求回应中进行”Chain of Thoughts”推理。研究人员发现这显著减少了错误答案。由于幻觉在许多实际应用中是一个大问题，我们预计在2024年将看到更多解决这个问题的研究。

02

多模态人工智能

另一个重大进展是多模态大型语言模型（LLMs）的成熟。Bard在7月份允许上传图像，使用户能够基于图像提出问题。OpenAI在2023年9月发布了GPT-4V，它能够理解文本、图像和语音。Google在2023年12月发布了Gemini，它可以同时处理文本、图像、音频和视频。现在我们拥有了完全多模态的大型语言模型，也被称为LMMs（大型多模态模型）。

2023 年人工智能回顾

2023年的新趋势是将所有这些模态整合到一个单一模型中。这样的模型以Transformer作为其核心架构，并将每种类型的输入转换为可以由Transformer处理的标记。我们不仅可以处理不同的模态，还可以从这样的模型中生成不同的模态。

多模态能力的实现是由于在所有人工智能领域广泛采用Transformer，使得能够使用统一的架构处理文本、图像、音频和视频。视觉Transformer和视频Transformer已被证明优于CNN模型，语音Transformer模型也优于基于CNN的语音识别模型。今天，我们只需要一个单一的Transformer模型来处理这些输入格式，唯一额外的工作是生成图像标记或语音标记。

最新的VideoPoet5是这种多模态处理和多模态生成模型的示范。VideoPoet使用一个仅解码的Transformer，处理多模态输入，包括图像、视频、文本和音频。

2023 年人工智能回顾

VideoPoet取得了最先进的零样本视频生成技术，并能够生成高保真度的视频。

03

生成式人工智能的爆炸

在2023年，利用人工智能生成图像、音乐和视频成为最大的进展。文本到图像的生成在图像质量和逼真度方面取得了显著的成就。以下是2023年主要的生成模型的概要。

2023 年人工智能回顾

对于图像生成，Meta在四月份发布了Segment Anything Model（SAM），能够对任何图片进行零样本分割。十月，OpenAI发布了Dall-E 3。它具有最佳的图像生成质量和深度语言理解。

在文本到视频生成方面，Meta于11月6日发布了Emu Video。该模型将视频生成简化为两个步骤，允许它从文本和图像生成一个4秒的视频。Emu Video胜过了所有先前的模型，包括MAV、Google的Imagen、AYL、PYOCO、R&D、Cog、Gen2和Pika。在人类评估中，Emu超过了所有这些其他模型，在90%以上的时间内被人们优先选择。

2023年最令人激动的成就发生在年底。AudioBox 7在十二月发布，使得人工智能能够基于文本生成任何声音。在此之前，Lyria 8也能够根据文本提示以艺术家风格生成任何音乐。

VideoPoet也于十二月发布，引领了一个新的视频生成范式，摒弃了扩散模型，并将其整合到大型语言模型（LLM）中。

Alphacode 2在与Gemini同时宣布。它以Gemini作为基础模型，在编码竞赛中的表现达到了85%，相比人类参与者。Magicoder也发布了，它是最好的开源代码生成器。

2023年标志着扩散模型的胜利，因为许多图像生成都是基于这个模型的，包括Emu Video。然而，扩散模型的替代方案也出现了。OpenAI的Dall-E 3采用了一种不依赖扩散模型的一致性模型9。Google的VideoPoet直接使用Transformer，也避免在图像生成中使用扩散模型。换句话说，这两家最大的人工智能公司正在摆脱扩散模型在图像生成中的应用。我的预测是，在2024年，扩散模型将会减弱。摆脱扩散模型的驱动力是追求使用单一Transformer模型执行所有任务。我们预计在2024年会看到更多关于Transformer生成图像的研究结果。

04

人工智能代理的崛起

在2023年，我们开始看到“代理”，一种能够代表我们采取行动的人工智能系统。这些行动可以包括发送电子邮件、呼叫餐厅、从数据库中检索信息或生成图表。一旦引入了行动，人工智能助手就可以变得更加强大。这个行动模型被无缝集成到大型语言模型（LLM）中；因此，它是可学习和可调整的。

代理的一个应用领域是数据分析。将来，分析数据将不再是人类的工作，而将被委托给人工智能。如果一位高管对客户趋势感兴趣，他们只需用自然语言提出问题，答案和图表将自动生成。无需数据科学家编写复杂的SQL代码来检索数据。这表明，文本到SQL和图表生成将是2024年的重要应用。还有其他访问数据库以满足客户需求的应用程序。

OpenAI通过提供Assistants API支持人工智能代理范式。它将您的代码链接到外部工具，使其具有潜在的强大功能。然而，助手需要大量上下文，并且每次将上下文附加到总标记使其非常昂贵。此外，将助手与其他工具集成并不容易。在2024年，人工智能助手仍然是一个开放的竞争领域。一个灵活的助手API和低成本的解决方案可能会很有吸引力。Langchain已经取得了很多进展，但并非完美之选。AutoGen似乎更容易使用。AutoGPT是一次不错的尝试，但在许多关键功能上仍有所欠缺。我们可能会看到部署良好的代理解决方案的新公司出现。这是初创创新可能发生的地方。

尽管OpenAI和Google在基础模型方面领先，但良好的提示工程和代理操作可能会产生许多有趣的应用。我们预计会看到一些专业化的代理，如旅行助手、研究助手、价格谈判代理等。每个助手都可以利用专业化工具，为客户提供价值。

05

改进LLMs的更好微调方法

ChatGPT的成功引起了对一种称为RLHF（强化学习与人类反馈）的方法的关注。这种方法极大地提升了原始的GPT-3模型，并导致了成功部署GPT-3.5，为ChatGPT提供支持。RLHF还用于增强GPT-4、谷歌的PaLM 2和Meta的Llama 2模型的性能。因此，它是当今LLMs最广泛使用的微调方法。

由于RLHF取得了如此成功，并且与所有基础模型一起使用，人们正在尝试找到改进它的方法。这通过简化RLHF步骤来实现。RLHF包括三个步骤：1. 监督微调：使用人工创建的数据对当前模型进行训练。2. 训练奖励模型。在这一步中，收集用户对AI生成输出的偏好，并为每个输出给出一个分数。然后，训练一个评分模型或奖励模型。3. 应用强化学习和奖励模型对大型语言模型进行训练。

DPO

2023 年人工智能回顾

对RLHF的一项改进是替换强化学习步骤。斯坦福大学的研究人员提出了一种称为DPO（Direct Preference Optimization）的方法10。与训练奖励模型然后学习强化学习模型不同，DPO直接使用偏好数据来训练LLM。因此，DPO将两个步骤（奖励函数学习和RL）简化为一个单一步骤。

作者表明，DPO优于强化学习方法。如今，DPO在从业者中已经得到了广泛应用，用于微调他们的模型。这一趋势将在2024年持续发展。

RLAIF

改进RLHF的另一种方法是消除数据收集的瓶颈。RLHF的关键步骤之一是收集人类反馈数据，通过雇佣人提供答案来获取这些数据是昂贵的。人类数据收集过程也很耗时。我们可以不依赖于人类，而是使用诸如GPT-4之类的LLM为我们提供反馈，以提高RLHF的效果。RLAIF（带有人工智能反馈的强化学习）11采用GPT-4生成偏好数据，他们证明RLAIF在促进模型方面具有与RLHF类似的效果。通过利用人工智能进行反馈，我们消除了与从人类那里收集数据相关的瓶颈。

2023 年人工智能回顾

似乎我们正在朝着使用人工智能生成评估数据的方向发展，不仅仅是偏好数据，还包括其他监督训练任务。

Week-to-Strong Alignment

第三个重要的发展是研究RLHF在未来是否仍然有用。有一个隐含的假设，即RLHF将始终提高模型的性能，因为人类更懂。然而，这个假设可能不再成立。在未来的一年（今年或明年），我们将看到人工智能进化成为超级智能。这意味着它将在几乎所有任务上击败人类，从写一封出色的电子邮件到解决数学问题。当我们强迫一个LLM符合人的写作或说话方式时，我们可能会降低LLM在其他任务中的表现。换句话说，使用RLHF进行训练可能会使LLM的能力减弱。这与经典的监督训练形成鲜明对比，其中人类始终更聪明。这种情况显示在下图的中间图中，其中一个人试图教授一个超级智能人工智能。

2023 年人工智能回顾

OpenAI的研究人员已经调查了这个问题，并首次尝试模拟这个问题12。他们使用一个弱LLM（GPT-2）来教一个强LLM（GPT-4），并确认了GPT-4的性能确实下降了。这表明RLHF在未来可能效果不佳。OpenAI的研究人员提出了通过添加辅助置信度损失来解决这个问题。这使得微调后的GPT-4的性能可以提高到GPT 3.5的水平，但仍然低于原始GPT-4的水平。这篇论文代表了首次尝试理解将弱模型应用于训练强模型的效果。他们将这种方法称为弱到强泛化，我们预计在2024年会看到OpenAI发布更多关于这方面的研究成果。

06

令人兴奋的机器人学发展

随着LLMs的不断成熟和更强大，人工智能的前沿已经从构建数字模型转向了物理模型。人工智能发展的下一个阶段将是在机器人领域。

2023 年人工智能回顾

2023年机器人技术的进展令人兴奋，尽管不及LLMs的发展迅猛。这主要是由于构建和测试物理组件所面临的固有挑战。该领域一个令人兴奋的成就是特斯拉Optimus 2，能够精确地拾取并放置鸡蛋而不破碎。这种精准的处理对于机器人进入家庭标志着重大突破。

另一个值得注意的突破是基于Transformer的机器人架构RT-2 13。它引入了一个视觉-语言-动作模型，将机器人的动作编码为Transformer可以处理的标记。Transformer可以生成这样的动作标记，以便机器人相应地采取行动。该架构如下：

2023 年人工智能回顾

transformer模型可以接受文本和图像作为输入，然后生成相应的动作。这种架构将使今天的机器人能够使用LLM作为其核心模型。这样的机器人除了移动和抓取外，还可以具备听觉、视觉和语言能力。

在十月，谷歌研究人员发布了Open X-Embodiment数据集14。通过21个机构的合作，从22个不同的机器人中收集而来，包含527种技能。该数据集可以帮助机器人快速启动学习，并利用其他技能中的“预训练”来提高它们的性能。因此，它将加速机器人学的发展。

07

检测大脑活动

当我们测量一个人的大脑信号时，我们是否真的能够检测到这个人在听到或看到什么？2023年的另一个令人震惊的成就涉及基于由MEG记录的脑信号的实时图像重建15。它达到的准确度水平真的令人惊讶。

2023 年人工智能回顾

看起来我们不仅可以从大脑信号中恢复正确的形状和颜色，还可以恢复非常具体的细节。这项工作由Meta的研究人员进行，建立在先前从大脑信号中检测语音和从fMRI记录中进行图像重建的工作基础之上。

在不久的将来，我们可能能够将这些技术应用于一个人在睡觉时，并监测他们的梦境。有一天，我们是否能够将一个人的梦想投影到像电影一样的大屏幕上？图像恢复方面的研究预计将在2024年继续，可能会取得更好的性能。

2023 年人工智能回顾

想要了解更多，欢迎入群交流！

权益福利：

1、AI 行业、生态和政策等前沿资讯解析；

2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流（社群邀请人数已达上限，可先加小编微信：15937102830）

2023 年人工智能回顾

关于MoPaaS魔泊云

源于硅谷、扎根中国，上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商，为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求，基于自主的智能云平台专利技术，MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务；特别是针对企业应用场景，提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。

2023 年人工智能回顾