导语
本周是人工智能与数学读书会的第一次分享,将由何杨辉院士和陈小杨研究员主讲。何杨辉院士将介绍人工智能以三种方式接近数学的相关成果;陈小杨研究员将探讨符号回归、强化学习构造反例等在数学研究中的应用,讨论数学与人工智能深度融合的可能性。
为了探索数学与人工智能深度融合的可能性,集智俱乐部联合同济大学特聘研究员陈小杨、清华大学交叉信息学院助理教授袁洋、南洋理工大学副教授夏克林三位老师,共同发起“人工智能与数学”读书会,希望从 AI for Math,Math for AI 两个方面深入探讨人工智能与数学的密切联系。本读书会是“AI+Science”主题读书会的第三季。读书会自9月15日开始,每周五晚20:00-22:00,预计持续时间8~10周。欢迎感兴趣的朋友报名参与!
分享内容简介
本次分享主要介绍使用范畴论刻画大模型的能力边界。首先,我们思考一个有趣的问题:假如我们有无穷多的数据,无穷大的计算能力,无穷大的模型,完美的训练算法与优化保证,那么这个模型是不是可以用来解决所有任务?这个问题不能够被已有的表达能力、优化或者泛化理论回答,因为这些理论研究的对象在这个问题中不存在了。在本次分享中,我们会看到作为现代数学的基本语言,范畴论如何用于回答这一问题。更加一般的,这一结果并不总是需要“无穷多数据”或者“无穷大算力”等极端假设:对于任何现代使用的预训练大模型,它都是成立的。
此次分享主要讲解的文章是:On the power of foundation models. 本文核心贡献是将范畴论的米田引理与预训练任务构建起了联系。
分享内容大纲
-
范畴论简介:范畴、关系、函子、预层,米田嵌入与米田引理
-
米田嵌入于预训练模型的关系
-
三个范畴论定理
-
监督学习的范畴论框架
-
理想基础模型的概念
- 大模型的创造力
主要涉及到的知识概念
大语言模型 Large Language Model
范畴 Category函子 Functor预层 Presheaf米田嵌入 Yoneda Embedding米田引理 Yoneda Lemma
主讲人介绍
袁洋,清华大学交叉信息学院助理教授。2012年毕业于北京大学计算机系,2018年获得美国康奈尔大学计算机博士学位,师从Robert Kleinberg教授。在博士期间,于2014年-2015年前往微软新英格兰研究院做访问学生,并于2016年秋季前往美国普林斯顿大学做访问学生。2018-2019年前往麻省理工学院大数据科学学院(MIFODS)做博士后。袁洋的主要研究方向是智能医疗、AI基础理论、应用范畴论。
主要涉及到的参考文献
主要涉及到的参考文献
• 预训练大模型的能力边界:Yuan, Yang. “On the Power of Foundation Models.” Proceedings of the 40th International Conference on Machine Learning. Ed. Andreas, Krause, et al.s.: PMLR, 2023. 推荐语:本文使用范畴论,对预训练大模型的能力边界进行了理论刻画。
参看文章:《大模型的能力边界在哪里?来自范畴论视角的答案》 • Kashiwara, Masaki, and Pierre Schapira. Categories and Sheaves. Springer Berlin, Heidelberg, 2006. 推荐语:范畴论教科书,难度较大。 • Riehl, Emily. Category Theory in Context. Courier Dover Publications, 2017. Print. 推荐语:范畴论教科书,比较适合初学者。 • Radford, Alec, et al. “Improving Language Understanding by Generative Pre-Training.” (2018). 推荐语:预测下一个词的GPT算法。 • Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” International conference on machine learning. PMLR, 2020. 推荐语:预测相似图对的SimCLR算法,对于图像分类任务非常有效。 • He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. 推荐语:基于遮挡预测的MAE算法,在各类图像下游任务中都有很好的表现。
• Gidaris, Spyros, Praveer Singh, and Nikos Komodakis. “Unsupervised Representation Learning by Predicting Image Rotations.” arXiv preprint arXiv:1803.07728 (2018). 推荐语:基于旋转预测的算法,是非常简单而且早期的预训练算法。
本次分享与读书会主题之间的关系
• 与读书会之间的关系:范畴论为构建更抽象、通用的模型框架提供基础,帮助我们从更宏观的角度理解网络结构和操作。对比学习借助数学的距离度量和相似性概念,使模型能更准确地捕捉数据的关系。控制理论为优化算法提供指导,从微分方程到最优控制方法,有助于在参数空间中寻找最佳解。这些数学概念在大模型与神经网络的设计、训练和优化中发挥着不可或缺的作用,推动了人工智能领域的前沿研究和应用。
• 与复杂系统之间的关系:与已有的机器学习理论不同,大模型基础理论并不关注具体的优化算法或其泛化表现,而尝试分析模型训练的理想目标是什么。通过分析理想情况得到的理论虽然简单抽象,但却能描绘各种模型各种数据下的共性,进而帮助人们设计出更好的算法,或者对模型表现有更深刻的理解。这和物理学的思维方式非常类似:物理学家会考虑在真空中或者无摩擦的情况下的事物与现象,哪怕这些假设在现实中并不完美成立。对于复杂科学来说,这个思路也应该是一个很好的切入口。
直播信息
时间:2023年9月22日(本周五)晚上20:00-22:00
参与方式:扫码参与人工智能与数学读书会,加入群聊,获取系列读书会回看权限,成为AI+Science社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动AI+Science社区的发展。
人工智能与数学读书会启动
人工智能与数学读书会主要围绕AI for math,math for AI两个方面深入探讨人工智能与数学的密切联系。首先,我们将概述人工智能在数学的应用,并深入探讨大模型与数学推理,定理自动证明, AI发现数学规律,符号计算等方向的研究工作。随后,我们将转向大模型与神经网络的数学基础。最后,我们将深入探讨几何与拓扑在机器学习的应用。人工智能与数学读书会自2023年9月15日开始,每周五晚上20:00-22:00举办,持续时间预计 8 周。欢迎对本话题感兴趣的朋友报名参加!
详情请见:
人工智能与数学读书会启动:AI for Math,Math for AI
点击“阅读原文”,报名读书会