新人新语 | 王若松:构建现代机器学习的理论基础

1,429次阅读
没有评论

新人新语 | 王若松:构建现代机器学习的理论基础

关键词机器学习理论

编者按

2024年初,前沿计算研究中心迎来了一位新体制助理教授:王若松。他的研究方向是机器学习与理论计算机科学的结合:机器学习理论。

新人新语 | 王若松:构建现代机器学习的理论基础

王若松,于2017年在清华大学交叉信息研究院获学士学位,于2022年在卡内基梅隆大学获博士学位,之后在华盛顿大学计算机科学与工程学院担任博士后研究员。2024年1月加入北京大学前沿计算研究中心,任助理教授。他的研究兴趣是机器学习理论,目前的主要研究方向为:1)设计有理论保证的强化学习算法,2)证明强化学习问题的采样复杂度下界,3)在理论研究的基础上,设计更高效、更鲁棒的强化学习系统和更合理的强化学习算法评估框架。

可否介绍一下你的研究方向?

王若松:我的主要研究方向是机器学习理论,目前专注于为现代机器学习算法提供理论基础。近些年,机器学习在各种应用中取得了良好的效果。然而,此前对机器学习的理论研究大大落后于实践应用,而我的研究目的则是缩小机器学习理论与实践间的差距

我的一个代表性研究方向是强化学习理论。强化学习是目前最常用于建模序列决策问题的数学框架。现有的强化学习理论结果大多在上个世纪提出,面对现代强化学习应用,这些理论结果存在局限性。首先,传统的强化学习理论结果往往假设问题的状态空间很小,而现代强化学习应用场景中的状态空间往往是连续的,例如图片、文字或传感器信号。其次,传统的强化学习理论大多假设问题的时间跨度较短,而现代强化学习应用中智能体需要做出成千上万步决策。最后,现代强化学习系统中广泛使用深度神经网络,而深度神经网络的优化和泛化缺乏成熟的理论结果。我这几年的研究成果则从这三个方面推进了现代强化学习的理论分析。

已有研究成果中,你最喜欢哪个?

王若松:所有此前已知的强化学习算法的采样复杂度至少线性依赖于时间跨度。受此影响,微软研究员的研究人员在发表于2018年 COLT 会议中的一个开放问题中提出了下述猜想:任何强化学习算法的采样复杂度至少线性依赖于时间跨度。我们的研究成果推翻了该猜想并完整解决了该开放问题。具体来说,我们设计了一个全新的强化学习算法, 该算法的采样复杂度与时间跨度完全无关。为了设计该算法,我们引入了一系列全新的数学工具。例如,我们建立了有限时间跨度和无限时间跨度马尔可夫决策过程的值函数的联系,并给出了对马尔可夫决策过程更加精细的扰动分析。

可否讲讲你的研究风格?

王若松:传统机器学习理论研究主要聚焦在设计新算法和证明已有算法的高效性,而我在思考这些问题的同时,还会思考哪些机器学习问题是无法被高效解决的。例如,我发表在 ICLR 的代表性工作就证明了离线强化学习的困难性结果。为了证明这些困难性结果,我通常会构造一系列困难问题的例子并大量使用理论计算机科学中的工具,研究风格更加“组合”。而传统机器学习理论领域中的研究主要使用统计学和优化理论中的工具,研究风格更加“连续”。当然,我的研究风格也和我的研究经历有关。我在博士早期的研究主要专注于理论计算机科学中的问题,因此思维模式和研究风格更贴近于理论计算机科学。

可否谈谈你对今后研究的展望?

王若松:首先,我会继续对强化学习的理论研究。近些年,在研究人员的努力下,强化学习理论和实践之间的差距在逐步缩小。然而,该领域仍有大量重要的基础问题尚未被解决。例如,目前强化学习理论研究中的常用假设往往不够自然,且难以验证这些假设在实际强化学习问题中是否成立。我希望能够基于易于验证的假设设计有理论保证的强化学习算法。

此外,在现有理论研究的基础上,我希望能够设计更高效、更鲁棒的强化学习系统。其中,一个重要的研究方向是为实际中的强化学习系统设计表示学习算法。已有的强化学习系统往往将深度神经网络当作黑箱,使用的表示学习算法与监督学习一致。而我此前的理论结果揭示了强化学习与监督学习的不同之处:强化学习需要比监督学习更高质量的特征映射。因此,设计强化学习专用的表示学习算法有助于提高强化学习系统的效率。目前已有的理论结果给出了一系列对特征映射的假设,在这些假设下,高效的强化学习是可行的。如何将这些理论研究中的算法和分析与实践中的强化学习系统相结合则是我今后一个重要的研究方向。

同时,我也希望能够与对上述研究方向感兴趣的北大本科生合作,一起推动机器学习领域的发展。

新人新语 | 王若松:构建现代机器学习的理论基础

招生信息

新人新语 | 王若松:构建现代机器学习的理论基础

王若松老师目前招收2025年秋季学期入学的博士,感兴趣的同学,欢迎发送简历给王老师。

王老师邮箱:ruosongwang@pku.edu.cn

新人新语 | 王若松:构建现代机器学习的理论基础

听听这些老师入职时怎么说新人新语 | 王若松:构建现代机器学习的理论基础

新人新语 | 王若松:构建现代机器学习的理论基础

—   版权声明  —

本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

新人新语 | 王若松:构建现代机器学习的理论基础

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 2 月
 1234
567891011
12131415161718
19202122232425
26272829  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...