活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

分论坛简介

随着大模型技术的蓬勃发展，类人智能甚至超级智能开始走进现实。但越智能也越危险，如何确保智能系统是可靠、可信、可控的成为一个亟待研究和解决的关键问题。本论坛将聚焦在智能系统的安全性和人类偏好对齐，从多种视角探索这些关键问题，并从人工智能治理角度探索如何构建有用、可信、可靠的大模型和AI系统。

● 分论坛主席

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

徐恪，现任清华大学计算机系副主任，教授，博士生导师。获得国家自然科学基金委杰青资助，入选北京市卓越青年科学家计划，是北京市战略人才，中国电子学会会士，IEEE Fellow。主要研究领域包括计算机网络体系结构、网络空间安全和区块链系统。近五年，在网络和安全领域顶级期刊和会议发表论文100余篇，授权中国发明专利27项，完成专著和教材4本，牵头完成行业标准8项。近两年获得CVE，CNVD等漏洞编号50余个。获国家技术发明奖二等奖1项，国家科技进步奖二等奖1项，省部级特等奖1项，省部级一等奖5项，获得2011年CCF青年科学家奖，2012年中创软件人才奖，2023年国际基础科学大会前沿科学奖，IEEE Globecom 2015最佳论文奖，ACM CCS 2020最佳论文提名，IWQoS 2021最佳论文奖，USENIX Security 2023杰出论文奖。指导博士生获得ACM SIGSAC最佳博士论文奖亚军。

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

黄民烈，清华大学长聘教授，博士生导师，国家杰青获得者，计算机系智能技术与系统实验室副主任，清华大学基础模型中心副主任，自然语言生成与智能写作专委会副主任、CCF学术工委秘书长。研究领域为大规模语言模型、对话系统、语言生成，著有《现代自然语言生成》一书。曾获得中国人工智能学会吴文俊人工智能科技进步奖一等奖（第一完成人），中文信息学会汉王青年创新奖，微软合作研究奖等。在国际顶级会议和期刊发表论文150多篇，谷歌学术引用17000多次，h-index 64，入选2022年Elsevier中国高被引学者，连续三年入选AI 2000全球最有影响力AI学者榜单；多次获得国际主流会议的最佳论文或提名（IJCAI、ACL、SIGDIAL等）。研发任务型对话系统平台ConvLab、ConvLab2，中文对话大模型EVA、OPD、CharacterGLM，智源中文大模型CPM的核心研发成员，研发AI乌托邦拟人对话交互平台。担任顶级期刊TNNLS、TACL、CL、TBD编委。

分论坛讲者&报告简介

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

报告题目

智能无人系统带外脆弱性

报告摘要

智能无人系统高速发展的同时，基于新型脆弱性引发的安全事故频繁发生，这是传统意义上针对自身系统功能缺陷的带内脆弱性研究无法覆盖的。与带内脆弱性不同，“带外脆弱性”指物联网系统在“物理-数字”跨域交互过程中产生“信号-信息”映射失配或非功能设计的异常信道问题。因此，为保障智能时代的系统安全，研究范式需从“带内研究”向“带内带外兼顾”转变，本报告将从带外脆弱性谈起，分享在智能无人系统领域的安全研究思考。

讲者简介

徐文渊，浙江大学教授，系统科学与工程系系主任；IEEE Fellow，第十八届中国青年女科学家奖、国家杰出青年基金获得者；曾获美国南卡罗莱纳大学终身教职；USENIX Security 2024 联合主席, NDSS 2022, 2023年联合主席, ACM CCS 2021年领域主席, 物联网领域国际学术期刊IEEE Transactions on Mobile Computing, ACM Transactions on Sensor Networks，IEEE Internet of Things Journal编委。主要研究物联网安全及智能感知系统安全，在物联网终端安全、工控安全、感知安全等方面取得了多项研究成果，在网络安全等领域的国际顶级期刊和会议发表论文120多篇，获得了2017年ACM CCS最佳论文奖等4次最佳论文。

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

报告题目

人工智能大模型的安全与隐私风险

报告摘要

人工智能大模型技术在近3年内有了飞速的发展和广泛的应用，与此同时由于大模型的数据海量、来源复杂不可控，模型参数量巨大、可解释性差等特性，其存在的安全与隐私问题也逐步暴露。本报告围绕人工智能大模型的安全与隐私问题，从保密性、完整性、可用性三个安全特性角度对最新的相关研究工作进行梳理和介绍。

讲者简介

沈超，西安交通大学教授，西安交通大学人才办公室主任、国家级人才。他长期从事可信人工智能、智能软件安全与测试、智能系统安全与控制的研究，发表学术期刊和会议论文100余篇。曾荣获省部级科学技术奖一等奖等4项，入选国家优青、阿里四四达摩院青楷奖、麻省理工科技评论 TR35 China、霍英东青年教师一等奖等。主持国家重点研发计划、国家自然科学基金重点项目、国家自然和学基金国际(地区)合作项目、国防基础研究重大项目、863计划等部委与企业项目30余项，担任IEEE Transactions on Dependable Secure Computing、IEEE Transactions on Cybernetics等9个国际期开的副编辑以及ACM CCS等20余个国内外学术会议的组织委员会成员或程序委员会成员。

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

报告题目

从系统安全视角审视大模型系统的安全问题

报告摘要

ChatGPT等大模型展现出强大的语言、知识和认知能力，引发了学界与业界的新一轮热潮，成为人工智能和深度学习领域的最新革命性突破。然而，大模型系统潜在的安全风险与隐患也日益凸显，大模型强大能力所蕴含的科学价值和产业价值，与其内在的安全风险形成了巨大错位，严重制约了大模型的进一步发展和利用，是当前亟需解决的关键问题。针对大模型系统潜在的多种安全隐患，本报告以系统视角出发来看待大模型安全问题，分别从大模型系统的输入数据安全、平台安全、输出数据安全三个方面探讨和归类现有大模型系统的安全风险。同时，报告将简要介绍目前我们针对大模型系统威胁检测与风险防范的初步尝试，探索大模型风险防御与安全应用的关键技术。

讲者简介

李琦，清华大学副教授，博士生导师，ACM SIGSAC China副主席。曾在苏黎世联邦理工等海外高校从事网络安全的教学与科研工作。研究方向包括互联网与网络安全、物联网安全和机器学习安全。曾获得2022年中国电子学会科技进步一等奖等三项学会和省部级奖励，及安全顶会USENIX Security 2023最佳论文等七项最佳论文奖等荣誉。担任安全顶刊IEEE TDSC等国际期刊编委，以及安全顶会的程序委员会主席和委员，其中包括安全顶会USENIX Security 2024程序委员会副主席和ACM CCS 2022领域程序委员会主席。

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

报告题目

从偏好对齐到价值对齐与超对齐

报告摘要

大语言模型的训练离不开基于人类反馈的强化学习技术。面向下一代对齐方法，尤其是从偏好对齐到价值对齐，乃至面向超级智能体的对齐，仍有许多挑战。本讲中，我会介绍价值对齐中的难点，价值系统的刻画及挑战，以及从内外对齐算法设计中的思考，同时我会介绍在安全对齐中的一些可行方法。最后我会提出面向超对齐研究的一些思考。

讲者简介

杨耀东博士，北京大学人工智能研究院研究员、AI安全与治理中心执行主任。国家高层次留学人才计划、国家高层次青年人才项目、中国科协青年托举计划获得者。重点研究智能体博弈交互与对齐问题，科研领域包括强化学习、博弈论和多智能体系统。他本科毕业于中国科学技术大学，并在伦敦帝国理工大学获得硕士、伦敦大学学院获得博士学位（获学校唯一提名ACM SIGAI 优博奖）。回国前于伦敦国王大学信息学院任助理教授。发表AI顶会论文100余篇，谷歌引用3500余次。曾获国际计算机视觉会议ICCV’23最佳论文奖入围、机器人学习会议CoRL’20 最佳系统论文奖、多智能体会议AAMAS’21 最具前瞻性论文奖、世界人工智能大会云帆奖璀璨明星、ACM SIGAI China新星奖。

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

报告题目

人工智能的产业发展、安全防范与平衡治理：来自美国的案例与启示

报告摘要

人工智能的发展、安全与治理是全人类面临的共同议题。当前阶段，全球各主要国家正围绕人工智能发展与治理展开激烈竞争。去年一年，伴随ChatGPT的横空出世，人工智能加速进入大模型时代。系统回顾美国人工智能发展特别是大模型“蝶变”背后的长周期历程，会带给我们更多的实践启示。

美国在人工智能领域长期处于全球领先地位，其人工智能创新发展和安全防范涵盖了广泛的领域，包括基础研究、商业应用和国防安全等。实际上，美国政界、业界和学界一直在共同努力，以确保美国在推动人工智能领域可持续创新生态系统构建的同时，保障其科技与伦理安全，进而实现人工智能发展与治理的动态平衡。

讲者简介

梁正，清华大学公共管理学院教授，人工智能治理研究中心主任，中国科技政策研究中心副主任，人工智能国际治理研究院副院长，科技发展与治理研究中心学术委员会秘书长，兼任中国科学学与科技政策研究会常务理事、副秘书长，中国知识产权研究会理事兼高校知识产权专业委员会副主任，中国城市经济学会城市公共经济与政策专业委员会副主任，中国国际科学技术合作协会理事，中国技术经济学会知识产权专委会理事，主要研究方向为科技创新政策、创新管理、新兴技术治理、标准与知识产权。

近年来就人工智能治理特别是数据治理、平台治理、算法治理、伦理治理、治理体系等开展了系统研究，在国内外学术期刊上发表相关论文20余篇，出版专著（含合作）5部，向上级部门提交研究专报20余篇，支撑了国家一系列规划政策、标准规范的研究制定。先后获第八届高等学校科学研究优秀成果一等奖，中国科学学与科技政策研究会优秀青年奖等多项奖励。主持科技创新2030重大项目，国家社会科学基金重大研究专项，国家自然科学基金等国家级和部委委托项目近百项。

后续我们将继续更新本次学术年会主会场及各分论坛嘉宾信息及报告简介，敬请持续关注！

点击下方关注我们

关于我们

清华大学人工智能国际治理研究院（Institute for AI International Governance, Tsinghua University，THU I-AIIG）是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势，研究院面向人工智能国际治理重大理论问题及政策需求开展研究，致力于提升清华在该领域的全球学术影响力和政策引领作用，为中国积极参与人工智能国际治理提供智力支撑。

新浪微博：@清华大学人工智能国际治理研究院

微信视频号：THU-AIIG

Bilibili：清华大学AIIG

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

活动预告 | 基础模型2023学术年会分论坛-大模型安全与对齐

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

这个5亿播放的AI视频，邪乎得平平无奇

TRAE推出SOLO模式，业内首个「Context Engineer」来了

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”