FlagOpen 大模型技术开源体系，开启大模型时代 “新 Linux” 生态

2,271次阅读

“大数据 + 大算力 + 强算法 = 大模型” 是当前人工智能发展的主要技术路径。语言大模型 ChatGPT 成为现象级应用，人工智能进入普及应用的新时期。

智源研究院 2020 年搭建大模型攻关团队，2021 年 6 月推出当时规模最大、性能领先多模态大模型 “悟道 2.0”。为了推动大模型方向的协同创新，在 “科技创新 2030” 新一代人工智能重大科技项目支持下，2023 年初，智源研究院联合 30 多家产学研单位共同承担的旗舰项目 “人工智能基础模型支撑平台与评测技术” 全面启动。经 2 个月集中攻关，开发出 FlagOpen（飞智）大模型技术开源体系，旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台，支持协同创新和开放竞争，共建共享大模型时代的 “新 Linux” 开源开放生态。

北京市副市长于英杰和科技部高新司副司长梅建平出席工作会并致辞。

于英杰副市长指出，大模型的研发是一项体系化工作，涉及数据、算法、算力及训练基础设施等。智源研究院发布的 FlagOpen 大模型技术开源体系，是智源及上下游生态合作机构联合开展技术攻关的成果展现，为大模型技术创新提供了 “北京贡献”。同时，他对于大模型的发展提出了三点期望：一是要抓住大模型发展机会，保持定力，强化基础。要聚焦源头，创新底层技术，大力突破核心关键技术，抢占制高点。二是应用导向，推动大模型应用生态建设。要加快大模型创新应用开发及 API 服务开放，形成数据飞轮效应，发挥大模型的通用泛化能力，赋智经济社会发展。三是科研机构、企业等要围绕算法及技术研究、数据等加强协同创新，建立开源开放的合作生态。

▲ 于英杰北京市副市长

梅建平副司长指出，面对大模型引发的人工智能技术范式变革趋势，科技部从 2021 年开始超前布局大模型旗舰项目群，着力打造开源开放的大模型创新生态体系。“人工智能基础模型支撑平台与评测技术” 旗舰项目是整个项目群的核心，由智源研究院联合 30 多家产学研单位共同承担。FlagOpen 大模型技术开源体系即是旗舰项目的阶段性成果，将对我国大模型技术创新能力的提升提供重要支撑。另外，为满足大模型发展所需的算力需求，科技部正在推动建设 “国家公共算力平台” 和 “中国算力网”，为科技创新和产业智能化转型提供普惠算力。他同时指出，大模型发展需要技术创新与伦理治理并重，科技部也将组织探索研究大模型的伦理治理问题，让大模型技术趋利避害，更好地发挥前沿技术的赋能作用。

▲ 梅建平科技部高新司副司长

FlagOpen（飞智）大模型技术开源体系是由智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系，包括大模型算法、模型、数据、工具、评测等重要组成部分，旨在建设大模型领域的 “Linux”。

基于 FlagOpen，国内外开发者可以快速开启各种大模型的尝试、开发和研究工作，企业可以低门槛进行大模型研发。同时，FlagOpen 大模型基础软件开源体系正逐步实现对多种深度学习框架、多种 AI 芯片的完整支持，支撑 AI 大模型软硬件生态的百花齐放。

FlagOpen 将通过 Linux 基金会、启智社区等开源组织，推动国内外开发者协同创新。通过开源开放方式，全球开发者可以自由探索、共同贡献、协同创新。未来，FlagOpen 也将支撑全球 AI 企业、机构基于 FlagOpen 构建 AI 大模型软件发行版本、平台、商业软件等。

FlagOpen 开源平台入口：https://flagopen.baai.ac.cn

FlagOpen 飞智大模型技术开源体系

开启大模型时代 “新 Linux” 生态建设

1. FlagAI ：大模型算法、模型及工具一站式开源项目

为降低大模型开发和应用的门槛，提高大模型的开发效率，智源研究院打造了大模型算法、模型，及各种优化工具的一站式、高质量开源项目 FlagAI。

FlagAI 集成全球各种主流大模型算法技术，以及多种大模型并行处理和训练加速技术，支持高效训练和微调。

FlagAI 涵盖多个领域明星模型，如语言大模型 OPT、T5，视觉大模型 ViT、Swin Transformer，多模态大模型 CLIP 等。

坚持开源开放路线，智源研究院也持续将 “悟道” 大模型项目成果开源至 FlagAI，包括 “悟道 2.0” 通用语言大模型 GLM，“悟道 3.0” 视觉预训练大模型 EVA，视觉通用多任务模型 Painter，文生图大模型 AltDiffusion（多语言），文图表征预训练大模型（多语言）、EVA-CLIP（英文），阿拉伯语大模型 ALM，百亿语言基础模型 CPM3 等。

目前，FlagAI 已经加入 Linux 基金会，吸引全球科研力量对大模型技术共同创新、共同贡献。

项目地址：https://github.com/FlagAI-Open/FlagAI

2. FlagPerf：面向多种 AI 硬件的一体化评测引擎

AI 硬件评测对 AI 生态有重要价值，但由于 AI 软硬件技术栈异构程度高、兼容性差，应用场景复杂多变，给评测本身带来了很多挑战。

FlagPerf 希望共同探索开源、开放、灵活、公正、客观的 AI 硬件评测体系，建立支持多种深度学习框架、最新主流模型评测需求、易于 AI 芯片厂商插入底层支撑工具的 AI 系统评测生态。不以排名为核心目标，而以提供行业价值、促进 AI 产业生态发展为愿景。

目前该项目已和天数智芯、百度 PaddlePaddle、昆仑芯科技、中国移动等深度合作，共同推进 AI 硬件评测建设。围绕 FlagPerf，也将有更多厂商和团队加入共同贡献的大家庭。

项目地址：https://github.com/FlagOpen/FlagPerf

3. FlagEval：多领域、多维度的基础大模型评测开源项目

大模型时代需要科学、公正、开放的评测基准及工具来帮助人们更深刻的理解和认识模型，但在学术界一直缺乏能涵盖多种模态领域、多种评测维度的统一化评测体系和项目。尤其在 AIGC 的发展浪潮下，如何对生成任务进行更高效、更客观的评价，是阻碍大模型落地的重要制约。

智源研究院将联合多个高校团队，共同打造覆盖多个模态领域、包含评测维度的评测工具 FlagEval，探索大模型自动评测技术，推动大模型技术创新和产业应用。

FlagEval 首先开放近期备受关注的多模态领域 -CLIP 系列模型评测工具，支持多语言多任务、开箱即用。之后，更多领域、更多维度的评测工具陆续发布。

项目地址：https://github.com/FlagOpen/FlagEval

4. FlagData：开箱即用、易于扩展的数据工具开源项目

数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破，在相应研究中使用高效数据处理工具提升数据质量变得日益重要。

智源研究院长期投入数据建设工作，构建了全球最大 WuDaoCorpora 语料库，同时开发了一批数据处理的高效工具。

FlagData 数据工具开源项目集成包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法，为自然语言处理、计算机视觉等领域的模型训练与部署提供了数据层面的有力支撑，有助于推动大模型的快速发展。

项目地址：https://github.com/FlagOpen/FlagData

▲林咏华智源研究院副院长兼总工程师

FlagOpen 大模型技术开源体系正在与 Linux 基金会等全球开源代表组织与机构积极合作，加快建设面向全球的大模型技术开源生态。

全球最大的 AI 领域开源基金会 – Linux AI & DATA 基金会主席堵俊平认为：FlagOpen 大模型技术开源体系的发布，是人工智能大模型时代开源创新生态建设的重要一步：“未来，大模型领域一定会出现类似 Linux 的开源生态体系，开源开放加速 AI 技术创新。”

▲堵俊平 Linux AI & DATA 基金会主席

Stability AI 全球产品副总裁 Christian Cantrell 说：“我们在开源社区中与智源团队合作，基于 FlagAI 开源的多语言文图模型能力，合作打造支持更多语言的扩散生成模型。很高兴看到智源研究院把大模型技术体系开源，这对全球大模型创新的推动和开放合作十分重要”

“数据飞轮” 开源数据互助计划启动

大模型前沿训练营推动顶尖人才培养

时不我待，十年一遇信息技术产业变革席卷世界。

高质量数据与系统性人才是这一轮计算机范式转变的关键要素。

本次发布会上，智源研究院开放中文世界首个开放数据标注平台 OpenLabel，与 CSDN 合作启动” 数据飞轮” 开放数据互助公益计划。计划以 “我们的数据，我们的 AI” 为宗旨，让广大人民产生的数据，造福于广大人民。

“数据飞轮” 计划的目标是建设动态开放的重要大型数据集，为大模型、AIGC 发展创建丰富权威的大模型训练数据来源。智源研究院希望通过公益合作，夯实数据基础建设，促进数据创新，推动国内外大模型训练研究发展。

加速迈向人工智能大模型时代，必然伴随着大模型从精英学者到大众开发者的技术普及。

为推动优秀大模型技术人才培养，智源研究院与中国移动研究院、中科曙光、国家先进计算太原中心合作，与多所顶尖高校联动，面向交叉学科背景学生与相关领域学者推出大模型前沿训练营，通过举办系列人工智能前沿公开课、创新应用大赛与前沿讲习班，为大模型技术研究和产业发展培养具有实战经验的系统性人才。

大模型是智能时代生态核心

FlagOpen 建设大模型技术体系根基

智源研究院院长黄铁军发表题为《加快建设人工智能开源开放生态》的主旨演讲，他认为开源开放是智能时代的必然选择。

大模型通过同一模型完成多场景任务，成为支撑无数智能应用的基础平台，使得人工智能技术的大规模应用变为可能，加速了智能时代的真正到来。当前深度学习阶段的人工智能系统具有难以透彻理解的技术特性，智能时代不应封闭、必须开放、最好开源，特别是作为基础平台的大模型需要全面开源、接受监督，才能得到信任、采纳和广泛应用。

▲黄铁军智源研究院院长

结合当下 ChatGPT 热潮，黄铁军认为，此类 AI 现象只是大模型技术 “海平面以上” 的冰山一角，深藏于 “海平面以下” 的大模型技术体系才是更值得关注的部分。从长远考虑，打好根基，形成完整的大模型技术体系及强大的资源能力，未来才能产生更多的 “ChatGPT 级” 的现场级应用。

FlagOpen 正是为了建立大模型技术体系而开展的基础性工作，通过开源开放的形式促进各类机构共创共享，形成良好生态，共同打牢大模型发展根基。未来将面向各类企业提供大模型相关技术服务，支撑各行业智能应用开发，赋能经济社会智能化升级。

FlagOpen 开源生态合作

推动大模型产业价值提升

为推动大模型技术在更广泛的范围得到应用，在产业中发挥大模型的价值和作用，FlagOpen 大模型技术开源体系已与中国移动、浪潮信息、昆仑芯科技、天数等多家知名企业达成生态合作，并将 FlagAI 开源工具部署在中国移动九天毕昇教育平台、浪潮 AI Station 等平台。

为促进人工智能与经济社会发展深度融合，智源联合多家单位开展大模型行业应用探索，主要有：

联合中国移动研究院建立 AI 基础模型服务开放实验室，面向行业应用场景的听觉内容分析等领域进行大模型研究与应用；
联合浪潮信息建立大模型开源生态联合实验室，共同推动国产 AI 硬件底层软件的完善；
联合中国电子云建立大模型国产算力云平台开放实验室，探索国产 CPU 的大模型适配部署；
联合航天信息建立智慧政企人工智能开放实验室，探索税务、政务领域的模型能力调优、模型研发、算法研究等；
联合工商银行共建数字金融开放实验室，致力于运用 AI 技术提升金融生态垂直领域智能化能力；
联合启元世界建立认知决策大模型开放实验室，探索 AI NPC、数字人 AI 等场景的大模型应用；
联合核桃科技建立国产 3D 图形化 AI 编程平台开放实验室，共同开展基于开源体系的国产化编程平台工具研发。

为推动 AI 底层基础软硬件生态的共建共享和共同繁荣，智源研究院联合浪潮信息、昆仑芯科技、壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业，清华大学、北京大学、中科院计算所优势团队，共建 “北京国家新一代人工智能创新发展试验区 AI 开放生态实验室”，共同开展基础软硬件适配、评测等工作，实现拉动基础软硬件对 AI 重大科研计算范式的优化，加速完善软硬件生态建设。