社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署

1,148次阅读
没有评论

社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署10月30日,昆仑万维集团正式发布国内首个全面开源最强百亿级模型Skywork-13B系列。昆仑万维集团的此次同时推出两款天工130亿参数的开源模型,可谓是业内开源最彻底的百亿高质量商用模型:除了开源模型和开源训练数据外,同时支持无需要申请即可商用。Skywork-13B系列的开源将为大模型的场景应用和社区开源的蓬勃发展提供最佳的技术支持。昆仑万维的算法和模型等开源项目将使得各行业的研究人员和企业的工作达到事半功倍的效果,同时为社会各界对大模型技术的商业落地提供了最诚意的支持。此次开源的130亿参数模型提供两个版本的大模型:Skywork-13B-Base模型、Skywork-13B-Math模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。Skywork开源项目的特点有:Skywork-13B-Base模型

Skywork-13B-Base模型是在经过高质量清洗过滤的3.2万亿个多语言(主要是中文和英文)和代码数据上进行训练的,它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。Skywork-13B-Math模型

Skywork-13B-Math模型经过专门的数学能力强化训练,在13B规模中,Skywork-13B-Math模型在GSM8K评测上得分第一,同时 MATH数据集上表现也很好,在 out-of-domain 数据集 CMATH上表现也很优秀,处于13B模型顶尖水平。

Skypile-150B数据集

该数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总的token数量约为150B,目前开源最大的中文数据集之一。

除此之外,我们还公开了在训练Skywork-13B模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。我们希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

高质量中文数据集在 HuggingFace 即可下载,详情请见 ⬇

Skywork-13B 下载地址:


Hugging Face Hub: https://hf.co/Skywork

GitHub: https://github.com/SkyworkAI/Skywork

模型结构与LLaMA2-13B模型对比,天工Skywork-13B模型采用相对更加瘦长的网络结构,层数为52层,同时将FFN Dim和Hidden Dim缩小到12288和4608,从而保证模型参数量和原始LLaMA-13B模型相当。根据我们前期实验对比,相对瘦长的网络结构在大Batch Size训练下可以取得更好的泛化效果。Skywork-13B和LLaMA-2-13B模型的对比如下:

社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署训练数据英文 网页数据 39.8% 书籍数据 3.6% 学术论文 3.0% 百科全书 2.9% 其他(年报,文书等) 2.9% 中文 网页数据 30.4% 社交媒体数据 5.5% 百科全书 0.8% 其他(年报,文书等) 3.1% 代码 Github 8.0%社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署 训练方法:此次 Skywork-13B 开源系列模型同时开放了整个模型的训练方法。为了更加精细化利用数据,采用两阶段训练方法,第一阶段使用通用语料进行模型通用能力学习,第二部分加入STEM(科学,技术,工程,数学)相关数据进一步增强模型的推理能力、数学能力、问题解决能力。(详细信息,参考开源社区下载文档)

模型评估

  • 领域数据困惑度评估

语言模型训练的本质上是让预测下一个词更准确。基于这个认知,我们认为评估基础大模型一个重要的方式是评估在各大领域上语言模型生成文章的概率。在模型训练中预测下一个词的概率一般使用Cross Entropy损失函数,整体的损失函数为每个位置预测真实词损失的平均,则有:

社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署

其中社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署是文档的长度,即token数,社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署是位置i上真实词的概率,我们知道文档中每一个位置上真实词的概率的联乘则为生成该文档的概率,如此我们就将loss和生成文章的概率联系在了一起。而不同模型因为使用的分词器不同,具有不同的token数,因此对损失函数乘以token数目社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署,这样就仅考虑生成文章的概率部分,不同模型也可以进行比较。我们将标准化后loss取指数转换成perplexity,使得模型的差异更加可读。为了阅读方面后续提到的loss和ppl为模型标准化后的loss和perplexity。

基于上述分析,我们对多个领域筛选出2023年10月份新发布的几百到上千篇高质量文章,并人工进行了核对。保证所有的测试数据不在天工模型以及其他所有模型的训练集中,并且测试数据的来源也足够广泛,质量也高。我们可以选取当前最新的文章评测不同模型的ppl,模型很难作弊。下图列出了不同开源模型,天工Skywork-13B-Base取得最优效果,证明了天工Base模型的基础能力处于国内开源模型中文最强水平。

社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署 

  • Benchmark评估

我们评估了各大权威评测benchmark上的结果作为参考,包括C-Eval,MMLU,CMMLU,GSM8K。遵循之前的评估流程,C-Eval、MMLU、CMMLU测试5-shot结果,GSM8K测试8-shot结果。可以看到Skywork-13B-Base模型在中文开源模型中处于前列,在同等参数规模下为最优水平。

社区发布|130亿参数,52层网络,昆仑万维开源商用大模型现已发布至 Hugging Face Hub,支持消费级显卡部署

最有诚意的支持开源商用:无需申请,即可实现商用目前开源社区中的中文大模型多数并非是完全可商用, 一般开源社区用户通常需要进行复杂的商用授权申请流程, 在某些情况, 甚至有对公司规模、所在行业、用户数等维度有明确规定不给予商业授权。昆仑万维对Skywork-13B开源的开放性和可商用性高度重视,将授权流程做到极简,取消对行业、公司规模、用户等方面的限制, 目的是帮助更多对中文大模型感兴趣的用户和企业在行业中不断探索和进步。因此,此次Skywork-13B开源的同时我们将全面开放Skywork-13B大模型的商用许可,用户在下载模型后同意并遵守《Skywork模型社区许可协议》后, 无需再次申请授权即可将大模型进行商业用途, 目的是希望用户能够更便捷的去利用Skywork-13B去进行测试并且探索在不同场景下的商业化应用。本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:https://hf.link/tougao

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...