再看领域微调大模型的主流基座和评测数据集:项目地址及论文指引

1,690次阅读
没有评论

今天是2023年11月12日,星期日,北京,天气晴。

垂直领域微调模型的构建范式中,我们已经陆续讲过了许多的方法论,最近看到一个开源项目(https://github.com/luban-agi/Awesome-Domain-LLM),收集了目前开放的一些垂直领域模型项目列表,同时也包括一些评测的数据集,很具有参考性。

本文选择其中的领域评测集、现有领域微调模型的研发主流基座部分展开介绍,供大家一起参考。

一、现有领域微调模型的研发主流基座

来自不同领域的从业人员在通用模型的基础上通过持续预训练/指令微调将其应用于垂直领域。

再看领域微调大模型的主流基座和评测数据集:项目地址及论文指引

1、LLaMA2

包括7B/7B-Chat、13B/13B-Chat、70B/70B-Chat

项目地址:https://github.com/facebookresearch/llama

论文:https://arxiv.org/abs/2307.09288

2、ChatGLM3-6B

项目地址:https://github.com/THUDM/ChatGLM2-6B

包括6B-Base/6B/6B-32K

论文:https://arxiv.org/abs/2210.02414

3、Qwen

项目地址:https://github.com/QwenLM/Qwen

包括7B/7B-Chat、14B/14B-Chat

论文:https://arxiv.org/abs/2309.16609

4、Baichuan2

项目地址:https://github.com/baichuan-inc/Baichuan2

包括7B/7B-Chat、13B/13B-Chat

论文:https://arxiv.org/abs/2309.10305

5、InternLM

项目地址:https://github.com/InternLM/InternLM

包括7B/7B-Chat,20B/20B-Chat

论文地址:https://github.com/InternLM/InternLM-techreport/blob/main/InternLM.pdf

二、医疗领域评测数据集

1、CBLUE

CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。

项目地址:https://github.com/CBLUEbenchmark/CBLUE

论文地址:https://arxiv.org/abs/2106.08087

2、PromptCBLUE

PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。

项目地址:https://github.com/michael-wzhu/PromptCBLUE

论文地址:https://arxiv.org/abs/2310.14151

3、LAiW

LAiW是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:

1)法律 NLP 基础能力:评测法律基础任务、 NLP基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5个基础任务;

2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5个基础任务;

3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询 3个基础任务。

项目地址:https://github.com/Dai-shen/LAiW

论文地址:https://arxiv.org/abs/2310.05620

4、LawBench

LawBench是一个面向中国法律体系的法律评测基准。LawBench模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。

项目地址:https://github.com/open-compass/LawBench

论文地址:https://arxiv.org/abs/2309.16289

5、LegalBench

LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。

项目地址:https://github.com/HazyResearch/legalbench

论文地址:https://arxiv.org/abs/2308.11462

6、LEXTREME

LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。

项目地址:https://github.com/JoelNiklaus/LEXTREME

论文地址:https://arxiv.org/abs/2301.13126

7、LexGLUE

LexGLUE是一个英文法律评测基准。

项目地址:https://github.com/coastalcph/lex-glue

论文地址:https://arxiv.org/abs/2110.00976

三、金融领域评测数据集

1、FinEval

FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。

项目地址:https://github.com/SUFE-AIFLM-Lab/FinEval

论文地址:https://arxiv.org/abs/2308.09975

2、FLARE

FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。

项目地址:https://github.com/chancefocus/PIXIU

论文地址:https://arxiv.org/abs/2306.05443

3、CFLEB

CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。

项目地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications

论文地址:https://arxiv.org/abs/2302.09432

4、FLUE

FLUE是一个金融评测基准,包含5个金融领域数据集。

项目地址:https://github.com/SALT-NLP/FLANG

论文地址:https://arxiv.org/abs/2211.00083

地理领域评测数据集

1、GeoGLUE

GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。

项目地址:https://modelscope.cn/datasets/damo/GeoGLUE/summary

论文地址:https://arxiv.org/abs/2305.06545

四、运维领域评测数据集

1、OWL-Bench

https://github.com/HC-Guo/Owl

OWL-Bench是一个面向运维领域的双语评测基准。它包含317个问答题和1000个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench能够展现出多样性。

论文地址:https://arxiv.org/abs/2309.09298

2、DevOps-Eval

DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。

项目地址:https://github.com/codefuse-ai/codefuse-devops-eval

总结

本文主要介绍了现有领域微调模型中的领域评测集、现有领域微调模型的研发主流基座,其中给出了其中对应的链接部分,这些可以作为我们进行微调领域模型研发的重要指引,感兴趣地可以再看看。

参考文献

1、https://github.com/luban-agi/Awesome-Domain-LLM

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...