今天是2023年11月12日,星期日,北京,天气晴。
垂直领域微调模型的构建范式中,我们已经陆续讲过了许多的方法论,最近看到一个开源项目(https://github.com/luban-agi/Awesome-Domain-LLM),收集了目前开放的一些垂直领域模型项目列表,同时也包括一些评测的数据集,很具有参考性。
本文选择其中的领域评测集、现有领域微调模型的研发主流基座部分展开介绍,供大家一起参考。
一、现有领域微调模型的研发主流基座
来自不同领域的从业人员在通用模型的基础上通过持续预训练/指令微调将其应用于垂直领域。
1、LLaMA2
包括7B/7B-Chat、13B/13B-Chat、70B/70B-Chat
项目地址:https://github.com/facebookresearch/llama
论文:https://arxiv.org/abs/2307.09288
2、ChatGLM3-6B
项目地址:https://github.com/THUDM/ChatGLM2-6B
包括6B-Base/6B/6B-32K
论文:https://arxiv.org/abs/2210.02414
3、Qwen
项目地址:https://github.com/QwenLM/Qwen
包括7B/7B-Chat、14B/14B-Chat
论文:https://arxiv.org/abs/2309.16609
4、Baichuan2
项目地址:https://github.com/baichuan-inc/Baichuan2
包括7B/7B-Chat、13B/13B-Chat
论文:https://arxiv.org/abs/2309.10305
5、InternLM
项目地址:https://github.com/InternLM/InternLM
包括7B/7B-Chat,20B/20B-Chat
论文地址:https://github.com/InternLM/InternLM-techreport/blob/main/InternLM.pdf
二、医疗领域评测数据集
1、CBLUE
CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
项目地址:https://github.com/CBLUEbenchmark/CBLUE
论文地址:https://arxiv.org/abs/2106.08087
2、PromptCBLUE
PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
项目地址:https://github.com/michael-wzhu/PromptCBLUE
论文地址:https://arxiv.org/abs/2310.14151
3、LAiW
LAiW是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:
1)法律 NLP 基础能力:评测法律基础任务、 NLP基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5个基础任务;
2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5个基础任务;
3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询 3个基础任务。
项目地址:https://github.com/Dai-shen/LAiW
论文地址:https://arxiv.org/abs/2310.05620
4、LawBench
LawBench是一个面向中国法律体系的法律评测基准。LawBench模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
项目地址:https://github.com/open-compass/LawBench
论文地址:https://arxiv.org/abs/2309.16289
5、LegalBench
LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
项目地址:https://github.com/HazyResearch/legalbench
论文地址:https://arxiv.org/abs/2308.11462
6、LEXTREME
LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
项目地址:https://github.com/JoelNiklaus/LEXTREME
论文地址:https://arxiv.org/abs/2301.13126
7、LexGLUE
LexGLUE是一个英文法律评测基准。
项目地址:https://github.com/coastalcph/lex-glue
论文地址:https://arxiv.org/abs/2110.00976
三、金融领域评测数据集
1、FinEval
FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
项目地址:https://github.com/SUFE-AIFLM-Lab/FinEval
论文地址:https://arxiv.org/abs/2308.09975
2、FLARE
FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
项目地址:https://github.com/chancefocus/PIXIU
论文地址:https://arxiv.org/abs/2306.05443
3、CFLEB
CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
项目地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications
论文地址:https://arxiv.org/abs/2302.09432
4、FLUE
FLUE是一个金融评测基准,包含5个金融领域数据集。
项目地址:https://github.com/SALT-NLP/FLANG
论文地址:https://arxiv.org/abs/2211.00083
地理领域评测数据集
1、GeoGLUE
GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
项目地址:https://modelscope.cn/datasets/damo/GeoGLUE/summary
论文地址:https://arxiv.org/abs/2305.06545
四、运维领域评测数据集
1、OWL-Bench
https://github.com/HC-Guo/Owl
OWL-Bench是一个面向运维领域的双语评测基准。它包含317个问答题和1000个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench能够展现出多样性。
论文地址:https://arxiv.org/abs/2309.09298
2、DevOps-Eval
DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
项目地址:https://github.com/codefuse-ai/codefuse-devops-eval
总结
本文主要介绍了现有领域微调模型中的领域评测集、现有领域微调模型的研发主流基座,其中给出了其中对应的链接部分,这些可以作为我们进行微调领域模型研发的重要指引,感兴趣地可以再看看。
参考文献
1、https://github.com/luban-agi/Awesome-Domain-LLM
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。