Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

1,537次阅读
没有评论

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

  新智元报道  

编辑:alan 好困

【新智元导读】新的SOTA再次出现,C++ode Llama系列最强模型发布,70B代码模型一举击败GPT-4,开源代码登陆各大平台,大佬直接开玩。


今天,Meta正式发布了Code Llama 70B,作为Code Llama系列中规模最大,性能最强的版本,一举击败了GPT-4!

目前,模型共有三个版本,均可免费用于研究和商业目的:

CodeLlama – 70B:基础代码模型;

CodeLlama – 70B – Python:专门针对Python的 70B模型;

CodeLlama – 70B – Instruct:专门用于理解自然语言指令的模型。

算上8月份发布的Code Llama 7B、13B和34B,这个家也算是完整了。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

论文地址:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

其实,Code Llama在发布时就已经展现了不俗的实力,在一众代码生成模型中处于领先位置。

不过GPT-4依然凭借着67.0的HumanEval(pass@1)得分数遥遥领先(Code Llama 34B为53.7)。

尽管后来又有Code Llama的微调版本获得了更好的成绩,却并没有进入Meta的这个官方表格。

但是!在寒窗苦读了5个月之后,Code Llama终于一鸣惊人,以最强的70B模型登顶全部三项测试的榜首。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

其中,CodeLlama-70B-Instruct在HumanEval上更是直接拿下了67.8的高分,一举跻身当下最强开源模型的行列。

可以说,除了GPT-4外,其他同类模型几乎都难以望其项背。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

对此,LeCun转发并宣传了自家的新模型:「新一代Code Llama依然开源,正如它的前辈们一样。」

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

而终于发现自家AI是块宝的小扎,也加大了宣传力度:

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

我们正式开源了一个全新且更加强大的Code Llama,包含一个庞大的700亿参数的模型。


在当今的AI域,编写和编辑代码已经成为了最关键的应用之一。同样,能够编程也对AI模型在其他领域进行更加严密和逻辑性的信息处理显得尤为重要。


我对我们在这方面取得的进展感到非常自豪,并且非常期待在未来的Llama 3及后续模型中加入这些先进的成果。


技术细节

Code Llama是一款能够通过文本提示生成代码的大语言模型。它不仅能提升现有开发者的工作效率,还能降低编程新手的学习门槛。

Meta希望将Code Llama打造成为一款既能提高生产力,又具有教育价值的工具,助力程序员创建更加稳定且文档齐全的软件

Code Llama是基于Llama 2开发的,专门用于编程任务的版本。

通过在专为编码设计的数据集上进行更深入的训练,Code Llama能够理解和生成代码,帮助完成编程任务(如编写函数、代码补全和调试),

并支持包括Python、C++、JavaPHP、Typescript (Javascript)、C#和Bash等在内的多种流行编程语言。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

到目前为止,Code Llama系列集齐了四种规模,分别拥有7B、13B、34B和70B的参数,

前三个模型采用500B token的代码和相关数据进行训练,而新发布的70B模型使用了1TB token。

另外,7B和13B基础模型和指令模型还经过中间填充(FIM)功能的训练,具备直接在现有代码中插入新代码的能力(代码补全)。

Code Llama系列模型针对不同的需求和性能要求进行了优化:

7B模型能在单个GPU上运行,适合快速响应的场景;而34B和70B模型则提供了更高级的编码辅助功能,但运行速度较慢。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新Code Llama能够处理长达100000 token的上下文,这意味着模型可以理解和生成较长的程序代码。

这对于处理大型代码库中的调试任务特别有用,开发者可以提供大量代码上下文,以获得更准确的编码建议。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

此外,Code Llama还推出了两个特别版本:Code Llama – Python 和 Code Llama – Instruct。

考虑到Python在AI社区的重要性,Code Llama – Python针对 Python代码进行了特别优化(使用100B token的Python代码数据进行微调),使其在生成Python代码时更加流畅和准确。

CodeLlama-70B-Python还可以处理一系列任务,例如网络抓取、数据分析、机器学习(ML)和Web开发。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

而Code Llama – Instruct则通过接受自然语言指令和期望输出的方式进行训练,使其更擅长根据用户的需求生成代码或答案。

CodeLlama-70B-Instruct还可以用于处理排序、搜索、过滤和操作数据,以及实现算法(二进制搜索、斐波那契和阶乘等)。

官方建议在需要代码生成时优先考虑使用Code Llama – Instruct,以获得更安全、更有用的结果。

需要注意的是,主要用于编程问题的Code Llama和Code Llama – Python,并不适合处理一般的自然语言任务。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

基准测试

下面看一下新的Code Llama在同类模型中的表现如何,这里采用业内广泛应用的编程基准测试:

HumanEval和Mostly Basic Python Programming (MBPP)。

HumanEval是一个包含164个编程问题的基准数据集,用于测试代码生成模型的功能正确性和逻辑性,而MBPP则测试模型依据具体描述编写代码的技巧。

我们可以看到前代的34B表现已经很好了,而参数量翻了一倍的Code Llama 70B老大哥直接霸榜,并且相比于34B性能显著提升。

其中,CodeLlama-70B-Instruct在HumanEval上得分高达67.8,超过了CodeGen-16B-Mono(29.3)和StarCoder(40.1)等开放模型之前的最佳成绩,并与GPT-4(68.2)和Gemini Pro(69.4)等闭源模型相当。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

当然,为了更负责任地开发AI模型,Meta已经采取了多项安全措施,并对生成恶意代码的风险进行了量化评估。

结果显示,相比于ChatGPTGPT3.5 Turbo),Code Llama给出的回答更为安全。

挑战GPT-4,coding模型卷起来了!

目前,通过各各类主流的平台和框架都可以访问和使用Code Llama 70B,例如Hugging Face、PyTorch、TensorFlow和Jupyter Notebook。

此外,Meta AI还提供了针对不同目的和语言,使用和微调模型的文档和教程。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

而随着模型的发布,各大AI平台也纷纷加入了对Code Llama 70B的支持:

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

并且还可以直接开玩:

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

更有大佬把Code Llama 70B跑到了苹果的处理器上,只不过「有点热」。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

然后这位索性把Code Llama 70B直接量化到了4 bit。

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新

参考资料:https://ai.meta.com/blog/code-llama-large-language-model-coding/

Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新
Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 1 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...