开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危

698次阅读

没有评论

鱼羊发自凹非寺量子位 | 公众号 QbitAI

开源大模型全球格局，一夜再变。

这不，全新开源大模型亮相，性能全面超越开源标杆Llama 3。王座易主了。不是“媲美”、不是“追上”，是全面超越。发布两小时，直接冲上HggingFace开源大模型榜单第一。

这就是最新一代开源大模型Qwen2，来自通义千问，来自阿里巴巴。

在十几项国际权威测评中，Qwen2-72B得分均胜过Llama3-70B，尤其在HumanEval、MATH等测试代码和数学能力的基准中表现突出。

不仅如此，作为国产大模型，Qwen2-72B也“毕其功于一役”，超过了国内一众闭源大模型：

Qwen2-72B相比于自家前代模型Qwen1.5-110B实现了整体性能的代际提升，而在上海AI Lab推出的OpenCompass大模型测评榜单上，Qwen1.5-110B已经超过了文心4、Moonshot-v1-8K等一众国内闭源模型。随着Qwen2-72B的问世，这一领先优势还在扩大。

有网友便感慨说：这还只是刚开始。开源模型很可能在未来几个月，就能击败GPT-4o为代表的闭源模型。

Qwen2的发布，可以说是一石激起千层浪。

上线仅1天，下载量已经超过3万次。

网友们还发现，除了72B和指令调优版本，这次同步开源的Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B，开源许可都换成了Apache 2.0——

就是说可以更加自由地商用。这是Llama 3系列都没做到的。

在AI大模型领域，时间和速度都不同了。

因为距离阿里推出Qwen1.5-110B模型刷新SOTA，全球开源大模型形成双雄格局，才刚过去1个月时间。

而现在，Qwen2独领风骚，全球开源第一，国产大模型第一——连不开源的大模型都超越了。

Qwen2挑战高考数学真题

还是先来整体梳理一下Qwen2的基本情况。

根据官方技术博客介绍，Qwen2的特点和相比Qwen1.5的主要升级包括：

发布5个尺寸的预训练和指令微调模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。其中Qwen2-57B-A14B是一个MoE模型。
在中文英语的基础上，对27种语言进行了增强。有阿拉伯语开发者表示，Qwen已经成为4亿阿拉伯语用户喜欢的大模型，稳居阿拉伯语开源模型榜单第一。

在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中，Qwen2-72B斩获十几项世界第一，超过Llama 3。
代码和数学能力显著提升。
增大了上下文长度支持，最长实现128K tokens上下文长度支持（Qwen2-7B-Instruct和Qwen2-72B-Instruct）。

纸面数据上，Qwen2在开源大模型中已经达成全球最强，那么实际表现又会如何？

我们用新鲜出炉的高考数学真题上手实测了一波。

先来个简单题：

已知集合A={x|-5＜x^3<5}，B={-3,-1,0,2,3}，则A∩B=()

左边是Qwen2-72B-Instruct，右边是Llama-3-70B-Instruct。除了Llama 3原版的老问题不咋支持中文外，两边的答案都是正确的。

那么就稍微上点难度：

当x∈[0, 2π]时，曲线y=sinx与y=2sin(3x-π/6)的交点个数为？

Qwen2-72B-Instruct依然没有被难住，一通计算后给出正确答案：交点个数为6个。

而Llama-3-70B-Instruct则计算错误，扣5分。

Qwen2在数学能力方面，已经到了高考考场接受真题检验的水平。

通义千问此番升级，官方和评测数据还突出了代码能力的提升，我们也有LeetCode中等难度真题浅测了一下：

给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值 target，返回 [-1, -1]。你必须设计并实现时间复杂度为 O(log n) 的算法解决此问题。

Qwen2-72B-Instruct给出的python实现如下：

def searchRange(nums, target):def binary_search_left(nums, target):
left, right = 0, len(nums)while left < right:
mid = (left + right) // 2if nums[mid] < target:
left = mid + 1else:
right = midreturn left
def binary_search_right(nums, target):
left, right = 0, len(nums)while left < right:
mid = (left + right) // 2if nums[mid] <= target:
left = mid + 1else:
right = midreturn left
left, right = binary_search_left(nums, target), binary_search_right(nums, target)return [left, right – 1] if left <= right – 1 and nums[left] == target and nums[right – 1] == target else [-1, -1]

一开始没有定义Solution类导致报错，不过直接把报错信息反馈给Qwen2，它自己就能完成debug：