全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

871次阅读
没有评论

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

实时流式视频通话+高级语音理解

又一个国产AI在外网被刷屏了!

来感受一下这个feel:

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

这个AI,正是来自面壁智能最新的模型——MiniCPM-o 2.6

之所以如此火爆,是因为它以仅仅8B的体量,在多模态能力上直接能跟GPT-4o掰手腕!

而且是在iPad上就能跑的那种哦(MiniCPM-o 2.6开源地址如下)~

GitHub:https://github.com/OpenBMB/MiniCPM-o

Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-2_6

从众多网友们转发的实测体验来看,效果也是有点意思在身上的。

例如MiniCPM-o 2.6可以直接“盲听”声音,就知道你在干什么:

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

翻书声、咳嗽声、倒水声、敲门声,声声精准识别

不仅是听觉,在方面,MiniCPM-o 2.6也是有两把刷子。

例如你Pad上的MiniCPM-o 2.6,就可以“睁眼”玩儿三仙归洞,还能记住所有牌被翻过去前的图案:

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

方面,MiniCPM-o 2.6现在更自然了,不仅能扮演新闻主播、学生等各种角色,甚至连咖喱味的英文(印度口音)也能整出来。

当然,实时打断也是不在话下:

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

网友们看罢“Awesome”声一片,有人还直呼:

超酷的,我的iPad像有了第二个大脑。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

而且不只是效果,面壁智能一道还把看、听、说等多模态能力在各项评测榜单的成绩晒了出来。

从分数上来看,仅8B的MiniCPM-o 2.6整体能力已经可以跟GPT-4o比肩,甚至在很多细分项目中实现了超越:

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

用面壁智能官方的话来说,MiniCPM-o 2.6已经是开源社区最强语音通用模型最强端侧视觉通用模型,以及最强实时流式多模态模型了。

那么在实际体验过程中,它是否真的如此丝滑呢?

来一波实测

首先,我们来看下MiniCPM-o 2.6的视力水平到底如何。

在这轮测试中,我们演示了把原先“这是一张照片”这句话删除两个字,看看MiniCPM-o 2.6到底能不能看出来:

我刚才删除了哪两个字?

MiniCPM-o 2.6精准地回答出了正确答案:

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

你刚刚删除了“照片”两个字。

再来,我们给它看一段《黑神话:悟空》中的经典片段,问它刚刚那个游戏叫什么:

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

MiniCPM-o 2.6又答对了:

你展示的游戏是《黑神话:悟空》。

而之所以能够做到这么精准,根据面壁智能的介绍,是因为MiniCPM-o 2.6已经做到了真·看视频

它并不是此前的“照片大模型”,即在用户提问之后,AI才会开始对视频静态图片抽帧,无法回答提问之前的视频内容。

但真·看视频的大模型就不是这样,可以持续对实时视频和音频建模,这就更像人类的眼睛了。

在视觉方面,除了视频之外,对于图片的理解和推理,MiniCPM-o 2.6的能力也是更上一层楼。

比如让它帮忙指导调整自行车座椅。

从找到位置,再到挑选合适工具,它都能正确get用户意图。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

它也能化身学习搭子,帮忙解题。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

当然,以上表现也基于MiniCPM-o 2.6强大的OCR(光学字符识别)能力

官方声称,它可以处理任意宽高比,以及高达180万像素的图像(例如1344×1344)。

比如直接对准iPad,它就能识别屏幕上的内容。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

在听方面,我们刚才已经展示了很多案例,这里就不再重复测试;我们继续深入实测一波MiniCPM-o 2.6的能力。

例如这样的:

你帮我用四川话来教我一下怎么煮火锅。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

嗯,算是川味十足了。

由此可见,MiniCPM-o 2.6在交互这块,是把看、听、说等交互模式给拿捏住了。

那么接下来的问题是:

怎么做到的?

概括而言,面壁智能一直以来专注于面向边端算力场景进行极致优化,更看重的是单设备服务的高效性。

换句话说,一切都是为了能在手机、iPad这样的端侧设备上更快、更好、更省的跑起来。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

而MiniCPM-o 2.6采用的模型架构,显而易见也贯彻了这一核心目标。

具体而言,之所以看听说全能,关键之一在于下面这个端到端全模态架构,它能将不同类型数据(如文本、图像、音频)的编码和解码模块通过端到端方式连接起来训练。

这种方式使得模型不是孤立地处理每种模态,而是综合考虑它们之间的关联和交互,充分调动了多模态知识。

而且过程中,完全使用交叉熵(CE)损失(无辅助/中间损失函数)进行端到端训练。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

此外,为了适应流式输入输出(即实时、低延迟),不必像传统那样需要等所有数据都准备好再处理,面壁团队又进行了两方面动作。

一是上手改造这些离线编/解码器模块,将其变成更适于流式输入/输出的在线模块;另一方面,针对大语言模型的基座,设计了时分复用的全模态流式信息处理机制(Omni-modality Time Division Multiplexer,OTDM)。

尤其是后者,它将同时并行输入的多模态(如视频流和音频流)按照时间顺序进行拆分和重组,形成一个个小的周期性时间片序列。

如此一来,在一个时间片内,可以先处理一小段视觉信息(如几帧图像),然后处理一小段音频信息(如几毫秒的音频波形),再将它们组合起来,从而避免信息混乱。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

接下来,经过OTDM处理后的多模态信息片段,继续按照时间顺序传递给全模态流式骨干网络(Omni-Modality Streaming Backbone)。

作为架构的核心部分,它被用来提取不同类型数据的特征,类似关键帧、关键音频等,然后再把它们融合起来。

过程中,大语言模型隐藏层(图中H0)被用作语音嵌入,主要是为了最终更好地输出语音内容。

当然这一目标也要靠最后的流式语音解码器(Streaming Speech Decoder),它将前面接收到的信息转化为语音形式输出。

而且值得一提的是,面壁团队还设置了可配置的声音方案

不仅设计了新的多模态系统提示,可直接通过文字or语音样例生成或选择声音风格,还支持端到端声音克隆和音色创建等高级能力。

总体来看,这一架构实现了多模态流式处理+声音的自由选择。也就是说,无论面对哪种数据,都能实现高效低延迟交互,从而成为听说看“六边形战士”。

事实上,从更大层面来说,作为“以小博大”的老手,本次发布的MiniCPM-o 2.6仅仅是面壁智能更大计划的其中一环。

作为2018年脱胎于清华NLP实验室,国内最早进行大模型研究的一批人,面壁团队逐渐聚焦于更高效的端侧模型之路

面壁智能CEO李大海曾表示:

站在大模型时代之下,我们都在提的一个概念便是“AI原生应用”;这个时代需要的全新操作系统,就是AI原生应用+AI原生硬件。

而其中的AI原生硬件,其实很简单,就是只要能在端侧运行大模型的硬件就是原生硬件。

因此,端侧的大模型就显得格外重要。

而要想在手机、PC这样的端侧丝滑跑起来,大模型无疑要满足两点:要小,还要性能高效

对此,早在2020年,他们就作为“悟道”大模型首发主力阵容发布了全球第一个20亿级中文开源大模型CPM 1,并持续参与了之后的CPM 2和CPM 3。其中,4B大小的CPM 3就能和GPT-3.5掰手腕了。

可以说,这一时期的面壁团队就已经开始解决高效问题。

后来,当走红全网的“小钢炮”系列出来,他们也依旧延续了这一路线——

仅2B大小的MiniCPM,在多项主流中英测评中均超越“以小博大”的标杆之作Mistral-7B,甚至还能越级比肩Llama2-13B、MPT-30B、Falcon 40B等模型。

而且价格也打下来了,1元=1700000 tokens,成本仅为Mistral-Medium百分之一。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

这之后,过去一年里他们又陆续推出了一系列“以小博大”的产品

甚至就在刚刚结束的CES(国际消费电子展)上,面壁小钢炮MiniCPM系列也亮相了。

一个是去年9月发布的MiniCPM 3.0文本模型,虽然只有4B大小,但在代码、数学等能力上可达到GPT-3.5水平,并且支持无限长文本。

另一个就是去年8月发布的MiniCPM-V 2.6多模态模型,仅8B大小,不过据当时官方介绍:

它不仅首次将超清OCR识图、实时视频理解等能力集成到端侧,也首次在端侧达到单图、多图、视频理解等多模态核心能力全面超越GPT-4V。

而这一次的MiniCPM-o 2.6,更是加上了多模态实时语音交互能力,离人人可用的端侧模型可谓更近了

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

当然了,这也极大便利了视障人士友好出行。因为真实的出行环境大多是异常嘈杂的,而能够部署在移动设备的端侧模型,好处恰在于不依赖网络就能本地运行。(就像下面这个识别红绿灯的例子)

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

由于能在类似弱网断网场景中依旧正常工作,面壁智能的端侧模型拥有了更多应用场景,也适合部署在智能眼镜等头戴式设备上。

更重要的是,面壁智能还将这些端侧模型完全开源了。

有一说一,回顾过去一年大模型的发展,国产开源力量们无疑表现亮眼。

这其中,从大众知名度和开源情况来看,DeepSeek阿里Qwen,以及本次提到的面壁智能,隐隐已有“中国大模型开源三剑客”之势。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

先说近的,横空出世的DeepSeek-v3,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。

而阿里Qwen,更是隔一两个月就会刷新一次能力边界。

拿去年来说,6月发布的Qwen2全面超越开源标杆Llama 3,上线仅1天下载量就超过3万次;8月发布的Qwen2-VL,多模态能力甚至超过GPT-4o等闭源模型……

再到面壁智能,其小钢炮MiniCPM系列广受开源社区喜爱,是2024年Hugging Face下载量最高的国产模型之一。

而且一直以来,面壁智能在开源这件事上比较活跃,很多项目也受到了社区不少好评。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

目前,MiniCPM-o 2.6已在GitHub和Hugging Face开源,还有在线demo免费可玩。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...