谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

1,165次阅读
没有评论

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

  新智元报道  

编辑:编辑部

【新智元导读】才一天,谷歌Gemini被质疑造假、夸大宣传的议论声淹没了。多模态视频是剪辑拼贴的,打败GPT-4靠的是CoT@32,AlphaGo也并未结合进Gemini中。谷歌这波公关,属实是着急了。


谷歌的宣传视频,竟然作假了?

在谷歌昨天发布的Gemini的宣传视频中,所有人都被那一段6分钟一镜到底的互动视频惊艳到了。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

一天之内有720万的播放量。网友惊呼,Gemini看起来就像一个能随时事无巨细地向你解释一切的朋友。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

视频中看起来,好像Gemini能够实时地感知人类的动作,并且直接做出语音回应。

然而,有越来越多的人质疑demo的真实性。

彭博社的Parmy Olsen,第一个质疑视频造假。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

随后,谷歌官博也放出了解释——

是的,视频的确有后期制作和剪辑的成分。

根据官方发布的一个技术文档,Gemini所有的这些交互都不是实时感知到的,而是通过提示词问出来的。比如:

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

视频中显示,似乎Gemini能直接看懂人类在玩石头剪子布,

但其实,真实的过程是,向Gemini上传一张手比剪刀的照片,问它看到了什么。然后用人声把它的回复读了出来。

而石头剪子布的视频,则是把三张照片依次传给Gemini,让它把这三张照片连在一起推理,它直接给出回答,这是在玩石头剪子布。

所以,实际上并不是Gemini看懂了一段视频,它只是看懂了三张图片,并且做出了推理而已。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

人类给Gemini传了一张「剪刀」的照片,Gemini回复说:「这似乎是伸出了两个指头的手势,一般来说这个手势代表着数字2」。然后人类又传了3张「石头剪刀布」的手势照片,问它这三张照片合在一起是什么意思。Gemini才说了这是「石头剪子布」游戏

同样,在识别行星的演示,视频给人营造的感觉仿佛是直接问Gemini「这个顺序正确吗」,它就能回答不正确,应该是太阳、地球、土星。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

但实际上,是谷歌给了Gemini一句prompt:「这个顺序正确吗?请考虑它们与太阳的距离,并且解释你的理由」,随后,Gemini才回答了那样一句话。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

很多网友也认为,谷歌这种有意地误导性呈现,反而让用户会怀疑,到底模型的真实能力有多强。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

毕竟,产品不能永远停留在宣传视频里,最终都要交到用户手上去体验。

这个视频最大的误导性在于,似乎让用户误以为Gemini能实时的读取视频信息,并且能够通过自己的理解直接推测用户的问题并直接回复。

而实际情况是,谷歌员工是通过读取图片+良好的提示词工程才能让Gemini生成这些回复的。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

虽然说从技术原理上来看,能够读取图片和能够看懂视频之间,并没有技术上的鸿沟。

但是从产品实现落地的角度看,把读取图片约等于能实时看懂视频,并且过于强调实时性而压缩了交互过程中的延迟,这几乎已经可以理解为虚假宣传了。

而是否需要良好的提示词工程,更是评价模型能力的关键问题。

谷歌的这些「后期加工」,只能说明,他们太想让Gemini「看起来」比竞品好太多了。

毕竟,起了个大早却赶了个晚集的谷歌,在大模型上确实太需要流量了。

在YouTube描述中,谷歌也承认了该视频被编辑为延迟,这样就能使得模型看起来响应速度比实际更快。

Olson表示,谷歌的营销非常巧妙,所以我们真的应该在AI炒作中更加谨慎,保持清醒的头脑和判断力。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

谷歌,令人失望了


本来,昨天Gemini的演示一出立马惊艳了众人,本来是多模态理解领域的一次令人兴奋的展示。

现在被扒出伪造,显然会让用户对谷歌的诚信失去信心。谷歌这一出,着实得不偿失。

其实本来,Gemini确实输出了视频中显示的回应。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

但视频的剪辑效果,却会让用户对于Gemini的交互速度、准确性和基本模式产生误解。

石头剪子布的demo,和实际上Gemini对于三张图片的识别,是完全不同的交互。

前者是一种直观的反应,表示Gemini可以即时捕捉一个抽象的想法;而后者,则是经过精心设计、充满大量暗示的交互,虽然的确体现了Gemini的能力,但也具有不少局限性。

如果视频一开始就明确指出,「这是研究人员测试Gemini互动的一种风格化演示」,可能会让公众的期待者降低一些,也就不会像如今这样失望。

而且,视频名叫「Hands-on with Gemini」,暗示了视频中展示的就是和Gemini的原样互动。然而实际上Gemini的参与程度,是掺了水分的。

视频中也没有明说,视频中的模型,到底是Gemini的哪个版本。

总的来说,这段视频半真半假,尽管包含一些真实的成分,但它根本没有反映现实。

网友深表理解


Perplexity AI的首席执行官将网友对谷歌Gemini造假视频,做了客观的分析。

当前有两种激进派的人,是这样看待Gemini的发布:

极端看法1:「DeepMind伪造了评估和演示。Gemini很糟糕」。

极端看法2:「OpenAI 完蛋了。谷歌回来了。Bard将免费运行Gemini,因为计算芯片的利润空间,它会击败 ChatGPT」。

而现实情况是,Gemini很酷,是第一个真正可以与GPT-4媲美的模型,也是谷歌真正的成就之一。尤其它仅仅是一个密集型模型(原生模型)。

这次,只能说谷歌的市场营销手段过火了,但众所周知DeepMind喜欢高调公关。

而谷歌视频演示的多模态能力,实际上在一年内就能实现。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

一位网友对此表示深度赞同,太多人想要给谷歌扣上「伪造」视频的黑帽。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

还有人表示完全理解炒作的行为,毕竟谷歌对微软OpenAI的反击晚了一步。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

打败GPT-4,靠的是「作弊」


另外,谷歌发布的这个表格,显示出Gemini Ultra在大多数标准基准测试中击败了GPT-4。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

可是这种比较并不公平。

GPT-4的86.4%分数是基于行业评估标准,即「5-shot」。

然而,Gemini Ultra 90%的得分是基于谷歌研究人员开发的一种基于「32个样本的思维链」的方法。

对于同一个问题,Gemini Ultra会生成32个答案以及这些答案的推理。然后,模型会选择最常见的答案作为最终答案。

或许就是这种新方法,让Gemini能够更好地「推理」。

但是,在使用行业标准5-shot MMLU的情况下,GPT-4的86.4%要高于Gemini Ultra的83.7%。

HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中扒了数据,重做了一张新图——如果使用5-shot,Gemini的得分实为83.7%,而非90.0%。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

而且,Gemini Ultra对于GPT-4仅有几个百分点的优势,但是GPT-4,是OpenAI差不多一年前的产品。

外媒The Information发布了题为《Gemini可能并不像谷歌说的那么好》的文章,表示谷歌的员工一定是压力太大了,因为他们用了一些额外的措施,让Gemini看起来比竞争对手更出色。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

如果真如谷歌所说,Gemini Ultra是在明年一月发布,那它可能SOTA不了多久。

要知道,OpenAI的GPT-5,应该已经在路上了。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

似乎是内部知情人士艾特了Sam Altman,问他还要把宝贝捂到什么时候?还不赶快拿出来?

网友试用体验


我让Gemini画了一幅一个人开着电卡车在树林里露营的图,它生成的样子如下。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

还是需要稍加修改,有待进步。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

这位网友发出了自己测试基于Gemini Pro的Bard,对于很多事实类问题还是有错误。

他问了两遍Bard奥斯卡2023年的获奖情况,Bard给了两个不同的错误获奖名单。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

另一个网友又问了一个和翻译有关的问题,结果也不太对。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

似乎它对语言中单词字数非常不敏感,经常会数错。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

而对于谷歌重点宣传的代码能力,似乎Bard的表现也不够好,难道原因是在Stackoverflow上没有对应的答案?

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

还有人也模仿谷歌的行为,让ChatGPT从MP4中提取视频帧,然后解释视频……

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

ChatGPT自主从从视频中提取帧,然后网友上传6张对应图片,让ChatGPT给出具体的解释。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

Gemini时代来临了


作为谷歌DeepMind的领导人,Demis Hassabis也是兴奋不已,并表示「Gemini的时代来临了」。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

最新Wired的采访中,Hassabis直言道,谷歌今天宣布的人工智能模型Gemini为人工智能开辟了一条未被实践的道路,可能会带来重大的新突破。

「作为一名神经科学家和计算机科学家,多年来我一直想尝试创造一种新一代的人工智能模型。而这些模型的灵感来自我们所有感官互动和理解世界的方式」。

「Gemini是向这种『多模态』模型迈出的一大步」。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

他继续道,「到目前为止,大多数模型都是通过训练单独的模块,然后将其拼接在一起,来实现多模态能力」。

「对于某些任务来说,这是可以的,但是在多模态空间中,无法进行深度复杂推理」。

这似乎是在暗指OpenAI的技术。

我们都知道,ChatGPT的多模态能力,是由GPT-4、DALL·E 3、Whisper多个模型组合而实现的。

今年5月的谷歌开发者大会I/O上,劈柴首次官宣,谷歌正在训练一个新的、更强大的PaLM继任者,名为Gemini。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

Gemini的命名也有深层的寓意,是为了纪念谷歌大脑和DeepMind两个团队实验室的合体,并向美国宇航局Gemini致敬。

7个月的时间,关于Gemini的各种爆料也是层出不穷。

而现在,谷歌以惊人的速度研发出Gemini,着实在年底之前来了一次重磅反击。

Hassabis说,新模型能够处理不同形式的数据,包括文本之外的数据,这是该项目从一开始就愿景的关键部分。

许多人工智能研究人员认为,能够利用不同格式的数据是自然智能的一项关键能力,而这正是机器所缺乏的。

ChatGPT等AI大模型因从强大的互联网数据中学习,获得了灵活且强大的泛化能力。

但是,尽管ChatGPT和类似的聊天机器人可以用同样的技巧,来讨论或回答有关物理世界的问题,但这种表面上的理解很快就会瓦解。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

许多人工智能专家认为,要使机器智能取得重大进步,就需要AI系统在物理现实中赋予身体,即「具身」。

Hassabis表示,谷歌DeepMind已经在研究,如何将Gemini与机器人技术相结合,与世界进行物理互动。

「要实现真正的多模态,你需要包括触觉和触觉反馈。将这些基础型模型应用于机器人技术有很多希望,我们正在大力探索」。

目前,谷歌已经朝着这个方向迈出了一小步。

5月,该公司宣布了一款名为Gato的AI模型,能够学习执行各种任务,包括玩Atari游戏、为图像添加字幕,以及使用机械臂堆叠积木。

今年7月,谷歌RT-2机器人模型,便是通过语言模型来帮助机器人理解和执行动作。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

为了让AI智能体更可靠,就需要为其提供动力的算法必须更加智能。

前段时间,OpenAI曾被曝出开发一个名为「Q*」的项目,网友纷纷猜测可能用到了「强化学习」,这是AlphaGo的核心技术。

不过,Hassabis称,谷歌目前正在按照类似的思路进行研究。

AlphaGo的进步有望帮助改善未来模型的规划和推理,就像今天推出的模型一样。我们正在努力进行一些有趣的创新,以将其带入Gemini的未来版本。

「明年,你将会看Gemini超强进化」。

看来,正如网友所说,我们离GPT-5降临的那一天也不远了。

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?

现在,谷歌有Gemini,微软有GPT,Meta有LLaMA,Anthropic有Claude,这是否意味着苹果iPhone时代的终结?

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?参考资料:https://twitter.com/parmy/status/1732811357068615969https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?


谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?
谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...