科普|从生物心理学角度看多模态大模型发展史!

339次阅读
没有评论

《追AI的人》之AI科普系列短视频,将持续用简单清晰的语言向公众解释对于人工智能的普遍疑问,推动社会就人工智能的发展和治理达成共识。

科普|从生物心理学角度看多模态大模型发展史!
通过长安三万里这部电影,特别是其中的一段片段,我们可以深刻地理解多模态的应用。这一段片段复现了李白创作《将进酒》的经典场面,而通过动画的场景营造、人物背景介绍和声效配音演员的功力,相比纯粹的读一首诗的文本,观众们对这首诗的理解大大深化了。整个场景被多模态化后,这段片段成为了这部电影中最受欢迎的片段之一,并在各个直播平台和短视频平台上被剪辑传播。

要理解这段片段,我们需要识别李白的形象,识别语音中的情感和节奏感,还需要通过OCR技术在图片中识别出文字。这些元素的多模态结合,使得这段片段给人的印象非常深刻。所以,我们需要以某种方式对各种多模态信息进行建模,并将其融合到我们的认知中,然后根据这些信息做出判断,从而理解电影或片段。
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

行为时代

科普|从生物心理学角度看多模态大模型发展史!
多模态的认知过程经历了长时间的发展。在大约1970年左右,人们开始在生物学和心理学领域研究多模态。例如,英国的心理学家进行了一项有趣的实验,证明听觉在很大程度上受到视觉的影响。例如,当你看着我说话时,你可能会根据我的唇形来大致猜测我在说什么,而唇形可能会干扰你对语音的判断。

举个例子,假设有一部电影名字叫做《Elephant Juice》。如果你只根据唇形来判断的话,如果你旁边有异性,你可能会向他们低声说”Elephant Juice”,而如果你说得比较轻,他们可能会误解,以为你在说”I love you”之类的话。因为通过唇形感受,”Elephant Juice”和”I love you”非常相似。

科普|从生物心理学角度看多模态大模型发展史!

所以,这部电影也在提醒我们这个问题,即像”Elephant Juice”这样的词语时,当无声地对着旁边的异性念出”Elephant Juice”时,大多数人都会误认为是”I love you”的发音。这是因为”I love you”这个文本比较常见,而”Elephant Juice”这个搭配比较奇怪。在这个过程中,唇形作为一种视觉信息对语音和文字的理解也会产生影响。

换句话说,多模态的融合并不一定只有优势,它也可能会产生各种模态之间的干扰。


科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

计算时代

科普|从生物心理学角度看多模态大模型发展史!
进入计算时代后,我们需要将这些多模态信息数字化。例如,声音可以转化为信号,而在声音信号的识别准确度方面,逐步引入视觉信号可以大幅提高识别准确率。在交互时代,像CMU等著名大学开始尝试数字视频库等多模态计算项目。这个时代是一个交互时代,人机交互越来越常见,例如与Siri的交互,记录会议录音并同步音视频进行转录或注释,以及使用多传感器和多模态信号进行面对面交互。
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

交互时代

科普|从生物心理学角度看多模态大模型发展史!
在交互时代,我们主要是进行信号处理,将多模态信号融合在一起,以完成单模态无法完成的任务。然而,真正实现多模态智能化的是深度学习时代,即从2010年后或2012年后开始的时代。在这个时代,大规模的高质量标准数据集如ImageNet、强大的GPU计算能力以及视觉侧和文本侧的特征提取器的发展,是推动多模态深度学习的核心。
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!

深度学习时代

科普|从生物心理学角度看多模态大模型发展史!
在深度学习时代,多模态的发展非常迅速,催生出各种文档识别、图像搜索、AI生成等与多模态有关的应用,如在淘宝上使用的图搜功能,搜同款等。多模态作为一门融合性学科,需要对文本、图片、声音等各种模态进行特征提取。这些模态本身是一些杂乱的信息,需要有序地建模到计算机便于接受的类型。例如,图片是由像素组成的,每个像素的数字对应不同的颜色。
因此,在计算机中,图片可以转化为一串数字。对于文本也是一样,需要将文字转化为计算机能够理解的数字编码。音频和文本,它们也有些相似之处,都是由一段段音节或词汇组成的,需要将它们进行数字化编码。数字化编码之后,我们需要进行特征提取。例如,当人类看一张图片时,不会从像素级别逐个看过去,而是扫一眼,能够大概看出这是一个杯子里装着红色的饮料,然后再去看细节部分。因此,在这个过程中,我们需要控制自己的注意力,也就是控制我们的感受野,以及将一串数字变成计算机或人工智能能够理解的矩阵向量,称为特征向量,或者表征。
更多关于多模态的知识,点击阅读👇科普|从生物心理学角度看多模态大模型发展史!
📌往期推荐
🌟《人工智能治理与可持续发展实践白皮书》 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播教你掌握互联网的“流量密码”  | 如何避免ChatGPT被滥用👉点击查收过往29期直播的全部文字回放
🎈算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异“大数据杀熟” 的背后👉点击阅读更多算法治理干货
📚《AI治理必修》月刊为什么现在的LLM都是Decoder-only的架构? | 大脑视觉信号被Stable Diffusion复现成图像!”AI读脑术”来了👉点击阅读往期38刊月刊全文
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 | 信息茧房和马太效应是什么👉点击观看往期21期精彩视频

👇AAIG课代表,获取最新动态就找她科普|从生物心理学角度看多模态大模型发展史!

 关注公众号发现更多干货❤️

科普|从生物心理学角度看多模态大模型发展史!
科普|从生物心理学角度看多模态大模型发展史!科普|从生物心理学角度看多模态大模型发展史!有启发点在看喔👇科普|从生物心理学角度看多模态大模型发展史!

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy