大模型晚报|谷歌推出 AudioPaLM,一款能说会听的大语言模型

734次阅读
没有评论

大模型资讯:

谷歌推出 AudioPaLM,一款能说会听的大语言模型

据 huggingface 页面显示,谷歌研究团队近日推出一款大语言模型产品 AudioPaLM,可以实现语音理解和生成功能。

AudioPaLM 将两个大语言模型 PaLM-2 和 AudioLM 融合到一个统一的多模态架构之中,利用该架构处理和生成文本和语音。 AudioPaLM 还支持语音识别以及语音翻译。

试验表明,AudioPaLM 的表现显著优于现有的语音翻译系统。

YouTube 将推出AI配音功能,支持多种语言配音

 the verge 报道,YouTube 近日宣布与Aloud 合作,推出全新的 AI 语音功能,该功能目前正在测试之中,计划在2024年上线。

据悉,这项功能可以帮助创作者为视频自动配音,并将配音翻译为其他的语言。AI 会先将原本的内容转换成文字并进行翻译,之后会由 AI 根据翻译后的语言生成相应的配音。

YouTube相信,为视频配备不同语言的配音可以吸引更多的观众收看。

OpenAI首席执行官表态支持欧盟AI监管

据财联社报道,欧盟产业主管埃里·布雷顿在美国加州会见Meta公司首席执行官扎克伯格和OpenAI首席执行官奥特曼等人。

布雷顿表示,他和扎克伯格在欧盟的人工智能监管问题上“意见一致”,目前正在进行最后的谈判。布雷顿说,他们就水印等措施达成了一致。

OpenAI首席执行官奥特曼说,他也同意欧盟在人工智能方面的做法,并补充说:“我真的很感谢欧洲的机构在这里,以及对这个问题如此认真对待的远见,对世界其他地区也是如此。”

Stable Diffusion 版本更新,生成图片更加真实

Stability AI近日宣布,推出 SDXL 0.9 版本更新,对 Stable Diffusion 文本生成图片模型进行了升级。

升级之后的 Stable Diffusion 可以呈现更加逼真的图片效果,而且图像和构图细节也得以改进。

Stability AI 表示用户可以通过 ClipDrop 访问该模型,即将推出相关的 API,预计会在今年 7 月中旬发布的 1.0 版本。

AI笔电或带动新一波换机潮,业界预期最快2024年开始发酵

据科创板日报报道,AI热潮席卷全球,笔电品牌也开始锁定AI商机。

宏碁、惠普领头释出打造AI笔记本电脑的方向,要透过全新的AI芯片、软件应用,以及新的使用情境和体验,带动新一波笔电换机潮。宏碁已携手CPU厂商,预计把生成式AI或其他AI应用导入到终端装置,规划相关AI笔电应用案例将在2024、2025年陆续出现,推升AI相关笔电产品渗透率。

业界预期,AI笔电带来市场影响力,最快2024年就会开始发酵。

亚马逊云科技中国峰会即将召开,聚焦生成式AI等前沿科技

据亚马逊云科技官方消息,2023亚马逊云科技中国峰会将于6月27日至28日在上海举办。

本届峰会主题为因构建而可见,聚焦生成式AI、Web3、企业服务及智能设备出海等创投热门赛道。

据报道,本次峰会有超过270个展位展出,将有超过100个来自亚马逊云科技合作伙伴与行业客户的行业与技术展示,分布在汽车、制造、零售、游戏、媒体、金融、教育、医疗、电信、可持续等多个行业专区,以及端到端的云原生数据战略、下一代云基础架构、亚马逊云科技培训与认证、创业者、开发者等多个展区。

视频生成模型 zeroscope_v2 XL 开源

huggingface 页面显示,一款名为zeroscope_v2 XL  的视频生成模型现已开源。

zeroscope_v2 XL 基于 Modelscope 打造,可以通过文本生成 16:9 的高质量视频。

据悉,zeroscope_v2 XL 采用 24 帧、576×320 分辨率的 9923 个剪辑和 29769 个标记帧进行训练。

掌趣科技与悠米达成合作,将共同开发AI游戏创作平台

据36氪报道,掌趣科技近日宣布与悠米达成战略合作。

据悉,双方将共同开发“AI游戏创作平台”,降低开放世界游戏的开发门槛,实现个人及小团队也可以开发大规模的开放世界游戏,并通过该平台分享游戏成果。

据悉,掌趣科技将基于自身在游戏及AI技术、产品、运营、渠道等方面的优势,结合悠米在3A开放世界、万人同时在线交互、高精度物理仿真、数字人及虚拟现实场景编辑等领域的技术储备,实现在游戏创作和游戏体验方面的AI化提升,打造“AI+UGC”平台。

谷歌云推出AI驱动的金融产品

据科创板日报报道,谷歌云近日宣布推出一个新的AI驱动的反洗钱产品。

与市场上已有的许多其他工具一样,该公司的技术使用机器学习来帮助金融行业的客户遵守要求筛选和报告潜在可疑活动的法规。

Midjourney 开始测试5.2版本,增加诸多新功能

Midjourney 近日宣布正在测试5.2版本,该版本在原有基础上进行了诸多功能改进,并增加了一些新的功能。

在该版本中, MidJourney 增加了一个全新的 Zoom out 功能,可以模拟出不同的变焦效果。目前MidJourney 提供三种规格的变焦效果。

此外,新版本中还提供 Make Square 功能,可将图片调整为正方形图像。另外5.2版本还可以使用命令符对用户的 prompt 进行分析,帮助用户优化prompt 。

Dropbox 测试 AI 搜索工具 Dropbox Dash

 mspoweruser 报道,Dropbox 近日发布 AI 搜索工具 Dropbox Dash,帮助提高工作效率,简化工作流程。

Dropbox Dash 拥有 AI 驱动的搜索功能,将多个办公平台和应用聚合在一起,提高用户的搜索效率。他可以让用户在搜索栏中快速找到自己所需要的信息。 Dropbox Dash 还具备堆栈功能,可以帮助用户快速存储和整理相关地址。

据悉, Dropbox Dash 将会在未来引入生成式对答功能,根据用户提问进行回答。目前 Dropbox Dash 正在进行小范围测试,上线时间尚不确定。

美国商务部宣布成立 AI 公共工作组,应对生成式人工智能潜在风险

美国商务部部长吉娜・雷蒙多(Gina Raimondo)日前宣布,美国国家标准与技术研究院(NIST)将成立一个新的人工智能(AI)公共工作组,该工作组将在 NIST 人工智能风险管理框架(RMF)的成功基础上,进一步解决 AI 技术快速发展带来的问题。

美国商务部表示,该工作组将招募来自私营和公共部门的志愿者与技术专家,并将重点关注与生成式 AI 相关的风险,因为生成式 AI 正在推动技术和市场的快速变化。

AI 公司MosaicML推出300亿参数模型MPT-30B,表示训练成本仅为竞品零头

AI创业公司MosaicML近日发布了其语言模型MPT-30B,该模型具有300亿参数,训练成本“仅有其他同类竞品模型的零头”,有望促进行业逐步降低此类模型训练成本,扩大AI模型在更广泛领域的运用。

MosaicML 公司的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元(约 502.44 万元人民币),远低于 GPT-3 等同类产品所需的数千万美元训练成本。此外,由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并且更适合部署在本地硬件上。

MosaicML 公司表示,将模型扩展到 300 亿参数只是第一步,接下来他们将以降低成本为前提,推出体积更大、质量更高的模型。

重点论文:

中国的大型语言模型最新趋势

随着大规模预训练的人工智能模型在西方越来越受欢迎,许多中国人工智能实验室已经开发出了自己的模型,能够生成连贯的文本、逼真的图像和视频。

这些模型代表了人工智能研究的前沿,对人工智能伦理具有重要意义,不过目前还没有对这些模型进行深入的英语分析。该团队研究了中国开发的26个大规模预训练人工智能模型的样本,描述了它们的一般能力,并强调了政府、行业和学术界在支持这些项目中的合作作用。它还揭示了中国关于技术民族主义、人工智能治理和伦理的讨论。

论文链接:https://uploads-ssl.webflow.com/614b70a71b9f71c9c240c7a7/644fce359d9b266dd4f60a80_Trends%20in%20Chinas%20LLMs.pdf

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy