AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!

758次阅读
没有评论

AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!
AI治理必修9月(下)第39刊发布!

AAIG的专家们用多学科的专业视角,每月从全球收集和筛选关于算法治理和可持续发展的全球态势。重点关注算力时代的新技术、新风险、新实践、以及对它们新解释。

9月(下)共16篇文章3125字,分【本月洞察、行业动态、前沿技术、产业实践】四个板块展开。
AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!
点击题目即可查看全文AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!1. Yann LeCun舌战参议院:捍卫Llama开源大模型AI巨头Yann LeCun在参议院回答议员关于开源Llama大模型的问题,给出有理有据的回应。Llama作为全球排名第一的开源模型,对AI学界和企业界至关重要。尽管有批评,但他认为全世界都应该感谢Meta在AI开源贡献上的作用。他的捍卫为Llama开源展示了他的尊敬。AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!
1. 破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型

新加坡团队发布”NExT-GPT”,实现任意模态输入到输出,受到关注和赞赏。NExT-GPT通过连接现有开源模型和编码器实现多模态处理和生成。与CoDi相比,它更具灵活性和推理能力。


2. 大语言模型真能“理解”语言吗?本文旨在探讨近年来人工智能研究界的一个大热议题:大语言模型是否能像人类一样理解自然语言,从而理解语言所描述的物理场景和社会场景?我们总结了支持方和反对方的论证,以及这些论证背后的、更广义的智能科学的关键问题。我们认为,应该发展这样一种智能科学,使其能够为不同形式的‘理解’、这些不同形式理解的长处和局限、以及如何整合不同形式的认知等问题提供启发。3. 20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了上海AI实验室与商汤科技、香港中文大学和复旦大学合作开源了200亿参数的InternLM-20B模型。该模型在语境长度、工具调用、综合性能等方面都表现优秀,具有较强的理解和推理能力。同时,InternLM-20B还注重价值对齐,能够识别并引导正确的价值观。这一开源模型的推出意味着大模型的应用将更加广泛和安全。
4. 多LLM协同作战!清华等开源多智能体框架AgentVerse:合作打造Minecraft物品,还能训练宝可梦

AgentVerse框架提供了高效的环境搭建和定制组件,实现多智能体之间的协作,其性能优于单智能体。该框架包括专家招募和协同决策两个阶段,模拟人类群体的问题解决过程,提高自主多智能体群体的效果。


5. 大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免本文旨在测试在训练中学习了「A is B」的自回归语言模型 (LLM) 是否可以泛化到相反的形式「B is A」。这显示了模型在逻辑推理和泛化方面的失败,暗示了元学习的问题。这个问题不仅与模型体量和训练问题无关,而且需要重视训练数据和上下文的重要性。这个现象引起了广泛讨论,并提醒我们AI的局限性。6. 姚期智院士:人工智能最高层一直有“路线之争”

大模型是人工智能领域的热门方向,中国年轻学者在算法突破方面取得了重大进展,在机器人学习速度方面提高了数百倍。大模型在垂直领域的发展,特别是在医疗行业中的应用潜力巨大。姚期智和Stuart Russell对人工智能的发展提出了不同的观点和政策建议。


7. GPT-4太烧钱,微软想甩掉OpenAI?曝出Plan B:千块GPU专训「小模型」,开启必应内测微软计划将GPT-4和DALL·E 3整合到旗下产品中,但由于GPT-4成本高,已着手研发更节省资源的对话式AI模型。微软还在必应中使用GPT-4,但同时投入资源训练更小型的模型。微软与OpenAI之间的关系也在发生变化。


8. 姜子牙大模型系列|再创新高!姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0

IDEA研究院开源了代码大模型Ziya-Coding-34B-v1.0,在评测中取得了75.5的好成绩,超过了GPT-4。团队积累了丰富的经验,提供先进的大模型技术和经验,推进大模型生态发展。Ziya-Coding-34B-v1.0基于Code LLaMA 34B预训练模型,支持多种代码相关任务。团队持续探索并助力中国大模型社区发展。


9. 马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减

模型灾难性遗忘是当前的热门话题,研究人员发现微调后的多模态大模型存在灾难性遗忘问题。他们提出了评估框架EMT,并发现多数模型无法保持与其基础视觉编码器相似的分类性能。此外,过度微调也会导致灾难性遗忘。研究人员对四个模型进行了评估,发现其中大多数无法达到基础视觉编码器的性能。


10. A16Z联合创始人眼中的美好AI,却被马斯克讽刺“AI距离杀死人类还有多少年?”

A16Z联合创始人Marc Andreessen发表了一篇乐观的文章《为什么AI将拯救世界》,Elon Musk则讽刺了一句。文章试图澄清人们对AI的恐慌,讨论了与AI相关的风险,但也引起了争议。虽然不认同Andreessen的观点,但这不妨碍对AI发展进行探讨和翻译。

AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!
1. 《追AI的人》这是一档由AAIG联合高校和产业界发起的AI治理交互栏目。重点关注分享人工智能新技术、AI治理新观点、可持续发展新风向。
1)第29期:复旦大学桂韬《大模型有何安全伦理风险问题?看MOSS-RLHF如何实现人类与AI的价值观对齐》

AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!

1.大模型的训练过程;2.大模型的能力涌现;3.安全问题涌现的关键因素;4.价值对齐目标;5.MOSS-RLHF的关键要素。


2. Fashion AI|国庆长假怎么穿?塔玑虚拟模特演绎女明星都在穿的新中式穿搭!

由塔玑虚拟模特演绎6套新中式穿搭以及美拉德、cleanfit、约会穿搭等多种风格穿搭科普!一应俱全!


3. 通义千问14B开源!内附魔搭最佳实践

阿里云开源了Qwen-14B和Qwen-14B-Chat模型,拥有强大的性能和丰富的功能。用户可以免费使用,并通过魔搭社区或阿里云平台进行下载和调用。阿里云还提供全方位的服务支持。


4. 这套亚运邮票居然用上了AIGC,阿里云和中国邮政让创作这件事变简单了

杭州亚运会合作伙伴阿里云和中国邮政推出了杭州地标个性化实体邮票和智能邮筒,利用AIGC(生成式人工智能)技术生成邮品。邮票设计虚实结合,展现杭州真实建筑与未来城市图景,邮筒可生成个性化明信片。阿里云通义万相大模型在应用落地方面迈入新领域。


5. YOLOv8暴力涨点:Gold-YOLO,遥遥领先,超越所有YOLO | 华为诺亚NeurIPS23本文提出了全新的信息聚集-分发(Gather-and-Distribute Mechanism)GD机制,通过在全局视野上对不同层级的特征进行统一的聚集融合并分发注入到不同层级中,构建更加充分高效的信息交互融合机制,并基于GD机制构建了Gold-YOLO。在COCO数据集中,我们的Gold-YOLO超越了现有的YOLO系列,实现了精度-速度曲线上的SOTA。



📺直播预告

AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!
📌往期推荐
🌟《人工智能治理与可持续发展实践白皮书》

 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载


🔥《追AI的人》系列直播教你掌握互联网的“流量密码”  | 如何避免ChatGPT被滥用👉点击查收过往29期直播的全部文字回放
📚《AI治理必修》月刊为什么现在的LLM都是Decoder-only的架构? | 大脑视觉信号被Stable Diffusion复现成图像!”AI读脑术”来了👉点击阅读往期38刊月刊全文
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 | 信息茧房和马太效应是什么👉点击观看往期21期精彩视频

👇AAIG课代表,获取最新动态就找她AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!

 关注公众号发现更多干货❤️

AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!
AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!有启发点在看喔👇AI治理必修第39期:大语言模型真能“理解”语言吗?大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免!

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy