社区供稿 | Transformers.js 2.9.0 发布, 新增深度估计、无标注物体检测和光学文档理解

1,062次阅读
没有评论

近日,Transformers.js 作者 Joshua Lochner 在 GitHub 上发布了 Transformers.js 2.9.0。

他称这次的发布是:😍 令人振奋的新任务!

Transformers.js v2.9.0 增加了对三项新任务的支持:(1) 深度估计,(2) 无标注物体检测,和 (3) 光学文档理解。

🕵️‍♂️ 深度估计

预测图像中物体深度的任务。阅读原文获取更多信息。

import { pipeline } from '@xenova/transformers';
// 创建深度估计管道let depth_estimator = await pipeline('depth-estimation', 'Xenova/dpt-hybrid-midas');
// 为图像预测深度let url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/cats.jpg';let output = await depth_estimator(url);输入(Input)输出(output)

社区供稿 | Transformers.js 2.9.0 发布, 新增深度估计、无标注物体检测和光学文档理解

社区供稿 | Transformers.js 2.9.0 发布, 新增深度估计、无标注物体检测和光学文档理解

Raw output

// {// predicted_depth: Tensor {// dims: [ 384, 384 ],// type: 'float32',// data: Float32Array(147456) [ 542.859130859375, 545.2833862304688, 546.1649169921875, ... ],// size: 147456// },// depth: RawImage {// data: Uint8Array(307200) [ 86, 86, 86, ... ],// width: 640,// height: 480,// channels: 1// }// }

🎯 无标注物体检测

识别在训练期间未见过的类别的对象的任务。阅读原文获取更多信息。

import { pipeline } from '@xenova/transformers';
// 创建无标注物体检测管道let detector = await pipeline('zero-shot-object-detection''Xenova/owlvit-base-patch32');
// 预测边界框let url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/astronaut.png';let candidate_labels = ['human face''rocket''helmet''american flag'];let output = await detector(url, candidate_labels);

社区供稿 | Transformers.js 2.9.0 发布, 新增深度估计、无标注物体检测和光学文档理解

📝 光学文档理解(图像到文本)

此任务涉及将科学 PDF 的图像翻译成 Markdown,以便更轻松地访问它们。阅读原文获取更多信息。

import { pipeline } from '@xenova/transformers';
// 创建图像到文本管道let pipe = await pipeline('image-to-text''Xenova/nougat-small');
// 生成 Markdownlet url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/nougat_paper.png';let output = await pipe(url, { min_length: 1, max_new_tokens40,  bad_words_ids: [[pipe.tokenizer.unk_token_id]],});
// [{ generated_text: "# Nougat: Neural Optical Understanding for Academic DocumentsnnLukas BlechernnCorrespondence to: lblecher@meta.comnnGuillem Cucur" }]

查看输入图像

社区供稿 | Transformers.js 2.9.0 发布, 新增深度估计、无标注物体检测和光学文档理解

💻 新架构:Nougat、DPT、GLPN、OwlViT

我们增加了对 4 种新架构的支持,总数达到 61 个!

– DPT 用于深度估计。阅读原文查看可用模型列表。
– GLPN 用于深度估计。阅读原文查看可用模型列表。
– OwlViT 用于无标注物体检测。阅读原文查看可用模型列表。
– Nougat 用于学术文档的光学理解(图像到文本)。阅读原文查看可用模型列表。

🔨 其他改进

– 在 Llama 模型中添加对 Grouped Query Attention 的支持,由 @felladrin 在 #393 中贡献
– 由 @samlhuillier 在 #398 中实现最大字符检
– 在 #387 中添加 CLIPFeatureExtractor(和测试)
– 在 #395 中向 README 添加 jsDelivr 统计信息
– 在 #400 中更新 sharp 依赖版本

🐛 错误修复

– 由 @kungfooman 在 #404 中移动张量克隆以修复 Worker 拥有 NaN 问题
– 由 @do-me 在 #403 中为 multilingual-e5-* 模型添加默认 token_type_ids
– 确保 WASM 回退在 GH actions 中不会崩溃,参见 #402

🤗 新贡献者

– @felladrin 在 #393 中首次贡献
– @samlhuillier 在 #398 中首次贡献
– @do-me 在 #403 中首次贡献

本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AIHugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:https://hf.link/tougao

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少 闻乐 2026-01-05 19:...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 梦瑶 2026-01-0...
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...