WebScraper 4.15.6 网页数据的爬取

634次阅读
没有评论

WebScraper 4.15.6 网页数据的爬取

应用介绍

WebScraper是一款网站数据采集工具,通过使用将数据导出为JSON或CSV的极简应用快速提取与某个网页相关的信息(包括文本内容),为您提供了以最小的努力快速从网上源提取内容的可能性。您可以完全控制将导出到CSV或JSON文件的数据。

使用多个线程快速扫描任何网站
在WebScraper主窗口中,您必须指定要扫描的网页的URL地址以及要用于完成此过程的线程数。你可以通过简单的滑动条来调整后一个参数。

为了避免任何不必要的扫描,您可以选择只抓取一个页面,然后通过简单的鼠标点击来启动该过程。在Live View窗口中,您可以看到每个链接返回的状态消息,这在处理调试任务时可能很有用。

提取各种类型的信息并将数据导出为CSV或JSON
在“WebScraper输出”面板中,您可以选择希望实用程序从网页中提取的信息的类型:URL,标题,说明,与不同类或ID关联的内容,标题,页面内容各种格式(纯文本,HTML或Markdown)和上次修改日期。

您还可以选择输出文件格式(CSV或JSON),决定合并空白,并在文件超过特定大小时设置警报。如果您选择CSV格式,您可以选择围绕列使用引号,采用什么而不使用引号或行分隔符类型。

最后但并非最不重要的是,WebScraper还允许您更改用户代理,为链接数量和来自家中的点击设置限制,可以忽略查询字符串,并可将根域的子域视为内部页面。

轻松地从在线资源中抓取信息,而无需太多的用户交互
WebScraper为您提供了快速扫描网站并将其内容与其他附加内容一起输出到JSON文件的CSV的可能性。无论何时您想离线访问数据而无需存储整个页面,该工具都非常棒。

更新日志

激活方法

直接安装

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy