懒人采集器 网页数据采集 v2.8.0.0下载

分类:网络辅助 大小:34.7 MB 更新日期:2024年11月27日
本站评级:★★★★☆ 语言:简体中文 授权版本:官方免费 运行环境:Windows 11,Windows 10,Windows 8,Windows 7

懒人采集器 网页数据采集 v2.8.0.0


懒人采集器软件是一款非常简单的网页数据采集工具,它具有可视化的工作界面,用户通过鼠标就可以能够完成对网页数据的采集,该程序的使用门槛非常低,任何用户都可以能够轻松使用它就行数据采集而不需要用户拥有爬虫程序的编写能力;通过这款软件,用户可以能够在大多数网站中采集数据,包括可以能够在一些单页应用Ajax加载的动态网站中获取用户需要的数据信息;软件中内置高速的浏览器引擎,用户可以能够自由切换多种浏览模式,让用户轻松以一个直观的方式去对网站网页进行采集;该程序安全无毒,使用简单,需要的朋友欢迎下载使用。

懒人采集器

软件功能

1、可视化向导:自动为所有集合元素生成集合数据。

2、计划任务:灵活定义运行时间,自动运行。

3、多引擎支持:支持多个收集引擎,内置的高速浏览器内核,HTTP引擎,JSON引擎。

4、智能识别:可以能够自动识别网页列表,收集字段,页面等。

5、拦截请求:自定义拦截的域名,以方便对场外广告的过滤,提高收集速度。

6、各种数据导出:可以能够导出到TXT,Excel,mysql,SQL Server,SQLite,access,网站等。

软件特色

零门槛

即使是不会网络爬虫技术,也可以能够轻松浏览互联网网站并收集网站数据,软件操作简单,可通过鼠标点击的方式轻松选取要抓取的内容。

  多引擎,高速,稳定

内置于高速浏览器引擎中,您也可以能够切换到HTTP引擎模式以更有效地收集数据。它还具有一个内置的JSON引擎,该引擎无需分析JSON数据结构并直观地选择JSON内容。

  先进的智能算法

先进的智能算法可以能够生成目标元素XPath,自动识别网页列表,并自动识别分页中的下一页按钮。 它不需要分析Web请求和源代码,但是支持更多的Web页面收集。

  适用于各种网站

它可以能够收集99%的Internet站点,包括动态类型,例如单页应用程序Ajax加载。

使用方法

步骤1:设定起始网址

要收集网站数据,首先,我们需要设置进入收集的URL。例如,如果要收集网站的国内新闻,则应将起始URL设置为国内新闻栏列表的URL,但是通常不会将网站的主页设置为起始地址,因为主页通常包含许多列表,例如最新文章,热门文章和推荐文章Chapter和其他列表块,这些列表块中显示的内容也非常有限。一般来说,收集这些列表时无法收集完整的信息。

接下来,我们以新浪新闻集为例,从新浪首页查找国内新闻。但是,此列首页上的内容仍然很混乱,并且分为三个子列

懒人采集器

让我们看一看“内地新闻”的子栏目报道

懒人采集器

此列页面包含带有分页的内容列表。通过切换分页,我们可以能够收集此列下的所有文章,因此此列表页面非常适合我们收集起始URL。

现在,我们将在任务编辑框的步骤1中将列表URL复制到文本框中。

懒人采集器

如果您要在一个任务中同时收集国内新闻的其他子列,您还可以能够复制其他两个子列的列表地址,因为这些子列的格式相似。但是,为了便于导出或发布分类数据,通常不建议将多个列的内容混合在一起。

对于起始URL,我们还可以能够从txt文件中批量添加或导入。例如,如果我们要收集前五个页面,我们还可以能够通过这种方式自定义五个起始页面

懒人采集器

应当注意,如果在此处自定义多个分页列表,则在后续的收集配置中将不会启用分页。通常,当我们要收集列下的所有文章时,我们仅需要将列的第一页定义为起始URL。如果在后续的收集配置中启用了分页,则可以能够收集每个分页列表的数据。

步骤2:①自动生成列表和字段

进入第二步后,对于某些网页,惰性收集器将智能分析页面列表,并自动突出显示页面列表并生成列表数据,例如

懒人采集器

然后我们可以能够修剪数据,例如删除一些不必要的字段

懒人采集器

单击图中的三角形符号以弹出该字段的详细采集配置。 点击上方的删除按钮以删除该字段。 其余参数将在以下各章中分别介绍。

如果某些网页自动生成的列表数据不是我们想要的数据,则可以能够单击“清除字段”以清除所有生成的字段。

懒人采集器

如果我们的列表不是手动选择的,那么它将自动列出。 如果要取消突出显示的列表框,可以能够单击“查找列表-列出XPath”,清除其中的XPath,然后确认。

②手动生成列表

单击“搜索列表”按钮,然后选择“手动选择列表”

懒人采集器

按提示,然后用鼠标左键单击网页列表中的第一行数据

单击第一行,然后按提示单击第二行或其他类似的行

懒人采集器

单击列表中的任意两行后,整个列表将突出显示。 同时,列表中的字段也将生成。 如果生成的字段不正确,请单击“清除字段”以清除下面的所有字段。 下一章将介绍如何手动选择字段。

懒人采集器

③手动生成字段

点击“添加字段”按钮

懒人采集器

在列表的任何行中单击要提取的元素,例如标题和链接地址,然后用鼠标左键单击标题

懒人采集器

当您单击Web链接时,系统将提示您是否获取链接地址

懒人采集器

如果要提取链接的标题和地址,请单击“是”。 如果您只想提取标题文本,请单击“否”。在这里,我们单击“是”。

懒人采集器

系统将自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。 单击底部表格中字段的标题时,匹配的内容将在网页上以黄色背景突出显示。

如果标签列表中还有其他字段,请单击“添加字段”,然后重复上述操作。

④分页设置

当列表具有分页时,启用分页后可以能够收集所有分页列表数据。

页面分页有两种

常规分页:有一个分页栏,并显示“下一页”按钮。单击后,可以能够进入下一页,例如之前在新浪新闻列表中的分页

级联:将滚动条拉到底部时,将自动加载下一页

对于普通分页,我们选择尝试自动或手动设置

自动分页

懒人采集器

创建新任务时,默认情况下不启用分页。单击“不启用分页”以弹出菜单,然后选择“自动识别分页”。如果识别成功,将弹出一个对话框,提示“已成功识别并设置了分页元素!” ,并在网页的“下一页”按钮上显示突出显示的红色虚线框(某些网页按钮可能不会显示虚线框),以便成功启用自动分页

懒人采集器

如果自动识别识别,将出现以下绿色提示框

懒人采集器

手动设置分页

在菜单中选择“手动分页”

懒人采集器

然后,“搜索页面”按钮将自动出现。点击按钮弹出菜单,然后选择“标记分页”

懒人采集器

按提示向导,然后单击“下一页”按钮

懒人采集器

单击后,突出显示的红色虚线框将出现在网页的“下一页”按钮上(某些网页按钮可能不会显示虚线框),因此已成功标记了分页。如果要查看刚刚设置的页面调度XPath,可以能够在菜单中选择“页面调度XPath”以查看页面调度XPath。您也可以能够在此处手动输入XPath进行设置。

懒人采集器

级联

某些网页需要将滚动条拖到底部才能进入下一页。例如,可以能够通过从菜单中选择瀑布页面来激活诸如今天的头条新闻和知虎之类的网站。使用瀑布流分页收集时,页面将自动滚动到底部,直到分页完成或达到指定的页数为止。

最大分页

指定最大分页数,即切换页面的次数不超过此次数。

懒人采集器

⑤收集内容页面等多级网页

如果要在当前页面字段列表中收集辅助页面(例如内容页面或更深的页面,级别3,级别4等),则必须有一个字段来提取链接地址,即带有href的属性,如图所示

懒人采集器

单击此字段的标题栏,选择列,然后将出现“深层链接页面集合”按钮

懒人采集器

单击此按钮后,将自动创建配置选项卡,并且将自动打开带有先前选择字段的URL。

懒人采集器

采集模式也会自动显示为“单一模式”

懒人采集器

列表模式:用于提取网页列表中的数据。预览中可以能够看到多个数据

单一模式:适用于在内容详细信息页面中收集各种信息,例如文章标题,时间,文本等

因为我们深入收集的页面是内容页面,所以使用默认的“单一模式”

然后,我们创建一个新字段以提取文章在网页中的发布时间。由于文章的标题已从第一级列表集合中提取,因此无需重复。当集合运行时,多个页面的字段将自动合并为一个表数据。

继续创建一个新字段以提取主体

懒人采集器

为了保持原始文本的段落格式,可以能够在此选择innerHTML作为value属性,即从该字段提取的数据包含HTML标记

懒人采集器

步骤3:其他设定

在基本设置的第三步中,我们可以能够在浏览器上进行一些设置,例如禁用图像,JS,Flash,框架等,以提高浏览网页的速度。

您还可以能够设置浏览器身份(用户代理),代理IP,请求间隔时间等

用户代理:网页通过读取浏览器身份获取客户端的一些信息

请求间隔时间:用于减少请求的频率,即降低获取速度,以避免由于获取速度太快而导致IP被阻塞。如果不需要减速,则可以能够将其设置为0

多值连接器:在字段中设置多个xpah以提取多个元素时,此处定义的连接器用于连接多个元素值

HTTP引擎线程数:使用HTTP请求时,多个线程中运行的线程数。同一HTTP请求的任务可以能够被多个线程同时拆分和收集,以提高收集速度。它仅适用于HTTP引擎,不适用于浏览器引擎。

懒人采集器

版权声明:懒人采集器所展示的资源内容均来自于第三方用户上传分享,您所下载的资源内容仅供个人学习交流使用,严禁用于商业用途,软件的著作权归原作者所有,如果有侵犯您的权利,请来信告知,我们将及时撤销。


软件下载信息清单:


驱动文件名称 发布日期 文件大小 下载文件名
懒人采集器安装包 2024年11月27日 34.7 MB lanrencaiji.zip
下载地址:

相关推荐: 驱动大全 / 软件下载

软件评论

昵称*

手机*

网址

驱动总数
22526+
文章总数
3520+
评论条数
265+
运行天数
300+