Cyotek WebCopy软件是一款强大的网页复制工具,它可以能够帮助您浏览整个网站,即使在没有Internet连接的情况下也可以能够检测;该程序的工作原理是浏览网站内的链接并创建内容列表,包括页面和其他类型的文件;通过这种方式,软件将获取能够使站点完全脱机的可用元素;该工具有一个优点,就是它可以能够重建所有链接,所以,当您单击其中一个链接时,它将不再指向原始的联机资源,而是指向硬盘上的链接;Cyotek WebCopy非常易于使用,因为只需输入网站的URL地址即可开始扫描相应的网站;此外,您还可以能够自定义设置一组规则来确定要下载的资源类型。

软件功能
规则
规则控制扫描行为,例如排除网站的一部分。还可以能够使用其他选项,例如下载要包含在副本中的URL,但不对其进行爬网
表格和密码
在分析网站之前,可以能够选择发布一个或多个表单,例如登录到管理区域。还支持HTTP 401质询身份验证,因此,如果您的网站包含受保护的区域,则可以能够预定义用户名和密码,或者在扫描时自动提示您输入凭据。
查看链接
在分析了网站之后,“链接地图查看器”允许您查看在网站中找到的所有链接(内部和外部)。通过过滤,您可以能够轻松查看找到的不同链接。
可配置选项
除了上面提到的规则和表格,您可以能够进行许多设置来配置网站的爬网方式,还可以能够配置域别名,用户代理字符串,默认文档等。
报告书
扫描网站后,您可以能够查看页面列表,错误,缺少页面,媒体资源等。
常用表达
几个配置选项使用正则表达式。内置的编辑器使您可以能够轻松测试表达式。
网站图
查看和自定义网站的直观图,也可以能够将其导出为图像。
软件特色
1、简单好用,可以能够帮助用户快速的将网站内容下载并保存到本地上。
2、自动化进行内容下载,大部分参数都不需要重新设置。
3、可以能够扫描网站并且允许用户制定软件下载的内容。
4、具备灵活的配置选项,轻松就可以能够完成网站的下载。
5、可以能够为静态网站的完整副本进行脱机浏览,或下载所有图像或其他资源。
6、将网站中的图片,视频,文件等一键下载保存到本地。
7、高效的爬取网站中的内容,提升用户的工作效率。
8、用户可以能够根据个人的需求自行配置软件爬取网站的规则。
9、可以能够使用正则表达式创建规则,以轻松的控制软件下载内容。
使用方法
1、在计算机上下载软件,然后解压后运行软件安装,完成安装之后打开软件。

2、 从“文件”菜单中,打开“新建”子菜单,然后选择“新建空白项目”。

3、此时将创建一个空项目,并将所有内容都设置为默认值。

4、在输入框中输入您需要复制的网页地址。

5、保存文件夹默认保存目录为c:\Downloaded Web Sites,您可以能够将“保存文件夹”字段保留为默认值或者自行修改。

6、设置完成以上的地址之后,就可以能够从项目菜单中选择复制网站,可以能够直接按F5完成网站复制,也可以能够点击WebCopy下载该网站。

7、单击保存文件夹右侧的绿色箭头图标,以使用文件资源管理器进行查看。

8、完成之后,您可以能够从文件菜单中选择保存,或者按Control + S进行保存。

9、输入项目的文件名后,就可以能够单击“保存”按钮将网站保存下载来了。

官方教程
使用“捕获表单”工具自动捕获表单
向WebCopy添加表单定义的最简单方法是使用内置的捕获工具。

确保输入了您要复制的站点的地址,例如 https://demo.cyotek.com
从工具菜单中选择捕获表单使用嵌入式浏览器窗口,浏览网站,直到到达登录页面
WebCopy将在右上方窗口的列表中列出所有表单。选择最合适的表单(如果存在多个表单)
您也可以能够在嵌入式Web浏览器中填写表格-但不要提交!填写适当的值后,单击“扫描表单按钮以检测您输入的值
所有非隐藏的参数将被自动选择以包含在表单定义中。隐藏的参数通常仍然是必需的,但是WebCopy会自动从网站读取它们,并在每次发布时使用它们。这意味着使用动态值(例如防伪令牌)的表单可以能够轻松提交
单击创建表单按钮。这将自动创建一个指向用于发布表单的正确URL的定义以及定义的参数,然后关闭该工具。
重要
密码和表单数据以纯文本格式存储在WebCopy项目文件中。
复制网站
复制网站时,WebCopy将在复制开始之前提交任何表单定义,此后复制将正常进行。如果您使用WebCopy演示网站遵循了本教程,则会显示许多其他页面,例如authenticationprofile.php。

要制作网站的纯图像副本,我们需要配置一些规则。
表达选件
.*排除,抓取内容
\.png包含,停止处理
\.gif包含,停止处理
\.jpg包含,停止处理
第一条规则指示WebCopy完全不要将任何文件下载到保存文件夹,而仍要爬网HTML文件。这是通过使用表达式.*匹配所有URL以及规则选项Exclude and Crawl Content来完成的。
每个后续规则都会添加一个正则表达式来匹配特定的图像扩展名,例如\.png。然后使用“包含”选项来覆盖以前的规则并导致文件被下载。匹配后,无需继续检查规则,因此也设置了“停止处理”选项。另外,例如,您可能只有一条匹配多个扩展名的规则\.(?:png|gif|jpg)。
遵循这些规则,当您复制网站时,它将扫描所有HTML文件,但仅将与指定扩展名匹配的文件下载到保存文件夹。
打开一个远程URL
适用于:结果,错误,站点地图,跳过,文件和差异。
右键单击列表中的一项,然后选择“在浏览器
中打开”以在默认浏览器中打开远程URL。
打开本地文件
适用于:结果,站点地图,文件和差异。
右键单击列表中的项目,然后选择“打开本地文件”
以在默认注册的应用程序中打开本地文件。
打开本地文件夹
适用于:结果,站点地图,文件和差异。
右键单击列表中的项目,然后选择“打开本地文件夹”
以在本地文件的位置打开资源管理器窗口
编辑/预览本地文件
适用于:结果,站点地图,文件和差异。
右键单击列表中的项目,然后选择“编辑本地文件”
以打开文件
注意
图像将在默认注册的应用程序中打开。所有其他文件将在嵌入式文本编辑器中打开。
建立规则
适用于:结果,错误,站点地图,跳过,文件和差异。
右键单击列表中的一项,然后选择“添加规则”
以打开默认使用所选URL的规则编辑器。
查看入站和出站链接
适用于:结果,错误,站点地图,跳过,文件和差异。
右键单击列表中的项目,然后选择“传入/传出链接”
以查看指向和来自选定URL的URL列表。
查看URL的属性
适用于:结果,错误,站点地图,跳过,文件和差异。
右键单击列表中的项目,然后选择*属性
以显示URL的属性。
复制选择
适用于:结果,错误,站点地图,跳过,文件,差异和Cookie。
右键单击列表中的一个或多个项目,然后选择“复制”
将所选内容复制到Windows剪贴板。
导出为CSV
适用于:结果,错误,跳过,文件,差异和Cookies。
右键单击列表,然后选择“导出”
以将列表的内容导出到逗号分隔值(CSV)文档。
结果面板
此面板显示上次扫描或复印操作的结果。绿色图标表示操作成功,黄色图标表示由于项目设置而中止操作,红色图标表示错误。
该列表显示已处理的URL,URL的最终状态,如何找到URL以及URL内容的大小。
错误面板
错误面板显示上一次扫描或复制期间遇到的错误列表。跳过的URL(出于任何原因)不算作错误,因此未在此处列出。
站点地图面板
此面板显示复制的网站的结构,包括文件。
跳过面板
此面板显示所有被跳过的URL的列表。可以能够跳过URL的原因有几个,其中包括:
外部的URL,即不属于当前正在扫描的域
已通过规则排除的URL
URL在副本的起始URL之上
文件面板
此面板显示在爬网期间发现的文件的列表。与“站点地图”面板类似,它以平面列表形式显示。
差异面板
此面板显示当前扫描和上一次扫描之间的差异(例如新的或已删除的URL)。
Cookies面板
这将显示在爬网期间存储的所有cookie。
版权声明:Cyotek WebCopy(网页爬虫工具)所展示的资源内容均来自于第三方用户上传分享,您所下载的资源内容仅供个人学习交流使用,严禁用于商业用途,软件的著作权归原作者所有,如果有侵犯您的权利,请来信告知,我们将及时撤销。
软件下载信息清单:
驱动文件名称 | 发布日期 | 文件大小 | 下载文件名 |
---|---|---|---|
Cyotek WebCopy(网页爬虫工具)安装包 | 2024年11月10日 | 4.35 MB | CyotekWebCopy.zip |
软件评论