全球主机交流论坛

标题: 有没有一种软件,可以全自动爬行下载目标页面 [打印本页]

作者: jm198321    时间: 2018-1-13 16:27
标题: 有没有一种软件,可以全自动爬行下载目标页面
带爬取链接深度设定功能

比如我想下载某个网站所有的二级目录

http://www.a.com/abc/

http://www.a.com/def/

http://www.a.com/ghi/


有些模板扒皮软件可以,但是好像不能自动爬取所有链接。

下载了一个叫 HTTrack Website Copier 的工具满足我的需求,但是好像有问题,在下载的时候缓存的文件是 *.html.tmp,但下载结束后,所有Html文件都会自动消失,不知道为什么。
作者: fengpioaxue    时间: 2018-1-13 16:28
火车头可以把?
作者: jm198321    时间: 2018-1-13 16:29
fengpioaxue 发表于 2018-1-13 16:28
火车头可以把?

火车头要针对性的写规则,我是要全站全部爬取。
作者: cgs3238    时间: 2018-1-13 16:44
wget 下载整个网站,或者特定目录

1、需要下载某个目录下面的所有文件。命令如下
  1. wget -c -r -np -k -L -p http://www.xxx.org/pub/path/
复制代码


2、在下载时。有用到外部域名的图片或连接。如果需要同时下载就要用-H参数。
  1. wget -np -nH -r --span-hosts http://www.xxx.org/pub/path/
复制代码


-c 断点续传
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件
-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录
-np 递归下载时不搜索上层目录,如wget -c -r www.xxx.org/pub/path/
没有加参数-np,就会同时下载path的上一级目录pub下的其它文件
-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L 递归时不进入其它主机,如wget -c -r www.xxx.org/
如果网站内有一个这样的链接:
www.yyy.org,不加参数-L,就会像大火烧山一样,会递归下载www.yyy.org网站
-p 下载网页所需的所有文件,如图片等
-A 指定要下载的文件样式列表,多个样式用逗号分隔
-i 后面跟一个文件,文件内指明要下载的URL
作者: spanfkyous    时间: 2018-1-13 16:48
以前好像有个 Teleport Ultra(网站整站下载器)
作者: charli    时间: 2018-1-14 09:08
IDM
作者: 欧阳逍遥    时间: 2018-1-14 09:13
webzip ?
作者: Candy    时间: 2018-1-14 09:24
以前迅雷带这功能,当然了现在是纯垃圾
作者: 尼欧一方通行    时间: 2018-1-14 09:25
cgs3238 发表于 2018-1-13 16:44
wget 下载整个网站,或者特定目录

1、需要下载某个目录下面的所有文件。命令如下

这个命令我从来没有成功下载过,只能扒下来一部分没用的文件,整站不存在的
作者: helwo    时间: 2018-1-14 09:42
https://pan.baidu.com/s/1gePSSpH
密码:ubg4


看这个软件是否满足你要求
作者: coxyblog    时间: 2018-1-14 10:32
wget啦
作者: cszlxl    时间: 2018-1-14 10:58
也来学习一下。。
作者: baymin    时间: 2018-1-14 12:10
helwo 发表于 2018-1-14 09:42
https://pan.baidu.com/s/1gePSSpH
密码:ubg4


大佬,文件不在了
作者: 橙影    时间: 2018-1-14 12:10
提示: 作者被禁止或删除 内容自动屏蔽
作者: eqblog    时间: 2018-1-14 12:11
最近一直在学python

你可以用爬虫解决这一切,没错就是这样简单
作者: sskdgu    时间: 2018-1-14 12:11
webdump
作者: helwo    时间: 2018-1-14 13:52
baymin 发表于 2018-1-14 12:10
大佬,文件不在了

难道我这边有问题。我可以访问。奇怪了
作者: wenguonideshou    时间: 2018-1-14 14:05
Python手写爬虫
作者: d5d    时间: 2018-1-14 14:06
离线阅读软件
作者: baymin    时间: 2018-1-14 20:38
cgs3238 发表于 2018-1-13 16:44
wget 下载整个网站,或者特定目录

1、需要下载某个目录下面的所有文件。命令如下

习惯性的wget -m
作者: baymin    时间: 2018-1-14 20:40
helwo 发表于 2018-1-14 13:52
难道我这边有问题。我可以访问。奇怪了

现在可以了,之前显示 目录什么什么不存在 之类
作者: ultramancliub    时间: 2018-1-14 21:54
持续关注




欢迎光临 全球主机交流论坛 (https://gebi.eu.org/) Powered by Discuz! X3.4