wget 应用技巧
转载自:http://blog.163.com/lgh_2002/blog/static/44017526200911103111721/
wet是一个命令行的下载工具。对于我们这些 Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的 wget 小技巧,可以让你更加高效而灵活的使用 wget。
-
$ wget -r -np -nd http://example.com/packages/
这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中,
-np
的作用是不遍历父目录,
-nd
表示不在本机重新创建目录结构。
-
$ wget -r -np -nd --accept=iso http://example.com/centos-5/i386/
与上一条命令相似,但多加了一个
--accept=iso
选项,这指示 wget 仅下载 i386 目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名,只需用逗号分隔即可。
-
$ wget -i filename.txt
该命令常用于批量下载的情形,把所有需要下载文件的地址放到 filename.txt 中,然后 wget 就会自动为你下载所有文件了。
-
$ wget -c http://example.com/really-big-file.iso
这里所指定的
-c
选项的作用为断点续传。
-
$ wget -m -k (-H) http://www.example.com/
该命令可用来镜像一个网站,wget 将对链接进行转换。如果网站中的图像是放在另外的站点,那么可以使用
-H
选项。
wget --spider 看返回值L
如: 200 304 403 404 ...
HTTP request sent, awaiting response... 200 OK
Length: 1,494 [text/html]
200 OK
HTTP request sent, awaiting response... 404 Not Found
17:41:50 ERROR 404: Not Found.
最常見的使用方式:
1. 下載某檔案
wget http://xxx.xxx.xxx.xxxx/file.tar.gz
2. 砍站(類似teleport pro)
wget -r http://xxx.xxx.xxx.xxxx/
3. 砍站無視robots.txt檔案 , 我想這才是您想知道的吧..
在告訴您之前,請想想robots.txt的用途, 以及為何管理者設了這個東西.
以及您無視robots.txt後 對網站及管理造成的負擔/困擾...
我先說我的處理方式:
心情好時,無視此行為,反正網站就是要給你看的..
心情差時,拒絕該區段ip連線,例如: 163.19.163.99 砍站, 我就拒絕 163.19.163.0/24 .
甚者...拒絕該ip所屬isp或是所屬國家所有區段.
wget -erobots=off http://xxx.xxx.xxx.xxxx/
實測: 當沒有加上 -erobots=off 只會抓取網頁的首頁及robots.txt ,若加上,則會進行砍站動作.
4. 若對方網站拒絕Wget...
wget -m -U "Mozilla/5.0 (compatible; Konqueror/3.2; Linux)" http://xxx.xxx.xxx.xxx
則可以偽裝為其他瀏覽器...