wget 应用技巧

wget 使用技巧

转载自：http://blog.163.com/lgh_2002/blog/static/44017526200911103111721/

wet是一个命令行的下载工具。对于我们这些 Linux 用户来说，几乎每天都在使用它。下面为大家介绍几个有用的 wget 小技巧，可以让你更加高效而灵活的使用 wget。

这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中，

-np

的作用是不遍历父目录，

-nd

表示不在本机重新创建目录结构。

与上一条命令相似，但多加了一个

--accept=iso

选项，这指示 wget 仅下载 i386 目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名，只需用逗号分隔即可。

该命令常用于批量下载的情形，把所有需要下载文件的地址放到 filename.txt 中，然后 wget 就会自动为你下载所有文件了。

这里所指定的

-c

选项的作用为断点续传。

该命令可用来镜像一个网站，wget 将对链接进行转换。如果网站中的图像是放在另外的站点，那么可以使用

-H

选项。

wget --spider 看返回值L
如: 200 304 403 404 ...

HTTP request sent, awaiting response... 200 OK
Length: 1,494 [text/html]
200 OK

HTTP request sent, awaiting response... 404 Not Found
17:41:50 ERROR 404: Not Found.

最常見的使用方式:

1. 下載某檔案

wget http://xxx.xxx.xxx.xxxx/file.tar.gz

2. 砍站(類似teleport pro)

wget -r http://xxx.xxx.xxx.xxxx/

3. 砍站無視robots.txt檔案 , 我想這才是您想知道的吧..

在告訴您之前,請想想robots.txt的用途, 以及為何管理者設了這個東西.

以及您無視robots.txt後對網站及管理造成的負擔/困擾...

我先說我的處理方式:

心情好時,無視此行為,反正網站就是要給你看的..

心情差時,拒絕該區段ip連線,例如: 163.19.163.99 砍站, 我就拒絕 163.19.163.0/24 .

甚者...拒絕該ip所屬isp或是所屬國家所有區段.

wget -erobots=off http://xxx.xxx.xxx.xxxx/

實測: 當沒有加上 -erobots=off 只會抓取網頁的首頁及robots.txt ,若加上,則會進行砍站動作.

4. 若對方網站拒絕Wget...

wget -m -U "Mozilla/5.0 (compatible; Konqueror/3.2; Linux)" http://xxx.xxx.xxx.xxx

則可以偽裝為其他瀏覽器...