博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Simple spider with wget
阅读量:5746 次
发布时间:2019-06-18

本文共 1120 字,大约阅读时间需要 3 分钟。

一些临时且定制程度很高的抓取工作,使用系统化的爬虫往往没有使用Shell 效率高,下面是一些思路。

事先用脚本分析出下载连接,存放在一个文件中,然后用split 切割成若干个文件,文件数取决于希望的并发下载进程数量。

使用Wget 进行下载:

View Code BASH
 nohup cat links.txt.aa |awk '{print "wget \""$0"\" --user-agent=\"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6\" -a wget.log -nv "}'| sh & nohup cat links.txt.ab |awk '{print "wget \""$0"\" --user-agent=\"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6\" -a wget.log -nv "}'| sh & nohup cat links.txt.ac |awk '{print "wget \""$0"\" --user-agent=\"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6\" -a wget.log -nv "}'| sh &

模拟了UA,当然模拟Cookies、reference 都没有问题,稍后补上吧。

根据wget.log 统计下载速度:

日志格式:

View Code BASH
 2012-02-01 17:23:32 URL:http://a.b.com/d.zip [196986/196986] -> "d.zip" [1]2012-02-01 17:23:45 URL:http://a.b.com/e.zip [49455/49455] -> "e.zip" [1]

One-liner 脚本:

View Code BASH
 cat ~/wget.log |grep "2012-02-02 17:..:.."|awk '{a+= substr($4, 2, index($4, "/")-2)}END{print a}'

- 相关文章:

  • ⋯⋯⋯⋯

Name (required)

转载地址:http://ddxzx.baihongyu.com/

你可能感兴趣的文章
PowerDesigner学习--概要介绍
查看>>
使用zsh的十大优点
查看>>
Kubernetes 监控方案之 Prometheus Operator(十九)
查看>>
设置pycharm的工具栏字体大小---等
查看>>
php正则表达式
查看>>
收集到特拉斯的《引力的动态理论》之中的几句话
查看>>
【SQL】Oracle生成随机数及字符串
查看>>
ngx_http_process_request_line函数解析
查看>>
Haproxy支持SSL配置
查看>>
RHEL7用户及组的管理
查看>>
CentOS7 搭建 iSCSI网络存储
查看>>
远程连接
查看>>
Sublime Text3下的vi编辑模式?
查看>>
js中的filter方法和map方法
查看>>
PHP中使用CURL实现GET和POST请求的方法
查看>>
citrix xendesktop打印机映射问题
查看>>
大数据技术用哪些语言?
查看>>
Java基础数组
查看>>
centos7root密码破解及聚合链路
查看>>
LVM的管理
查看>>