gather
php的简易采集器 可以通过简单的配置进行采集一些不太严格的网站平台
一个针对程序员编写的简单的网页采集工具
目前只支持不需要进行登录及权限认证即可访问的页面资源的采集功能,包括文章、下载资源等
目前暂时不支持IP代理功能,有需要的朋友可以自己进行扩展
目前暂时不支持只提供临时下载地址的资源的采集,即没有做本地化的处理功能
功能描述
1.支持多次跳转的资源下载功能
2.支持采集内容的字符替换功能
3.支持断点继续采集功能,根据设置PAGE_START参数
作者:Rain
联系QQ:563268276
网址:www.94cto.com / www.itziy.com / www.verypan.com
时间:2015-04-23
版本:V2
版权:可以进行任意修改,再发布及自己学习使用,不可用于非法用途,否则后果自负
使用方式
默认的配置文件名称是当前执行目录下的conf.ini
php gather.php conf.ini
温馨提示:默认情况下,我们认定Linux系统默认命令行编码为utf-8,window系统命令行的编码为GBK编码