owner888 / phpspider Goto Github PK

《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序

PHP 99.93% Shell 0.06% Go 0.01%

php phpspider

phpspider's Introduction

phpspider -- PHP蜘蛛爬虫框架

《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序

phpspider是一个爬虫开发框架。使用本框架，你不用了解爬虫的底层技术实现，爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码，就可以创建自己的爬虫，利用框架封装的多进程Worker类库，代码更简洁，执行效率更高速度更快。

demo目录下有一些特定网站的爬取规则，只要你安装了PHP环境，代码就可以在命令行下直接跑。对爬虫感兴趣的开发者可以加QQ群一起讨论：147824717。

下面以糗事百科为例, 来看一下我们的爬虫长什么样子:

$configs = array(
    'name' => '糗事百科',
    'domains' => array(
        'qiushibaike.com',
        'www.qiushibaike.com'
    ),
    'scan_urls' => array(
        'http://www.qiushibaike.com/'
    ),
    'content_url_regexes' => array(
        "http://www.qiushibaike.com/article/\d+"
    ),
    'list_url_regexes' => array(
        "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"
    ),
    'fields' => array(
        array(
            // 抽取内容页的文章内容
            'name' => "article_content",
            'selector' => "//*[@id='single-next-link']",
            'required' => true
        ),
        array(
            // 抽取内容页的文章作者
            'name' => "article_author",
            'selector' => "//div[contains(@class,'author')]//h2",
            'required' => true
        ),
    ),
);
$spider = new phpspider($configs);
$spider->start();

爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用$spider = new phpspider($configs);和$spider->start();来配置并启动爬虫.

运行界面如下:

更多详细内容，移步到：

开发文档

phpspider's People

Contributors

Stargazers

Watchers

Forkers

noname007 yyroom longniao huangynj jiaojie1989 hackbuteer59 mrzeta ckai1991 xxoxx burxtx xbbopen david-nangong yinyang tonywangcn chunkthinner liqiang0330 phpnuts esion1 liangdabiao mic101 solaa51 bupt-rzd 2yeslater yanwen qinbinhua601 hualinsen zenus joeyxy panjunchen mkdir1 elevenma peter158 watermelon-man newtalk yiihub zhuweb xihutou wangnanphp wuyf6 phperstar techping suhanyujie zhangyancoder yanguanglan qwxingzhe anzhj datamining2006 zhaowenzhi jiangzezhou1989 xuduzhou webwlsong whu404 no2key uestcxl fnu luyee xiaokunlee zhuhangyu sjclijie szldmgy fzfz liangmingjie javarike guanglinlv crushway wangjun 976112643 lbinf anothersummer xueshuai miaogong mingyun freedream520 xxxknight zhiyu-chen bitzhuxb matrixchan zhangf911 disappearedgod wcanpei kinpui mouhao superlinger lantingx7 flexpad jeffreyfan kltt22 mr-ji yanjlee jekay100 sunjingzhu face08 endachao kaiyiwang yocruzer heyulin shark2016 lirui181 sk81045 waltershe

phpspider's Issues

spider能不能和workerman的异步任务结合起来?

@owner888 大腿,求指点一下.spider怎么和workerman异步任务结合起来

field定义children子项如何保存到数据库？

field里children定义的子项，是如何保存子项数据到数据库的，是建立关联表吗？还是在回调函数里执行？

// 没有设置抽取规则的类型或者设置为 xpath
1678 if (!isset($conf['selector_type']) || $conf['selector_type']=='xpath')
1679 {
1680 // 返回值一定是多项的
1681 $values = $this->get_fields_xpath($html, $conf['selector'], $conf['name']);
1682 }
1683 elseif ($conf['selector_type']=='regex')
1684 {
1685 $values = $this->get_fields_regex($html, $conf['selector'], $conf['name']);
1686 }

貌似并没有支持jsonpath吧？
如果要抓取像这样一个url的数据 http://q.stock.sohu.com/hisHq?code=cn_000001&start=19800101&end=20161010， jsonpath格式应该合适, 提供个jsonpath数据处理的demo？

log win下输出中文乱码，log不能设置是否输出到文件

win下log输出中文乱码，没有转换编码成GB2312

文档set_hosts($hosts)有小错误

https://doc.phpspider.org/requests.html

$spider->on_start = function($phpspider)
{
$host = array(
'www.qiushibaike.com' => array(
"203.195.143.21",
"203.195.143.22"
),
);
requests::set_hosts($hosts);
};

$host = array(...); 的 $host 应为 $hosts

彩蛋有毒啊...

根据文档，一个一个对照...采用测试的方法进行测试都没有问题。但是就是一直[error] Unknown error...
无奈之下怒查源码,发现有毒彩蛋一枚。

    // 彩蛋
    $included_files = get_included_files();
    $content = file_get_contents($included_files[0]);
    if (!preg_match("#/\* Do NOT delete this comment \*/#", $content) || !preg_match("#/\* 不要删除这段注释 \*/#", $content))
    {
        $msg = "Unknown error...";
        log::error($msg);
        exit;
    }

爬取蚂蜂窝数据出问题

爬取导致ip被封出现403错误

可以只采集列表页的数据吗？

我要采集的页面只有列表页，点击就跳转到别的网站了。我只想采集列表页的数据，应该怎么配置？

使用 css 选择器的时候，可能会出错。

fields 中配置

'selector' => 'table > tr > td > h1',
'selector_type' => 'css',

会报错：PHP Fatal error: Call to undefined function pq() in ***\core\selector.php on line 236.
我吧这个改成phpQuery::pq()之后，也遇到了问题：

PHP Fatal error: Uncaught exception 'Exception' with message 'Can' use last created DOM, because there isn't any. Use phpQuery::newDocument() first." in ***\libary\phpQuery.php 4515

所以，我最后吧所有的css都改成了xpath 选择。到现在还在跑！

$conf配置children后，后续规则失效 bug，已定位

core/phpspider.php

`1715行：
public function get_fields($confs, $html, $url, $page)

1781行：
foreach ($values as $html)
{
// 递归调用本方法, 所以多少子项目都支持
$child_value = $this->get_fields($conf['children'], $html, $url, $page);
if (!empty($child_value))
{
$child_values[] = $child_value;
}
}`

foreach中使用外部已定义变量$html，会直接修改外部变量值，执行完children规则之后，$html成了最后一次匹配到的局部html，并不是整个网页的完整html

什么是CLI 运行环境？

在Centos 下搭配了PHP5.4 的运行环境，运行demo/jd.php 提示需要在CLI运行环境下进行，不知道什么是CLI 环境，另外是不是一定要在PHP5.7 下才能启动得了？

爬取ajax内容

问下，在这个爬虫中，有没有实现爬取ajax内容的方法？

content_url_regexes怎么写呢？

请问我想采集
https://movie.douban.com/subject/1307793/ 的 content_url_regexes怎么写呢？
想排除包含最后一个/ 后面的内容，不然效率低还容易被办
https://movie.douban.com/subject/1307793/questions/ask/%3Ffrom%3Dsubject_top

请问如何使用多个代理ip采集数据？

请问如何使用多个代理ip采集数据？
拿豆瓣读书那个举例，现在已经不能采集数据了，经常显示sorry,这个怎么破？

windows wamp cli 报错

When the task number greater than 1 need pnctl extension

使用demo里面的例子时获取的数据装不进数据库

例如luojisiwei.php等

demo里面的例子多任务爬取的文件都运行不起来？

只要把demo里的例子的tasknum大于1的都运行不起来是什么原因呢？

Ctrl-C无法终止

Ctrl-C无法正常终止终止，PHP version:7.0.8-0ubuntu0.16.04.3
不知道是不是环境的问题
加入declare(ticks = 1);后可使用Ctrl-C正常退出

请问下，如果要跑api的数据，你这个怎么选择， fields里面的seletor支持正则吗

我想跑股票的数据，你这个支持爬取股票接口的数据吗？

能加入对HTTPS的支持吗

如题

我很想知道，关于模拟登陆的事情

我大概看了您的代码，然后对您的这句：

因为知乎需要登录才能获取到关注者页面，所以从chrome登录之后把cookie拷贝下来给curl程序模拟登录。

还是不太明白，所以非常想了解您是怎么做的。
因为我将浏览器的cookie复制后做成数组添加进curl是失败的。
所以请解答，谢谢O(∩_∩)O

dom解析bug，<div class="example"></div>经过dom操作再获取会变成<div class="example"/>

在复杂一点的dom结构里面，闭合空标签会被解析成闭合

像这样的空标签经过$phpspider->remove() 类似dom操作之后再获取，会闭合成

。不确定是不是simpledom的问题，没去跟这个bug。

没有看到队列相关代码。。。

现在这个git无法爬去知乎代码？

是因为环境问题吗？我的环境是php7.1 + mysql5.7

请问是否支持直接爬取内容页url

请问能够提前批量生成内容页的url，再加入爬取队列？

怎么将url插入到fields中呢？

就是抓取网页的url我希望也插入到数据库中，怎么设置呢？

PHP Fatal error: Allowed memory size of 1073741824 bytes exhausted

----------------------------- PHPSPIDER -----------------------------
PHPSpider version:3.0.4 PHP version:7.0.15
start time:2017-01-28 22:02:43 run 0 days 6 hours 12 minutes
spider name: JD.com
task number: 1
load average: 4, 4.17, 4.28
document: https://doc.phpspider.org
------------------------------- TASKS -------------------------------
taskid taskpid mem collect succ collect fail speed
1 17294 1022MB 62956 0 2.82/s
--------------------------- COLLECT STATUS --------------------------
find pages queue collected fields depth
788541 726641 61900 8968 3

Press Ctrl-C to quit. Start success.
PHP Fatal error: Allowed memory size of 1073741824 bytes exhausted (tried to allocate 217088 bytes) in /home/ken/php/phpspider/core/requests.php on line 276
PHP Stack trace:
PHP 1. {main}() /home/ken/php/phpspider/demo/jd_demo.php:0
PHP 2. phpspider->start() /home/ken/php/phpspider/demo/jd_demo.php:184
PHP 3. phpspider->do_collect_page() /home/ken/php/phpspider/core/phpspider.php:918
PHP 4. phpspider->collect_page() /home/ken/php/phpspider/core/phpspider.php:990
PHP 5. phpspider->request_url() /home/ken/php/phpspider/core/phpspider.php:1060
PHP 6. requests::get() /home/ken/php/phpspider/core/phpspider.php:1229
PHP 7. requests::request() /home/ken/php/phpspider/core/requests.php:431
PHP 8. requests::get_response_body() /home/ken/php/phpspider/core/requests.php:617
PHP 9. implode() /home/ken/php/phpspider/core/requests.php:276

有没有想过延伸到抓取知乎用户填写的新浪微博信息？

有许多抓取新浪微博的程序，如果将这个爬虫和抓取新浪微博的结合起来，效果是不是会更好？

抓取数据有多条时，写csv会出错

20:44:21 结果10：{"ip":["202.108.2.42","112.92.208.19","124.193.33.233","116.253.243.20","202.99.172.165","119.132.147.219","139.196.240.207","180.161.99.75","111.202.154.88","110.72.5.9"],"port":["80","9999","3128","9000","8081","9797","808","8123","8080","8123"]}

Array
(
[ip] => Array
(
[0] => 202.108.2.42
[1] => 112.92.208.19
[2] => 124.193.33.233
[3] => 116.253.243.20
[4] => 202.99.172.165
[5] => 119.132.147.219
[6] => 139.196.240.207
[7] => 180.161.99.75
[8] => 111.202.154.88
[9] => 110.72.5.9
)

[port] => Array
    (
        [0] => 80
        [1] => 9999
        [2] => 3128
        [3] => 9000
        [4] => 8081
        [5] => 9797
        [6] => 808
        [7] => 8123
        [8] => 8080
        [9] => 8123
    )

)

Notice: Array to string conversion in /Users/xcxxx/test/phpspider/core/util.php on line 529

是否考虑增加支持 composer ？

如题

有许多重复的数据

采集一个wordpress的博客，发现有的文章会被采集多次。

请问多线程的系统环境怎么配？

环境是lnmp的，pcntl ; redis都装了，但是还是报这个错！请问还需要装其他什么东西么？
2017-05-03 23:59:05 [error] Spider kept running state needs Redis support, Error: The redis extension was not found

蚂蜂窝获取不了数据

毕业设计需要这个数据，麻烦大神看看，是咋回事？

好厉害

作者好厉害

弱弱的问一句，这个能采集js动态加载的内容吗

有一些网站是file_get_contents得到的是空白页面，真是内容全是js后续加载的，这种的能采集吗，或者有没有好的建议，先谢谢了

测试demo超时是什么问题啊？

环境PHP5.6+nginx
curl测试正常

[root@bogon demo]# php 13384.php 

[13384美女图爬虫] 开始爬行...

!开发文档：
https://doc.phpspider.org

2016-07-21 05:18:47 Curl error: Connection time-out
05:18:47  网页下载失败：http://www.13384.com/qingchunmeinv/

05:18:47  HTTP CODE：0

05:18:47  爬取完成

爬虫运行时间：00小时00分钟05秒
总共抓取网页：0

马蜂窝的数据采集不了了，因为马蜂窝网站改规则了

Multitasking needs Redis support, Error: The redis extension was not found

当tasknum的值大于1的时候，作者能不能告知这个问题如何解决

cls_curl有用到么？

cls_curl有用到么？我看是curl多线程，phpspider.php代码里看到的用的是requests，为什么不用cls_curl？
还有有考虑win下支持多进程么？pcntl用不了，不过我好想记得有扩展可以再win下用，搜了半天找不到在哪了
或者多线程呢？pthreads这个扩展（我原先写过一个用pthreads的爬虫，但是感觉不太稳定，应该是代码的问题，现在都找不到扔哪去了...）

文档bug

https://doc.phpspider.org/requests.html

request::$input_encoding = 'GB2312';
---->
requests::$input_encoding = 'GB2312';

为什么网址中的点不用转义？

'content_url_regexes' => array(
"http://www.qiushibaike.com/article/\d+"
),

为什么不是这样的：
'content_url_regexes' => array(
"http://www\.qiushibaike\.com/article/\d+"
),

如何下载网页内容的时候，将图片或者附件一起下载到本地

请问如何下载网页内容的时候，将图片或者附件一起下载到本地。
这样，在本地打开网页时，也可以看到图片或者附件。
非常感谢大神的指教！

教程里第一个demo是不能运行的

$configs = array(
    'name' => '糗事百科',
    'domains' => array(
        'qiushibaike.com',
        'www.qiushibaike.com'
    ),
    'scan_urls' => array(
        'http://www.qiushibaike.com/'
    ),
    'content_url_regexes' => array(
        "http://www.qiushibaike.com/article/\d+"
    ),
    'list_url_regexes' => array(
        "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"
    ),
    'fields' => array(
        array(
            // 抽取内容页的文章内容
            'name' => "article_content",
            'selector' => "//*[@id='single-next-link']",
            'required' => true
        ),
        array(
            // 抽取内容页的文章作者
            'name' => "article_author",
            'selector' => "//div[contains(@class,'author')]//h2",
            'required' => true
        ),
    ),
);
$spider = new phpspider($configs);
$spider->start();

这个例子是不能直接运行的

requests类设置随即伪造ip的参数有误

requests.php文件232行，参数有误，应该为$client_ips

list_page是否可以只获取特定代码块的url

列表页获取内容url能否只获取特定代码块的url, 过滤页面上不需要的url?
测试了在回调on_list_page时调试输出完全没反应, on_scan_page可以获取但是没明白怎么过滤

明明log_show 是false，为什么还是能看到一大堆的log在滚动（源码说明一切 - -）

多线程需要pcntl扩展支持，然而这个扩展只有linux才可以玩。：）

数据没有入库问题

数据没有入redis，数据表也没有，但是跑起来也没有错误，有可能是什么问题啊

Find list page: http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid=63515
23:00:53 Find list page: http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid=140736
23:00:53 Success process page: http://www.mafengwo.cn/mdd/base/list/pagedata_citylist?page=96 Use time: 0.338 s

23:00:53 Spider running time: 00 hour 02 minutes 10 seconds

23:00:53 Find pages: 1109

23:00:53 Waiting for collect pages: 1011

23:00:53 Collected pages: 98

作者有点调皮，ʅ（´◔౪◔）ʃ

刚开始用，自己模仿一个，死活都是‘Unknown error...’提示，遂看看源码，发现备注很详细，思路很清晰，然后邪恶的笑了。敲黑板，划重点了！！

/* Do NOT delete this comment /
/ 不要删除这段注释 */

ʅ（´◔౪◔）ʃ
啦啦啦，啦啦啦

爬虫如何做计划任务?

爬虫写好了,一次就把网址数据爬完了,当时想用linux上计划任务实现每天定时爬取,发现再次执行时候会输出:
Found that the data of Redis, no continue will empty Redis data start again
Do you want to continue? [Y/n]
这样的选项,那我该怎么去做计划任务爬虫呢?
望告知谢谢!!