wycm / zhihu-crawler Goto Github PK

View Code? Open in Web Editor NEW

912.0 912.0 376.0 5.73 MB

zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目

License: Other

Java 100.00%

crawler java spider zhihu

zhihu-crawler's People

Contributors

Stargazers

Watchers

Forkers

ppwuyzsmile linggongzhi denglirong hangyu2001 kevincol22 ltc6 geekondev fuxiaogang kumangus raowenbiao longtuoei gaifield panligit bigplayboy shipeng22022 yunoshiki trcflyer nobelb jingwenyang lunglee little-fly qdh0520 zheshiyao rabbitqyh quanfang deyu1982 zhangshaocong258 jianwannian sawyer7246 oomayah daisyjl tedmai karinaflor apple006 kevinjames1991 stateis0 cxyd lybigdata anderjoysun jetta-at lcy362 gaobl hsmw408 helianyue mryangsymbol auegust javacodemood edsheeranla luozhixiong 771724316 laofan mc-hyj lmjmt johnson9432 winterthinklinux juliezhao123 qingliudao coderlongren mingyong huiwind yunhom erhei0317 jiangtao89 omge lishuanglin feng2012 sherleyshen benliu0408 jack-luj linao1996 nonego mrhelloworld liuq1ang bert-fc yaoliweb liulinjian0817 xiaobing94 allenzhang010 zhiwuya zhouchao0823 samlin kevinwong999 lddahz789 kangguidong wangdaowei berrong-chen georgewyt walkslowlyandcarefully lvyanchi nlpformyself wtjavaer88 parasolht lc-xie imzhushang chinazhouwy xiangflight moontreee bojifengyu rebornyp mr-lulu

zhihu-crawler's Issues

关于关闭线程池问题

想请问关于线程池的关闭是在config文件配置downloadPageCount属性进行判断结束条件为依据的嘛？如果是这样好像线程池一直都没达到关闭的情形。希望可以解答。最后十分感谢大神的代码。

你好，我第一次接触爬虫，不是很了解！

我想问一下，为什么我运行起来，显示可用代理为0呢，还有就是一直报400,500，是需要配置什么吗？希望楼主能够回答，万分感谢！

Ip181网页打不开了

刚才发现IP181的网址http://www.ip181.com/打开之后没有反应

谢谢大神的代码，我刚学java。
跑的时候出现这个问题
Exception in thread "pool-1-thread-1" java.lang.NullPointerException
at com.crawl.parser.zhihu.ZhiHuUserIndexDetailPageParser.parseUserdetail(ZhiHuUserIndexDetailPageParser.java:44)
at com.crawl.parser.zhihu.ZhiHuUserIndexDetailPageParser.parse(ZhiHuUserIndexDetailPageParser.java:30)
at com.crawl.zhihu.task.ParseTask.parse(ParseTask.java:56)
at com.crawl.zhihu.task.ParseTask.run(ParseTask.java:39)
at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
请问怎么解决

嗨，你好

刚才好像回错地方了，还不太会用这个！为啥我每次只爬到20多个就停掉了呢？

com.crawl.zhihu.task.ParseTask.handleUrl方法防止死锁

首先，感谢大神的code和doc，已正常从知乎抓取了数据，但有些地方，小弟不是很明白，想请教一下。
private void handleUrl(String url){ if(!Config.dbEnable){ zhiHuHttpClient.getDownloadThreadExecutor().execute(new DownloadTask(url)); return ; } String md5Url = Md5Util.Convert2Md5(url); boolean isRepeat = ZhiHuDAO.insertHref(md5Url); # _**if(!isRepeat || (!zhiHuHttpClient.getDownloadThreadExecutor().isShutdown() && zhiHuHttpClient.getDownloadThreadExecutor().getQueue().size() < 30)){ /** * 防止互相等待，导致死锁 */ zhiHuHttpClient.getDownloadThreadExecutor().execute(new DownloadTask(url));** }_ }

这个方法中的防止死锁，为什么这样可以防止死锁？或者说为什么会有产生死锁的可能？
不是很懂（java concurrent包中的很多类都不是很懂），

启动Main方法报序列化失败

先提示序列化失败，然后好多400,404的响应码。

IDEA导入失败，依赖不识别

想问一下，JDK用的是什么版本，以及IDEA版本号，我的导入总是失败

请求商务推广合作

作者您好，我们也是一家专业做IP代理的服务商，极速HTTP，我们注册认证会送10000IP(可以帮助您的学者适当薅羊毛试用：) 。想跟您谈谈是否能够达成商业推广上的合作。如果您，有意愿的话，可以联系我，微信：13982004324 谢谢（如果没有意愿的话，抱歉，打扰了）

比较多的类报找不到对应的方法

有比较多的类提示找不到对应的方法，其中这一处
com.github.wycm.zhihu.service.receiver.ZhihuUserTaskReceiver
@Override protected Runnable createNewTask(CrawlerMessage crawlerMessage) { ZhihuUserTask task = new ZhihuUserTask(crawlerMessage, zhihuComponent); task.setUrl(crawlerMessage.getUrl()); task.setCurrentRetryTimes(crawlerMessage.getCurrentRetryTimes()); task.setProxyFlag(true); return task; }
上面这个方法里，task对象里面根本没有setUrl方法，setCurrentRetryTimes 以及setProxyFlag都没有，不知道出了什么问题

关于代理的问题

大神，我实际跑了你的代码，现在项目文档中说的代理我的理解是不是指，用www.xicidaili.com提供的代理服务器来访问知乎，避免知乎的防抓取？
PS.试过把main中的ProxyHttpClient.getInstance().startCrawl();注释掉，结果就是大量的429，Too Many Requests (太多请求)

你好，我想问下，Main类下“ ZhiHuHttpClient.getInstance().startCrawl();” 这段是怎么循环的？

@OverRide
public void startCrawl() {
authorization = initAuthorization();

    String startToken = Config.startUserToken;
    String startUrl = String.format(Constants.USER_FOLLOWEES_URL, startToken, 0);
    HttpGet request = new HttpGet(startUrl);
    request.setHeader("authorization", "oauth " + ZhiHuHttpClient.getAuthorization());
    detailListPageThreadPool.execute(new DetailListPageTask(request, Config.isProxy));
    manageHttpClient();
}

这段是怎么保证他一直在抓取数据呢，怎么维持这个抓取逻辑的循环呢？

楼主的流程图是用什么工具画的？

如题

初始化authoriztion失败

Exception in thread "main" java.lang.RuntimeException: not get authorization
at com.crawl.zhihu.ZhiHuHttpClient.initAuthorization(ZhiHuHttpClient.java:168)
at com.crawl.zhihu.ZhiHuHttpClient.getAuthorization(ZhiHuHttpClient.java:173)
at com.crawl.zhihu.ZhiHuHttpClient.startCrawl(ZhiHuHttpClient.java:114)
at com.crawl.Main.main(Main.java:15)

运行不起来

爬出来的响应码全是400，403怎么办

java.lang.NullPointerException

java.lang.ExceptionInInitializerError
Caused by: java.lang.NullPointerException
at java.util.Properties$LineReader.readLine(Properties.java:434)
at java.util.Properties.load0(Properties.java:353)
at java.util.Properties.load(Properties.java:341)
at com.crawl.core.util.SimpleLogger.setLogProperty(SimpleLogger.java:18)
at com.crawl.core.util.SimpleLogger.getSimpleLogger(SimpleLogger.java:38)
at com.crawl.Main.(Main.java:13)
Exception in thread "main"

连接数据库异常

java.sql.SQLException: Illegal connection port value 'mysql:'

我修改配置为：
db.enable = true

数据库配置

db.host = jdbc:mysql://localhost:3306/zhihu
db.username = root
db.password = 123456

数据库名

db.name = zhihu