babymm / mmlog Goto Github PK
View Code? Open in Web Editor NEWmmlog是一个日志分析项目,分析爬虫爬取的新闻数据,然后对日志数据进行统计分析,最后将统计出来的数据保存到持久层中。流程:1、使用爬虫组件webmagic、crawler4j等开源爬虫组件对新闻网站数据进行新闻爬取。2、将爬取的数据进行过滤分析之后发送到消息队列(kafka、rocketma)中。3、使用流处理程序(storm、flink、spark)从消息队列中读取日志数据,并且对日志数据进行统计分析。4、将最后的结果保存到持久层(hdfs、hbase、数据库)。
License: Apache License 2.0