weiranyi / project-crawler-elasticsearch Goto Github PK
View Code? Open in Web Editor NEW这是一个通过多线程来爬取新闻页面的一个项目,后端使用数据库来存储数据,使用了MySQL的索引优化,做了一个简单的搜索引擎。使用Git进行管理,使用maven进行自动化构建,使用flayway实现数据库的自动化迁移,使用多线程进行爬取,爬取速度比单线程快了几倍,爬取百万条数据后,进行数据库的索引优化从s级变成ms级。
License: Apache License 2.0