本爬虫程序目前可爬新浪、搜狐网站的新闻
搜狐新闻:http://news.sohu.com/scroll/
新浪新闻:http://roll.news.sina.com.cn/s/channel.php
-
MySQL 环境,数据库:news, 表:sinanews 、sohunews 表结构如下
CREATE TABLE
sohunews(
idint(10) NOT NULL AUTO_INCREMENT,
titlevarchar(512) NOT NULL,
contenttext,
urlvarchar(128) NOT NULL,
newsdatevarchar(128) NOT NULL,
typevarchar(128) NOT NULL, PRIMARY KEY (
id) ) ENGINE=InnoDB AUTO_INCREMENT=136 DEFAULT CHARSET=utf8;
-
对于新浪新闻的爬取需要SeimiAgent支持,确保端口号为8000