- 使用
requests
、bs4
爬取猫眼电影前十信息,用UTF-8
保存到csv文档 - 使用
Scrapy
和Xpath
抓取相同信息。
- 为
Scrapy
增加代理ip功能、将数据保存到MySQL、增加异常捕获处理机制 - 使用
Requests
和Selenium
模拟登录石墨文档。
- 哲学家就餐算法问题
- 本周主要学习pandas、jieba、SnowNLP
- 学会使用SQL和pandas语句的等价转化
- 使用Django展示豆瓣电影中某个电影的短评和评分等信息
- MySQL存储短评、Scrapy爬取
- 面向对象编程联系
- 定义类、其中一个类不允许实例化
- 类属性、属性自动判断、继承、方法(添加实例且不重复)
- 区分扁平序列和容器序列、可变序列和不可变序列
- 自定义python函数实现类似
map()
- 使用
@timer
装饰器记录运行时间
使用 Django 的 Form、Auth 组件,实现用户登录和密码验证功能。
要求:
- 登录界面要求能够输入用户名、密码,且密码需大于 8 位。
- 用户名、密码通过 Django 的 Auth 组件对数据库中预先存储的用户密码进行验证。
- 如果登录失败提示用户密码错误,登录成功后跳转到首页(或其他非登录的页面)。
项目:简易舆情分析平台
需要抓取“什么值得买”( https://www.smzdm.com/ ) 网站中手机种类前 10 的产品的用户评论,通过对用户评论的正向、负向评价了解排名前 10 的手机产品的用户接受程度。
- 使用
Scrapy
或Selenium
爬取信息,实现翻页功能,结果存入MySQL
数据库并定时每日更新 - 使用
Pandas
数据库进行数据清洗以及语义分析,存储结果入数据库 - 使用
Django
集成在线图标实现数据的展示功能,支持筛选
如果对 Git 和 GitHub 不太了解,请参考 Git 官方文档 或者极客时间的《玩转 Git 三剑客》视频课程。