Coder Social home page Coder Social logo

xishandong / crawlproject Goto Github PK

View Code? Open in Web Editor NEW
547.0 13.0 163.0 17.66 MB

python爬虫项目合集,从基础到js逆向,包含基础篇、自动化篇、进阶篇以及验证码篇。案例涵盖各大网站(xhs douyin weibo ins boss job,jd...),你将会学到有关爬虫以及反爬虫、自动化和验证码的各方面知识

Python 25.40% JavaScript 74.54% HTML 0.06%
playwright python python-crawler reverse-engineering captcha ddddocr javascript

crawlproject's Introduction

爬虫项目实战

说明

所有项目均为作者练手分享项目,如遇侵权请联系删除,仅作学习分享不能进行任何商业活动

由于程序完成的时间问题,部分项目可能无法复用

练习笔记见note.txt

此项目将持续更新

项目部分实战讲解见b站:https://space.bilibili.com/35242527/channel/collectiondetail?sid=1590251

下面是个人对于网站爬取难度评级

难度等级 表示 补充
骑士侍从 0 入门
准骑士 00 踏过门槛了
骑士 * 初级
大骑士 ** 比初级高一点
大地骑士 *** 中等难度
辉耀骑士 + 中上难度
圣殿骑士 ++ 比较难
圣骑士 +++
神印骑士 KING 地狱

项目目录

graph TD;
    基础篇-->request篇;
    基础篇-->解析html以及正则篇;
    基础篇-->scrapy篇;
    基础篇 -->高性能异步爬虫;
    基础篇-->feapder;
    自动化篇-->selenium
    自动化篇-->playwright;
    进阶篇-->综合案例;
    进阶篇-->js逆向专题;
    js逆向专题-->请求头或响应数据加密;
    js逆向专题-->浏览器指纹检测;
    js逆向专题-->webPack篇;
    js逆向专题-->环境检测篇;
    js逆向专题-->wasm篇;
    验证码篇-->滑块篇;
    验证码篇-->点选篇;

项目所用到的第三方库

pip install requests # requests库,爬虫的开始
pip install curl_cffi # 标准tls请求库
pip install lxml # xpath提取数据
pip install playwright # 自动化需要
pip install ddddocr # 识别验证码
pip install selenium # 自动化需要,推荐playwright
pip install scrapy # 爬虫框架
pip install "feapder[all]" # 新一代爬虫框架
pip install pycryptodome # python标准密码库
pip install pyexecjs2 # python调用js代码
pip install m3u8 # 下载m3u8视频
pip install prettytable # 格式化输出
pip install tqdm # 进度条
pip install loguru # 强大的日志工具库
pip install retrying # 强大的重试工具
npm install crypto-js/cryptojs # 二选一,js标准密码库
npm insatll jsdom # js模拟浏览器的dom和bom
npm insatll tough-cookie # 浏览器cookie

基础篇

request篇

难度标识 项目名 补充 快捷导航
骑士侍从 百度网页 第一个爬虫程序 点这里
骑士侍从 ua识别 初始反爬 点这里
骑士侍从 百度翻译 认识post请求 点这里
骑士侍从 豆瓣电影 基础 点这里
骑士侍从 肯德基位置查询 json练习 点这里

解析html以及正则篇

难度标识 项目名 补充 快捷导航
准骑士 获取fakeua lxml解析 点这里
准骑士 4k图片爬取 lxml以及解决编码错误问题 点这里
准骑士 58 lxml以及分页爬取 点这里
准骑士 bs基础 初始bs 点这里
准骑士 bs案例 实战bs 点这里
准骑士 xpath基础 初始xpath 点这里
准骑士 xpath解析 练习xpath 点这里
准骑士 正则基础 初始正则 点这里
准骑士 正则练习 实战正则 点这里
准骑士 简历爬取 以上的小综合 点这里

scrapy篇

难度标识 项目名 补充 快捷导航
大骑士 bossjob 一级页面爬取,可能不可用 点这里
大骑士 双色球 都是基本scrapy操作 点这里
大骑士 图片 都是基本scrapy操作 点这里
大骑士 阳光政策 都是基本scrapy操作 点这里
大骑士 yi车数据爬取 带有js逆向,不过是入门级,以及大批量json数据解析 点这里
大骑士 校花网 都是基本scrapy操作 点这里
大骑士 网易新闻 都是基本scrapy操作 点这里
大骑士 17k小说爬取 都是基本scrapy操作 点这里

高性能异步爬虫

难度标识 项目名 补充 快捷导航
骑士侍从 认识flask 基础知识 点这里
骑士 线程池基础 基础知识 点这里
大骑士 meinv图片批量爬取 基础 点这里
大骑士 明星图片爬取 基础 点这里
大骑士 多任务协程 基础 点这里
大骑士 线程池应用 基础 点这里

feapder

难度标识 项目名 补充 快捷导航
辉耀骑士 小红书数据采集 使用air模式的feapder,自定义csv储存管道,未来会以更多模式改写,以及更多功能加入,还迎补充 点这里

自动化篇

selenium

难度标识 项目名 补充 快捷导航
骑士侍从 基础自动操作 基本自动化操作 点这里
骑士侍从 模拟登陆 练习自动化 点这里
骑士侍从 动作链和ifream处理 练习自动化 点这里
骑士侍从 无头浏览器和反检测 练习 点这里
骑士 12306模拟登录 多半不可用 点这里
骑士 damai网 多半不可用 点这里

playwright

难度标识 项目名 补充 快捷导航
骑士 邮政编码 通过地址查询邮政编码,使用同步方式,包含等待操作以及根据情况选择不同的表格,同时使用pandas对excel文件进行操作 点这里
大骑士 采用本地浏览器进行反爬虫 我们使用自动化时有时会被检测,我们这里使用本地浏览器进行反爬虫,并且由于是本地浏览器,我们的session状态和cookie状态都是存在的,也就是说原本登录过的网站我们访问直接就是登录状态了,可以方便很多,不需要我们创建浏览器的上下文 点这里
大地骑士 采集资料 通过网站名采集网站的邮箱电话地址社交媒体链接,难点在于每个网站风格完全不一,所有数据也不一并且数量很大,写正则很不好写,处理异步也比较麻烦,仓库只列举了其中10个页面,需要编写者对正则以及异步playwright有一定的了解 点这里
大骑士 反检测浏览器 通过大牛的js文件创建一个反检测的浏览器,可以绕过绝大部分的检测 点这里
大地骑士 起点vip小说爬取 通过屏幕快照的方式绕过起点vip小说的css反爬,用到的知识点有:定位盒子,截图,滑动,处理边界,合并截图。此方案不是最优解,欢迎大家补充 点这里

进阶篇

综合案例


难度标识 项目名 补充 快捷导航
骑士 某诗文网 验证码相关,登录以及图片验证码解决 --- ddddocr 点这里
大骑士 语言爬虫 利用网络将文本转为语言,支持中英韩三国语言 点这里
大骑士 b站综合 检查用户是否给你点赞,拉去消息列表,拉取点赞列表 点这里
大地骑士 某视频网站 m3u8视频下载,解决带密钥以及不带密钥情况,m3u8入门级别以及多线程下载 点这里
大地骑士 ins爬虫 对于页面参数提取以及解析json文件 点这里
大地骑士 douyin全站数据爬取 包括视频图片下载,评论爬取,用户信息爬取... 目前部分接口也开始x-b检测了,如果需要用到被检测接口,则需要加上x-b才可以获取数据, 现在重新整合签名,大家在github找到获取签名的js文件即可,放到douyin文件同目录下命名为x-b.js即可, up提供了一个在github上别人开源的代码仓库,在代码中标志了仓库,目前可以使用 点这里
大地骑士 weibo全站数据爬取 包括搜索用户,搜索帖子,下载评论,下载用户相册,用户主页,用户信息... 点这里
未知等级 爬虫轮子 个人对常用的爬虫方法进行二次封装,方便后期开发 点这里

js逆向专题


请求头或响应数据加密

难度标识 项目名 补充 快捷导航
骑士 烯牛数据 请求头加密,响应体加密 点这里
骑士 娱乐指数 基础入门 点这里
骑士 艺恩数据 响应体加密 点这里
骑士 行行查 响应体加密 点这里
大骑士 fjs公共交易 混淆参数加密 点这里
大骑士 唯一艺术 动态js运行代码 点这里
大地骑士 某天气网站 动态js 动态key 动态参数 反debug 点这里
大地骑士 某足球网站 请求体多重加密,加密位置难定位 点这里
大地骑士 wangyiyun音乐 实现全站数据爬取 点这里
大地骑士 gds公共交易 混淆参数,需要找定位 点这里
大地骑士 某道翻译 请求加密响应解密,难度不大 点这里
大地骑士 b站登录 rsa加密密码,极验三代文字点选,文字点选部分可见验证码篇 点这里

webPack

难度标识 项目名 补充 快捷导航
大地骑士 china五矿 基础webpack,标准版加密算法,简单,可用多种方式实现(nodejs,python和扣代码) 点这里

环境检测

难度标识 项目名 补充 快捷导航
辉耀骑士 redBook xhs x-s环境检测,需要自己把cookie和localstorage放到文件中 点这里
辉耀骑士 bossjob __zp_s...__环境检测,每天js都不同,需要补一些环境,并且修改js,有一个module检测等... 点这里
辉耀骑士 猿人学2023第一题 魔改md5和aes 删除部分蜜罐,补充浏览器环境即可 点这里
大地骑士 饿了么参数 通过playwright获取bx_et参数 点这里
辉耀骑士 pdd的anti_content参数 这个不是补环境,是扣的算法,pdd不同站点其实加密大概差不多,有些对象的值有所差别而已,加密的主函数都是一个逻辑 点这里
大地骑士 更新boss直聘物品点选解ip封锁,坐标识别就随便在网上找了一个了 这个点选轨迹加密就是极验三代 更新在boss那个文件里面了

wasm加密

难度标识 项目名 补充 快捷导航
辉耀骑士 某航空 wasm操作内容实现加密解密 请求头参数加密更新 阿里系v2检测 阿里系v3检测(自动化获取),至此所有加密参数已解决 点这里

浏览器指纹检测

难度标识 项目名 补充 快捷导航
大地骑士 易九批 首先是加密请求体,其次是tls指纹检测,目前使用第三方库过了主页请求 点这里

验证码篇

滑块篇

难度标识 项目名 补充 快捷导航
大骑士 JD滑块 我们获取到图片之后可以使用ddddocr来进行识别滑块,然后生成轨迹发送请求即可,我们这里的轨迹采用大佬的写法,首先准备一条基准,从左往右手工滑完,然后一个抖动轨迹,之后拼接两个轨迹即可(不知道为什么我自己滑的轨迹验证都不通过,所以直接用了大佬的轨迹了) 点这里
大骑士 阿里226 此次更新playwright获取,比较简单 点这里
大骑士 飞瓜获取验证码滑块 此次更新playwright获取,比较简单 点这里

点选篇

难度标识 项目名 补充 快捷导航
辉耀骑士 极验三代点选 我们根据请求顺序依次请求接口获取图片,获取到图片信息后送入识别接口获取点选坐标,获取到坐标后将坐标转化,送入js生成轨迹,得到轨迹后请求接口获取validate 点这里

Star History

Star History Chart

赞助

如果你认为本仓库对你学习爬虫和逆向有所帮助,欢迎赞助作者,请作者喝一杯奶茶~!!

(你的支持可以让作者开心一整天😊)

微信支付 支付宝支付

crawlproject's People

Contributors

xishandong avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

crawlproject's Issues

douyin全站爬取接口是否失效

老哥抽时间看下哈,我更换cookies还一直在重试,不能获取内容

支持你的视频,多一句嘴,如果B站不让发可以去油管开一个频道啊!

小红书的问题

如图所示:

图片

请问作者大大:这是什么原因导致的?我该如何解决

抖音全站代码更新

UP大大,吃顿饭的功夫,同样的代码。
现在不能用了,运行提示:
'str' object has no attribute 'domain' retry_times:1:5...
'str' object has no attribute 'domain' retry_times:2:5...

您那边看看,验证一下,打扰了

抖音中获取用户信息失效

get_user() get_user_post() download_user_all_posts() search_user() 这几个函数是失效的,不能正常获取数据

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.