Coder Social home page Coder Social logo

karyrunning / crawl-project Goto Github PK

View Code? Open in Web Editor NEW

This project forked from 13060923171/crawl-project

0.0 1.0 0.0 15.08 MB

一些有趣的小项目,实现一些小功能,需要的可以下载来玩玩有qq音乐,京东,房天下,快代理的代理池,抖音,百度文库,千图,网易新闻,百度新闻,微博,酷狗,最好大学网,淘宝,豆瓣,天猫,有道翻译,疫情地图等

License: MIT License

Python 99.96% Batchfile 0.04%

crawl-project's Introduction

项目和个人笔记

一些有趣的小项目,实现一些小功能,需要的可以下载来玩玩

一些注意事项:

1、关于怎么爬取抖音,这里我们得先用夜神模拟器去模拟手机的登录环境,然后再通过fiddler去抓包,然后就和我们怎么去爬取网页那就怎么去爬取APP

2、关于百度文库和千图,房天下,京东,都有涉及到反爬虫机制,这里你必须得会一点JavaScript才可以知道怎么去破解

3、这里大多数知识,你要看得懂还是建议先学好爬虫基础,再来实现这些项目

4、关于京东的,还有一些小缺陷没有完善,因为这里涉及到分布式的知识,说实话我分布式这块没有学好,所以不太完整,得自己去慢慢探索才行

5、关于未来的发展道路,可以的话可以去学习docker和k8s,这些大多数用go语言写的,对了如果学java的话,其实对于我们这些爬虫工程师来说还不如学习go语言,因为go语言大多数是基于C语言的,对于我们这些python工程师来说,比较友好

6、Redis内存数据库 MySQL关系数据库 mongobd文档数据库 不同的数据库对应不同的功能,大多数我们爬虫工程师都是用到Redis和MySQL,而且很多应聘都是必须要求熟练使用Redis内存数据库,善用于Redis可以大大提高我们的爬取速率

7、关于js破解这块,首先我们得先把破解好的js文件写一个接口去对接我们的python文件,因为毕竟这两门是不同的语言

rsaPassword = function(t){
    var e= new D;
    return e.setPublic("xxx")
    e.encrypt(t)
}
function getPwd(pwd){
    return rsaPassword(pwd);
}
//通过这个接口把我们要破解的内容放回到getPwd这个函数里面
#先导入我们的接口包
import execjs
#设置函数
def getpwd(password):
    #读取我们的js文件,格式为utf8
    with open("xxx.js",'r',encoding='utf8')as f:
        content = f.read()
        #然后去解析这个读取的内容
    jsdata = execjs.compile(content)
    #去看js那个函数,并且传入参数
    pw = jsdata.call('getPwd',password)
    print('pw:',pw)
    return pw


if __name__ == '__main__':
    getpwd('123456')

这个固定格式,基本上照着这样写就完事了,可以百分之99获取我们想要的内容

crawl-project's People

Contributors

13060923171 avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.