阿里巴巴极限词检查
- 针对阿里的页面做了过滤
- 自动调用极限词接口
- 自动翻页
- 支持图片识别,并且会打印图片链接以及对应的敏感词列表
- 支持白名单
- PyExecJs
- bs4
- requests
- 支持图片识别
- 支持白名单,其中白名单配在 同级目录下的 white_list.ini 中
- 打印含有敏感词的图片以及它们的对应关系
- 支持翻页
- 只检查标题, 详情
- 解决上个版本中没有对阿里详情页二次跳转的bug
- 加入百度的 OCR 功能
- 如果程序包名跟系统包名冲突,会报很多诡异的问题。我的是一个包名叫 site,结果一直报找不到module(pycharm有这个问题,命令行执行没有)
- 长时间扫 1688 的网页会被强制登录
- ini 的文件路径需要使用 os.path.dirname(os.path.abspath(file)),不然会一直报找不到某个section,而不是提示你文件不存在