Coder Social home page Coder Social logo

limier's Introduction

(for english people, I've made a quick README, but I don't want to do many support in english, so you can improve with pull request if you want)

limier

Limier est un petit outil en CLI permettant de trouver un flux RSS quand il est planqué sur un site.

forthebadge made-with-python

fonctionnalités

  • obtention de flux rss visuellement caché mais dont le lien existe
  • bruteforce de chemins possible de flux rss
  • détection de framework et énumération de flux possible par framework (drupal, spip, RS, etc...)
  • recherche de flux rss via sitemap

installation

git clone  https://github.com/darcosion/limier
cd limier 
pip3 install -r requirements.txt

Usage

example help image

Exemple :

Example image

TODO :

  • Identification des forums
  • Vérification de cohérence des feed rss

limier's People

Contributors

alexcombessie avatar andreybavt avatar crystalrays avatar darcosion avatar egoist avatar foxboron avatar kieran avatar willmcgugan avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

Forkers

pythonlinks

limier's Issues

TODO ajouter une fonction de recherche de flux rss purement textuelle

Actuellement, sur la page scanné, un lien RSS qui n'est pas indiqué comme tel car mal foutu ne sera pas détecté.

Il semble intéressant de travailler à la détection de ce genre de lien pour :

  • les détecter
  • vérifier que ce sont des liens RSS
  • si oui, les ajouters à la liste de lien traités
  • si non, aller dessus pour voir si c'est pas une page qui réunit tout les liens RSS du site, si ledit site est large

exemple : https://rusi.org/

export CSV

Les flux rss de limier pourraient être exportés en CSV, ça mangerait pas de pain

oubli URI

python3 limier.py -d www.courrierdesbalkans.fr -f

Gérer les URI sans domain.

variation de user-agent pour le bypass d'accès

Il arrive parfois que les sites ne fournissent leurs flux rss qu'à des bot de crawling de moteur de recherche, afin d'être bien référencés sur les moteurs de recherche, mais pas collectable par le particulier ou l'entreprise.

Une solution de bypass serait de modifier le useragent afin de se faire passer pour le googlebot.

TODO : ajouter un parcour du site pour trouver des fluxs rss embarqués dans des sections

Actuellement, limier fonctionne mal sur les forums comme le montre l'exemple de https:/community.mybb.com où les sections et les topics ont des flux rss qui ne sont pas catchés par limier.

Pour accéder à ce genre de chose, en premier lieu, de l'identification de framework fonctionnerait, mais au delà de l'identification des frameworks de forum, il faut une méthodologie pour repérer les sites qui fonctionnent avec une arborescence et ceux qui cachent leur arborescence (comme amazon).
Et lorsque arborescence il y a, il faut une limite de profondeur (option depth ?) pour s'assurer que limier n'en souffre pas et ne génère pas de trafic plus que nécessaire.

traiter les redirection 301 et 302

exemple avec mdk[useless]solutions[.]com

$ wget useless.com
--2020-07-01 17:02:04--  http://.com/
Résolution de .com (.com)… 213.186.33.17
Connexion à .com (.com)|213.186.33.17|:80… connecté.
requête HTTP transmise, en attente de la réponse… 301 Moved Permanently
Emplacement : https://www..com/ [suivant]
--2020-07-01 17:02:04--  https://www..com/
Résolution de www..com (www..com)… 213.186.33.17
Connexion à www..com (www..com)|213.186.33.17|:443… connecté.
requête HTTP transmise, en attente de la réponse… 200 OK
Taille : non indiqué [text/html]
Enregistre : «index.html»

index.html              [  <=>               ]  38,11K   102KB/s    ds 0,4s    

2020-07-01 17:02:06 (102 KB/s) - «index.html» enregistré [39026]

Pour le moment, il donne toujours ça :

    raise TooManyRedirects('Exceeded %s redirects.' % self.max_redirects, response=resp)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.