Coder Social home page Coder Social logo

portic-datasprint-2022's Introduction

Datasprint PORTIC 2022

Ce répertoire contient à la fois un ensemble de ressources et les productions des participants du datasprint PORTIC 2022 qui se tiendra les 15, 16, 17, 18.

Installation

Prérequis : installer git, python et pip, puis éventuellement créez votre environnement virtuel.

Si vous êtes sur linux, il vous faudra aussi installer curl et unzip si ces deux commandes ne sont pas déjà présentes sur votre machine.

Puis dans votre terminal, lancer les commandes suivantes :

git clone [email protected]:medialab/portic-datasprint-2022.git
cd portic-datasprint-2022
# cela va lancer des pip install, assurez-vous bien d'être dans un vitualenv python dédié auparavant
./install.sh

Pour éviter que le git contienne plein de commits de merge, lancer la ligne de configuration suivante est très utile:

git config pull.rebase true

Mise à jour des données

Si les données de base venaient à être mises à jour en cours de datasprint, une commande permet de les mettre à jour sur votre copie locale du répertoire (dans le dossier data) :

./load_data.sh

Contenus du répertoire

  • data -> données à plat proposées pour le datasprint
  • preliminary_inquiry -> code permettant de générer un atlas de visualisations préliminaires
  • productions -> les productions du datasprint, à organiser et réorganiser par modules d'enquête (ex. module_01)
  • examples -> exemples de mobilisation de la bibliothèque seule et avec différentes technologies associées à des notebooks jupyter
  • lib -> la bibliothèque créée spécifiquement pour le datasprint. Elle pourra éventuellement être améliorée pendant le datasprint

Bibliothèque python pour le datasprint

Nous avons préparé une bibliothèque python censée faciliter la récupération et la manipulation des données des bases.

Cette bibliothèque propose une abstraction permettant de manipuler les données avec une API unifiée, ainsi qu'une série d'utilitaires. Elle a vocation à être potentiellement enrichie pendant le datasprint.

Installer la bibliothèque

La bibliothèque python est installée localement par le script install.sh (ou via pip install -e lib) puis est accessible sous le nom de dunkerquesprint. Ne pas oublier de la réinstaller après un git pull si besoin.

Utiliser la bibliothèque

Voir :

Les méthodes de base à retenir pour travailler avec les données du datasprint sont :

  • pour récupérer les pointcalls associés aux pointcalls du datasprint :
from dunkerquesprint import Portic
portic_client = Portic()
# récupérer les pointcalls de l'année 1789 taggés avec le source_subset associé au corpus du datasprint (équivalent à tous les pointcalls qui concernent les amirautés de La Rochelle, Marennes et Sables d'Olonne)
pointcalls = portic_client.get_pointcalls(year=1789)
  • pour récupérer les flux Toflit18 associés au datasprint :
from poitousprint import Toflit
toflit_client = Toflit()
# Récupérer les flux qui concernent le bureau des fermes de Dunkerque en 1789
flows = toflit_client.get_flows(year=1789, customs_office='Dunkerque')

Les données de base sont disponibles à :

Utilitaire de transformation de notebooks en fichiers HTML

Le répertoire contient également un utilitaire permettant de transformer tous les notebooks d'un dossier donné en fichiers HTML/pages web sur le site github.io associé à ce répertoire.

python cipynb.py [chemin relatif vers le dossier] -to html

Ces derniers sont ensuite accessibles en ligne à https://medialab.github.io/portic-datasprint-2022/[chemin relatif vers chaque fichier html]

portic-datasprint-2022's People

Contributors

bmaz avatar boogheta avatar diegantobass avatar myllaume avatar paulgirard avatar robindemourat avatar yomguithereal avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

portic-datasprint-2022's Issues

Tests carte fin partie 1.B

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAW0Efqzg

"je verrai bien ici une carte avec des filtres possibles mais si trop compliqué on fait autrement:

ici destinations des navires de pavillon étranger (= tout ce qui n'est pas = French) avec possibilité ajouter ET Taxe CONTIENT "long cours"

puis
destinations avec pavillon=French ET homeport différent de Dunkerque , recyclables aussi ailleurs (partie I.C, mais éventuellement aussi navigation vers l’Angleterre dans la partie II)"

Note : à voir si on ne pourrait pas intégrer cela à la visualisation principale

Produits CUST

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAYEZLYE8

  1. de vérifier les données CUST insérées (j'ai quelques doutes ici et là) [je peux demander à Pierre de s'en occuper] si la suite suit; je propose de se focalister UNIQUEMENT sur les importations en GB des produits depuis les Flandres françaises
  2. que Guillaume & Loïc nous précisent les unités de mesure britanniques : car si on compare les valeurs des smoggleurs de 1787 pour les alcools et les valeurs théoriques importées des Flandres françaises en 1789, l'écart n'est pas énorme, mais comme les prix britanniques sont ceux du 17e siècle, il faut à tout prix pouvoir comparer les QUANTITES, du moins sur les alcools.
  3. vérifier si le calcul de Pierre N. sur la valeur des produits des smoggleurs à partir de Toflit, et tout particulièrement pour les mouchoirs de soie, est bon (600,000 lt, ça me semble bcp) ou s'il y a confusion entre poids et douzaines par ex. ?

Continuation module 08 (entrepôts)

  • vérifs mentionnées dans le rapport
  • croiser avec les données navigo:

pour dunkerque en 1789, nous avons toutes les données de navigation, mais supposément il manque des valeurs de contrebande non déclarées à la ferme. On suppose que le différentiel entre valeurs d’imports et d’exports représente des échanges de contrebande, non déclarés à la ferme.

il faut alors estimer la valeur de contrebande vers l’étranger à partir des données de navigation. pour ce faire on projette les prix par tonneaux pour les directions des bateaux de dunkerque

le reste final donne un ordre de grandeur de la contrebande vers la France, qui n’a jamais été estimé

Faire un top 10 des smoggleurs vers la GB

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAXHG-QbM

"https://drive.google.com/file/d/135ENhRLGSNdJS2juQpx791ZTMWxQJFgQ/view > faudrait revoir la présentation de ces données (de 1787 je suppose?) peutêtre en se limitant au top 10 de % vers la GB en indiquant en même temps le total des congés -> ça permet d'expliquer pourquoi nous ne nous occupons par d'Omonville en dépit d'un % fort de départs vers la GB, vu le nombre très bas de congés totaux."

Importations enregistrées par les douanes

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAXchrCD8

On cherche la source de l'affirmation (module 0 ?) suivante :

les sources de la Ferme générale donnent à voir des exportations importantes depuis le bureau de Calais en direction de la Grande-Bretagne en 1789 (400 000 livres tournois environ et 238 000 livres tournois d’eau-de-vie) qui ne figurent pas parmis les importations enregistrées par les douanes sources britanniques

Vérifier données sur les produits, pour les fausses destinations (Lisbonne alors que Londres)

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAXHG-QbU

vérifier les données de Dunkerque de la visu, https://drive.google.com/file/d/1s0xKhyjj9zOILUOnr6Tdnn-G1C1IYTus/view: il y a sans doute une erreur, je pense que les données prises en compte sont celles vers les vrais ports britanniques et pas celles vers la fausse déclaration UHGS = A0394917 (Bergen et Lisbonne) qui ont toutes du "lest" -> les diverses marchandises sont sur les autres navires qui vont en GB

Croiser données Toflit18 et CUST pour origine des produits

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAXHG-QbY

je ne pense pas qu'on ait regardé cela pendant le datasprint, car il faudrait d'abord croiser CUST produits et les Fermes, mais il me semble intéressant d'analyser l'origine des produits exportés depuis les bureaux de fermes des ports smoggleurs (hors Dunkerque of course) en 1789 pour les produits made in France (alcohol pour l'essentiel?) qu'on trouve exportés vers la GB et pas (ou bien moins) dans les importations de CUST

Enquête sur les exports de Dunkerque en 1787

À faire :

  • supprimer tout ce qui relève de "mer seule"
  • vérifier les résultats de toflit18 pour la direction des fermes de La Rochelle
  • rajouter les exclusions pêche
  • prendre en compte les nouvelles données de Silvia pour le national
  • gérer les problèmes liés au repérage des exports - gérer "monde hors colonie"

Calcul des tonnages par année à partir des données Pfister + test saisonnalité

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAW0EfqzU

les données sont ici: https://docs.google.com/spreadsheets/d/1iZDYFVrKZlOVMxr2b75OnW-jkRYY-82y/edit?amp;ouid=115711205609379361231&rtpof=true#gid=6174718

nous avons besoin d'une part une visu avec le tonnage total par année qui reste à calculer à partir des données mensuelles. Cette série de 11 ans pourrait être mise avec le tonnages entrées et sortis du pilotage pour 1740-1762

Ensuite il pourrait être sympa d'avoir pour les congés 1781-1791 le tonnage par mois pour voir s'il y a une navigation saisonnière et/ou mesurer plus finement l'impact du conflit. Mais cette deuxième partie sur l'évolution par mois ça reste exploratoire

Carte des fausses déclarations depuis Dunkerque pour comparer

https://docs.google.com/document/d/1YtuKf4hgk9UJiekNcVa_vK2MGYYgvopOVTuZeHfyopU/edit?disco=AAAAXHG-QbQ

"
[NB: la carte a déjà corrigé les fausses déclaration depuis Dunkerque, mais il faudrait peut-être faire une carte avec les fausses déclarations réintégrées dans l’Europe (Lisbonne et Bergen sur les lieux Lisbonne et Bergen) pour faire ressortir la disproportion ?
dans ce cas il faut prendre les UHGS = A0394917 comme destination et chercher dans le champ pointcall si présence mot “Lisbonne” ou “Bergen” - ceci ne concerne que les départs de Dunkerque et le total c’est les 1014 navires indiqués sur la carte comme ‘avec fausse déclaration”"

Continuation modules 9-10

besoin de regarder les données que christian a donné + refaire la doc + reping vers silvia (question : saisonnalité globale du smogglage / de certains produits / localités)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.