[CLEAN BC] Release 1.1 (Janvier 2019)

La transformation d'un tableau en objet est désormait assuré par le serializer de symfony, l'implémentation alternative sans usage du deserializer pourra être enlever si on ne constate pas de besoin de ce coté
- Darkilliant\ImportBundle\Step\LoadObjectStep
- Darkilliant\ImportBundle\Step\ArrayTargetResolverStep
- Darkilliant\ImportBundle\TargetResolver\ArrayTargetResolver
- Darkilliant\ImportBundle\TargetResolver\DoctrineTargetResolver
- Darkilliant\ImportBundle\Loader\ObjectLoader
- Darkilliant\ImportBundle\Loader\AbstractLoader
- Darkilliant\ImportBundle\Loader\LoaderInterface
La classe NullDoctrinePersister n'est pas utilisé ni dans les tests ni pour le dry-run, il faudra donc l'enlever

Bug à l'instal

Cocur slugify à mettre dans les dépencances
Monolog à autoriser à partir de la version 2.12.1

Cannot autowire slugify
Cannot autowire "Symfony\Component\PropertyAccess\PropertyAccessor"
Vérifier l'existance de l'extension pcntl
Attention avec les logger qui sont en private

Retour bug

Screen de tests

Import d'un xml de 2.7 Gb avec 472 000 produits

Pas de persistance
Pas de parralélisme
Debug
Mapping

darkilliant_process:
    process:
        import_product_xml:
            logger: monolog.logger.import_product
            steps:
                -
                    service: 'Darkilliant\ImportBundle\Step\XmlExtractorStep'
                    options:
                        filepath: '@[context][filepath]'
                        node_name: 'Sku'
                        progress_bar: true
                -
                    service: 'Darkilliant\ProcessBundle\Step\MappingStep'
                    options:
                        mapping:
                            'entity'               : 1
                            'label'                : '@[data][title]'
                            'external_id'          : '@[data][sku]'
                            'ref'                  : '@[data][sku]'
                            'pj_primary_family_id' : '@[data][primaryfamilyId]'
                            'pj_furniture'         : '@[data][furniture]'
                            'description'          : '@[data][description]'
                            'pj_description_full'  : '@[data][descriptionFull]'
                            'pj_description_long'  : '@[data][descriptionLong]'
                            'pj_dimensions'        : '@[data][dimensions]'
                            'pj_width'             : '@[data][width]'
                            'pj_diameter'          : '@[data][diameter]'
                            'pj_height'            : '@[data][height]'
                            'pj_depth'             : '@[data][depth]'
                            'pj_large_image'       : '@[data][largeImage]'
                            'pj_medium_image'      : '@[data][mediumImage]'
                            'pj_small_image'       : '@[data][smallImage]'
                            'pj_silhouette_image'  : '@[data][silhouetteImage]'
                            'external_ref'         : '@[data][primaryCategoryId]'
                -
                    service: 'Darkilliant\ProcessBundle\Step\DebugStep'
                    enabled: false
                    options: []

Résultat,

[WIP] Release 1.1 (Janvier 2019)

🔴 Pour la future release

Supprimer les deprecated
Changer la terminoligie de Step par MicroTask afin que tout le monde comprenne qu'il ne s'agit pas de workflow mais de tache indépendante.
Ajouter la possibilité via le option value resolver, d'utiliser des transformer qui seront eux déplacer dans le ProcessBundle
Je veux pouvoir automatiquement résoudre le where quand il y a des relation qui ne sont donc pas baser sur des ids.
Je veux pouvoir exposer une micro-tâche sous forme d'une cloud function dont les appels sont dans un message queue avec des meta-data de routage vers la prochaine cloud function à appeler
Je veux pouvoir trier mon pipe pour prioriser certaines élements afin qu'il soit traiter en premier
Je veux pouvoir obtenir un fichier qui ne contient que les lignes ajouté/modifié entre un ancien fichier et un nouveau fichier (à voir si on gère sa avec un simple diff ou un système de parcours intelligent)
Il faut des diagrammes de flux et de la documentation sur le workflow

Release 0.3 (Juillet 2018)

Release note (ce qui ne sera pas fait pour cette release sera reporté à la prochaine),

[OPTIMISATION] Trouver les goulots d'étranglement

Goulots

Le goulot d'étranglement du moteur de requête doctrine permet juste de passer de 1 minute à 23 seconde et est donc exclu (PAS FORCEMENT VU LA CONCLUSION)
Le goulot d'étranglement du manque d'index sur l'ean (ajout d'un index pour solution) (passage de 400/s dégréssif à 1000/s)
Le goulot d'étranglement qui vérifie si le produit existe permet de passer à 2500/s et semble donc d'intêret à analyser (usage d'un index local en mémoire plus rapide qu'un appel à la bdd à solutionner ce point) (empreinte mémoire plus importante en contrepartie à voir du coté d'un cache clé/valeur (redis/memcache) qui permettera également de partager ce cache pour une meuilleur scalabilité)
Le goulot d'étranglement du serializer réduit le flow de 7200/s à 2500/s mais sera lui même limite par la performance du flush
Le goulot d'étranglement du flush réduit à 2500 par seconde (qu'on ai un batch de 5000 ou de 50000) (la piste de l'insert étendu n'est pas si écarté que sa)
Le goulot d'étranglement du process unique résolu par process isolé ou message queue ne semble pas être intéréssent car il est limité par les autres goulots d'étranglements.

Constat

On constate que c'est bien le couple du flush et de la désérialization qui divise les performance par 3.
Ainsi on met 1mn (2500/s) là on pour rais mettre 20 secondes (7200/s) pour 150 000 élements.

Sans utiliser de sérializer et avec un système d'insert étendu on est à 7200/s
L'usage du serailizer limite à 2500/s
L'usage du flush avec insert classique limite à 2500/s

Piste

Il faut monitorer par step le temps de traitement par itération et le temps d'attente pour calculer le potentiel de traitement suplémentaire
J'ai l'impression que ces goulots d'étranglement empêche la scalabilité
- si je met une queue pour un goulot d'étranglement sa reste bloquer sur l'autre
- peut être une queue pour les deux queue pour différer les deux goulots à savoir une pour la serialization et une pour le flush
Sinon l'usage d'insertion étendu avec du switch table pourrais être ne idée très intéréssente
Il serait intêresent de pouvoir identifier ces goulot d'étranglement de manière bien plus intéréssente avec un système de stat où l'ont vois le nombre d'ack par seconde. (statsd ?) (il serait cool aussi en mode débug de pouvoir désactiver un noued pour constater en réel les effets)
Pour les cas spéciaux peut être permettre de faire un INSERT/UPDATE DQL avec le mapping des entitié car doctrine ne permet pas de faire d'insert en DQL donc à creuser)
Peut être faire un test sans sérialization avec un paralélisme uniquement sur le flush pour voir

Release 0.4 (Octobre 2018)

Release notes,

jean-pasqualini / import Goto Github PK

import's Issues

[CLEAN BC] Release 1.1 (Janvier 2019)

Bug à l'instal

Retour bug

Screen de tests

Import d'un xml de 2.7 Gb avec 472 000 produits

[WIP] Release 1.1 (Janvier 2019)

Release 0.3 (Juillet 2018)

[OPTIMISATION] Trouver les goulots d'étranglement

Goulots

Constat

Piste

Release 0.4 (Octobre 2018)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent