Le terme Extract, Transform and Loading est plus connu sous l’acronyme ETL.
Il s’agit d’un middleware permettant d’effectuer des synchronisations massives d’informations d’une application ou d’une base de données vers une environnement décisionnel (datawarehouse, ou datamart relationnel ou multi-dimensionnel) ou vers d’autres bases de données.

Les solutions ETL sont basées sur des connecteurs servant à exporter ou importer les données dans les applications (connecteurs de base de données ou d’applicatifs métiers…), des moteurs de transformation qui manipulent les données (agrégations, filtres, conversions…), et des mises en correspondance (mapping).
A l’origine, les solutions d’ETL sont apparues pour le chargement régulier de données agrégées dans les entrepôts de données (ou datawarehouse), avant de se diversifier vers les autres domaines logiciels.
Des technologies complémentaires sont apparues par la suite : l’EAI (Enterprise Application Integration), puis l’ESB (Enterprise Service Bus).

ETL versus EAI


Historiquement, les solutions ETL collent à l’image du batch (mode différé), notamment du fait qu’elles brassent d’importantes quantités de données.
Or, provoquer des allers-retours volumineux et incessants entre applications et/ou bases de données aurait comme effet de saturer des ressources vitales pour l’entreprise, comme la bande passante des réseaux.
C’est pourquoi la fonction de gestion de la production de la DSI se charge généralement de paramétrer son ETL afin qu’il effectue ses opérations de nuit, ou en tout cas pendant les heures creuses.

En parallèle, le middleware EAI a pour fonction de passer des messages d’une application à l’autre, contenant de petites quantités de données. Dans ce cadre, le temps réel, ou quasi-temps réel est une caractéristique de base. D’autre part, si une application n’est plus disponible, les messages sont stockés dans une file d’attente le temps que celle-ci se libère.

Le marché


Le marché s’appuie sur des éditeurs généralistes du monde décisionnel et des acteurs très spécialisés.

On peut noter :
• BusinessObjects DataIntegrator. Cette solution complète et intégrée avec les outils de reporting et d’analyse de l’éditeur est issue du rachat en 2003 de Acta. Elle est idéale dans un environnement décisionnel BusinessObjects et offre des outils de qualité de données très puissants.
• Oracle Dataintegrator . Avec l’ancien Sunopsis, Oracle s’est équipe d’un ETL sont le principe de fonctionnement s’appuie sur les moteurs des bases de données. L’outil est complet et très orienté ‘interface événementiel’. Des modules EAI enrichissent l’offre dans les dernières versions.
• Microsoft SSIS. Solution embarquée avec SQL Server 2005, elle est une évolution en douceur de MS DTS. Encore loin des standards du marché, cet outil nécessite beaucoup de développements manuels SQL.
• IBM Datastage. DataStage est l’une des offres majeures sur le marché. Complète, elle offre des modules de qualité de données et de métadonnées complets. Issue du rachat de Ascential Software, IBM continue à faire évoluer la solution, notamment autour de problématiques EAI.
• Informatica Powercenter. L’une des plates-formes d’extraction / transformation de données les plus complètes et répandues dans les grands groupes.
• Marché Open source : Talend. Offre émergente mais n’offrant pas toute la robustesse de mise en place et la simplicité de réalisation des traitements des autres solutions du marché.

La différentiation se fait souvent sur les critères suivants :
• Intégration des plateformes ETL-BI.
• Connecteurs aux environnements existants.
• Langages, environnements graphiques.
• Volumétrie traitée, temps de traitement.

Le projet d'intégration


Mettre en place un ETL nécessite une vraie méthodologie projet.
Elle s’appuie sur une équipe mixte : consultant fonctionnel et expert logiciel.

Elle nécessite :
Une phase de spécifications : identification des données sources et des règles de transformation (nettoyage, agrégation, mapping complet, règles de rejet, règles de reprise après erreur, gestion de reprise des historiques…).
Une phase d’installation des environnements (multi-développeurs, environnement de développement/test/recette/production, connecteurs …).
Une phase de développement des flux (paramétrage dans l’outil des règles d’alimentation).
Une phase de qualification et recette qui permet le contrôle technique et fonctionnel de manipulation des informations. Les outils BI sont souvent utilisés pour cette étape.

L'Expert


Laurent BARDASSIER
Co-Gérant – Direction Administrative et de Production

06 25 17 61 22