simplifiez votre edi en l'externalisant
+33 4 81 91 79 99

ETL Architecture : Découvrez les trois étapes d’un projet ETL – Extract Transform Load

L’ETL architecture dépendra de votre projet d’intégration de données. D’ailleurs, ETL et EAI (« Entreprise Application Intégration) » sont deux éléments principaux d’un projet de ce type. A quoi sert un ETL, comment réaliser mon ETL architecture et quels liens y-a-il avec le bigData ? Autant de réponses que nous traiterons dans le présent article.

Qu’est-ce qu’un ETL ?

Si nous avons déjà identifié les différences entre ETL et EAI il convient tout de même de rappeler ce qu’apporte un ETL dans une architecture de Système d’Information. Un ETL permet d’automatiser les traitements d’alimentation des entrepôts de données. Ses fonctions sont de collecter des données provenant de sources différentes, de les traiter et de les charger dans un entrepôt de données. On parle aussi d’ETL integration. Alors qu’un EAI permet d’automatiser les échanges de données entre applications.

Pourquoi intégrer un ETL dans votre architecture de données ?

Les systèmes d’information des entreprises sont de natures hétérogènes, plusieurs sources de données, de générations différentes, ERP (Enterprise Ressource Planning), CRM (Customer Ressource Management), Gestion de production, … Toutes ces bases de données sont toutes optimisées pour des transactions à des fins métiers et applicatives.

En effet vos datas sont de sources multiples et de structures de données différentes. De même il y a de possibles redondances d’informations : cet état est un obstacle à une analyse facile et rapide des données de l’entreprise. Évitez le syndrome du plat de spaghetti!

ETL Architecture - Schéma spaghetti

La solution pour votre ETL architecture : collecter toutes les données pertinentes de l’entreprise dans un Data Wharehouse ou entrepôt de données. Les données seront alors organisées à des fins d’analyse. Les travaux de Ralph Kimball et Bill Inmon décrivent largement comment construire un Data Wharehouse qui répond aux besoins Business Intelligence de l’entreprise. On y retrouve les prémisses de notions d’ETL architecture.

C’est là qu’un processus de type ETL Architecture est nécessaire. Il s’établit en trois étapes.

L’extraction

Un ETL doit être en mesure de collecter, en temps réel ou par batch, toutes sortes de données brutes, données structurées, données non structurées ; en provenance des différentes sources du système d’information de l’entreprise, sur site et sur le cloud.

Cette étape consiste à extraire de l’ensemble des bases de données (Oracle, SAP, MySQL, …) des applications de l’entreprise. Cette opération nécessite l’utilisation de plusieurs technologies adaptées au type de la source de données : des passerelles, des utilitaires de réplication, des extracteurs, des connecteurs, des API.

A cette étape, il est envisageable de faire à appel à des MPP (Massivelly Parallel Processing), pour se connecter simultanément à un grand nombre de base de données.

La transformation

Cette étape est la plus importante, elle garantit la qualité des données que votre ETL architecture va intégrer dans l’entrepôt de données.

Pour chaque nature de données, origine de données, des règles précises sont définies pour :

  • Vérifier les données,
  • Supprimer les doublons,
  • Nettoyer les données,
  • Standardiser selon les règles métiers.

L’objectif est de produire des données propres prêtes à être chargées dans le Data Warehouse et à servir de source pour les solutions d’analyse.

Le chargement

Après cette étape, les données stockées sont facilement accessibles et utilisables : 

  • Analyse avec des outils OLAP (On Line Analyse Processing),
  • Recherche de corrélation avec le Data Mining,
  • Partage avec les outils de Reporting,
  • Exploitation par les Outils Business Intelligence.

Pour des gains de performance ces trois étapes, extract transform load, s’effectuent souvent en parallèle.

ETL et BigData

La transformation numérique des entreprises à l’ère du BigData multiplie les sources de données : IoT (Internet of Things), OpenData, Site e-commerce, Réseaux Sociaux, pages Web, …, et les nouveaux types de données non structurées et présentes en de très grandes quantités.

Il est donc nécessaire de soigner la scalabilité de l’architecture d’un projet ETL pour anticiper ces nouvelles données.

L’offre ETL Architecture

Comme pour la plupart des logiciels l’offre ETL architecture se décline :

  • En mode propriétaire :
    • On-premise, mode traditionnel en Licence, installé sur les serveurs de l’entreprise,
    • Cloud avec un modèle économique de type SaaS (Software As A Service),
    • En mode Open Source, solutions libres de droits mais avec les contraintes d’intégration des logiciels Open Source,
    • Et aussi en mode service cloud, tel que Cloud Data Fusion proposé par Google, un service low code / no code qui permet d’alimenter en données son entrepôt de données BigQuery à partir de différentes sources avec des modèles de transformation prédéfinis.

Depuis plus de trente ans, Tenor accompagne les entreprises dans leur transformation digitale. Nous proposons des solutions de gestion de données comme les ETL informatique. Contactez nos équipes pour lancer votre projet.