Retour

Utiliser Talend Cloud Data Inventory

Temps de lecture : 3 minutes

Dans ce tutoriel vous apprendrez les bases de l’utilisation de Talend Cloud Data Inventory.

Prérequis :

Principes :

Talend Cloud Data Inventory permet de constituer un inventaire des jeux de données gérés dans Talend Cloud, ajoutés à cet inventaire dès qu’ils sont collectés ou créés dans Talend Cloud Pipeline Designer ou dans Talend Cloud Data Preparation.

Ces jeux de données sont ensuite automatiquement profilés, associés à un Talend Trust Score selon divers critères de qualité de leurs données puis documentés avec des métadonnées.

Utilisation :

Depuis la Console d’administration Talend ou depuis la page d’accueil du Cloud Talend, ouvrez le menu déroulant de sélection des applications puis cliquez sur « Data Inventory » :

Pour votre premier accès à l’interface de Data Inventory, un contenu de démonstration vous est proposé :

Les jeux de données sont des collections de données issues de sources (Bases de données, fichiers) définies depuis l’onglet Connexions ou bien saisies manuellement. A chaque jeu de données est associé un Talend Trust Score, indicateur de qualité agrégeant plusieurs métriques en un score entre 0 et 5.

Le type sémantique d’une colonne ou d’un enregistrement correspond au type de données pouvant être trouvé dans ces colonnes ou enregistrements, comme des noms, des codes postaux, des numéros de téléphone, des coordonnées.. Les applications Talend Cloud catégorisent automatiquement vos échantillons de données à l’aide des types sémantiques par défaut ou à l’aide de ceux que vous avez créé :

Vous pouvez appliquer des attributs personnalisés à vos jeux de données. Ils vous permettent d’ajouter des informations de métadonnées suivant un ensemble de règles prédéfinies et peuvent être utilisés pour vous permettre de rechercher et trier vos jeux de données :

Double cliquez sur un jeu de données afin d’accéder à son détail. Dans l’onglet « Vue d’ensemble » les valeurs des cinq métriques composant le Talend Trust Score de votre jeu de données sont affichées. Vous pouvez aussi voir le nombre et le pourcentage de ses données invalides, vides ou valides ou bien attribuer votre propre note au jeu de données :

Toujours depuis l’onglet « Vue d’ensemble » vous avez accès à la liste des attributs personnalisés appliqués à votre jeu de données. Vous pouvez aussi créer une Data Preparation ou un Pipeline à partir du jeu de données :

Depuis l’onglet « Echantillon » vous accédez à un échantillon de votre jeu de données, soit constitué des première valeurs du jeu de données (Head sample), soit d’un choix aléatoire de valeurs (Random sample). Pour chaque colonne les valeurs invalides, vides ou valides sont indiquées selon un code couleur (rouge, noir, vert) :

Depuis la liste de vos jeux de données le Talend Trust Score et le pourcentage de données invalides, vides ou valides sont indiqués et vous pouvez lancer la création d’une Data Preparation ou d’un Pipeline à partir de votre jeu de données :

Vous connaissez désormais les bases de l’utilisation de Talend Cloud Data Inventory.

Laisser un commentaire

Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !