Décrire mes données avec SAP InfiniteInsight

Introduction

Ce document a pour objectif de présenter à l’utilisateur de SAP InfiniteInsight Modeler la Description de données.

Le contexte

L’outil SAP InfiniteInsight permet aux statisticiens, aux analystes et aux utilisateurs métier avancés de concevoir  des modèles prédictifs de bout en bout. SAP InfiniteInsight automatise la modélisation en sélectionnant automatiquement les variables pertinentes, et automatise les tâches de calibration et de validation des modèles. L’outil dispose également d’un générateur de code (SAS, C, C++, Java, PMML, HTML, SQL optimisé) permettant d’intégrer directement les algorithmes prédictifs dans vos applicatifs.

Prérequis

Vous avez installé SAP InfiniteInsight 6.5 ou 7.0 et disposez du jeu de données test fourni avec l’outil situé par défaut dans « répertoire d’installation\SAP InfiniteInsight\InfiniteInsightV7.0.0\Samples\Census\Census01.csv ».

I. Objectif

L’objectif de ce tutoriel est de guider l’utilisateur dans la description de ses données. SAP InfiniteInsight permet de décrire les données selon 8 critères :

  1. Stockage
  2. Type
  3. Genre
  4. Clé
  5. Ordre
  6. Inconnu
  7. Description
  8. Structure

 

II. Lancement de l’application

La description des données est une des 4 étapes de la conception de modèle avec SAP InfiniteInsight Modeler.

Pour cela lancez l’application SAP InfiniteInsight et rendez-vous dans l’onglet Modeler

Sélectionnez « Classement ou régression ».

Dans les exemples fournis sélectionnez  « répertoire d’installation\SAP InfiniteInsight\InfiniteInsightV7.0.0\Samples\Census\Census01.csv ».

Vous pouvez, si vous le souhaitez, modifier le découpage. Dans ce tutoriel nous garderons « Aléatoire sans test ».

 

Vous êtes désormais dans le répertoire Description des données.

Dans le tutoriel « Mon premier modèle avec SAP InfiniteInsight » nous avions choisi l’analyse automatique. Dans celui-ci nous vous proposons d’ouvrir le descriptif fourni avec le jeu de données de test :

« répertoire d’installation\SAP InfiniteInsight\InfiniteInsightV7.0.0\Samples\Census\Desc_Census01.csv ».

Pour cela cliquez sur « Ouvrir » et sélectionnez le fichier.

Ce descriptif contient les informations de :

  1. Nom des variables
  2. Type de stockage
  3. Type de variable
  4. Si la variable est une clé (en l’absence de clé proimaire KxIndex est ajouté)
  5. Ordre
  6. Inconnu : Ici encadré en rouge. On dispose des valeurs qui portent une valeur inconnue.
  7. Description

 

III. Définition des valeurs inconnues

Pour définir la valeur porteuse de l’inconnu, cliquez dans la case Inconnu de la variable « capital-loss » et entrez ‘99999’ pour être cohérent avec la variable « capital gain ».

Vous avez défini la valeur que SAP InfiniteInsight doit considérer comme inconnue. Ici cela permet à l’outil de ne pas considérer ‘99999’ comme un nombre et donc une valeur de la variable.

 

 

 

 

IV. Définition des groupes

Un groupe de variable défini les variables portant une information simimlaire. Les variables d’un même groupe ne seront pas croisées lors de la phase de modélisation.

Ici « education » et « education num » décrivent le niveau d’éducation de l’individu. Nous allons donc définir un groupe « education » pour ces deux variables simplement en écrivant dans les bonnes cases.

 

 

 

V. Définition des structures

Les structures permettent de définir des ensemble de valeurs d’une variable numérique continue ou nominale qu’elle qu’en soit le type de stockage.

Nous présentons ici les deux types au travers de :

  • La définition de tranches d’âge
  • La définition de type de relations

V.1. Les tranches d’âge

Les structures permettent de définir des ensemble de valeurs d’une variable numérique continue ou nominale qu’elle qu’en soit le type de stockage.

Cliquez droit sur la brique dans la case structure.

Sélectionnez « définir une structure » et à « partir des statistiques ».

 

Double-cliquez maintenant sur la brique (un crayon est apparu par-dessus).

SAP InfiniteInsight a présélectionné des catégories d’âges. Nous allons les modifier pour avoir des tranches d’âge de 5 ans plus une tranche des « – de 25 ans » et une tranche des « + de 65 » .

Sélectionnez les 5 premières catégories de 17 à 25 ans en cliquant gauche dessus en maintenant la touche Ctrl enfoncée.

Cliquez ensuite sur « fusionner ». Vous venez de créer la tranche d’âge 17-25 ans

 

Reproduisez le cheminement pour obtenir :

  • les 25-30 ans
  • les 30-35 ans
Pour la tranche des 35-40 ans, la valeur 40 n’est pas disponible. Pour pallier à ce manque double cliquez dans la cellule « Maximum » et remplacez 38 par 40.
Vous n’avez ensuite plus qu’à fusionner les catégories.

 

Poursuivez jusqu’à avoir les catégories suivantes :

  • 17-25
  • 25-30
  • 30-35
  • 35-40
  • 50-53
  • 53-90

Sélectionnez ensuite la catégorie 53-90 et cliquez sur « Séparer ». La tranche est alors séparée en 2 tranches égales.

Reproduisez ces 3 cheminements (fusion, réécriture de borne et séparation) pour obtenir les catégories souhaitées. Le résultat final est le suivant :

 

 

Cliquez ensuite sur « OK ». Le crayon devant la brique est devenu un « + » vert.

 

 

V.2. Les relations

Les structures permettent de définir des ensemble de valeurs d’une variable numérique continue ou nominale qu’elle qu’en soit le type de stockage.

Cliquez droit sur la brique dans la case structure de la huitième ligne « relationship ».

Sélectionnez « définir une structure » et à « partir des statistiques ».

Double-cliquez sur la brique.

Les catégories ont été extraites par SAP InfiniteInsight. Sélectionnez « Husband » et « Wife » en maintenant la touche Ctrl enfoncée, puis cliquez sur « Ajouter un nouveau groupe ».

Le groupe « Husband;Wife » a été créé. Lors de la modélisation SAP InfiniteInsight va considérer ces deux valeurs comme une seule.

Les autres valeurs constituent chacune un groupe distinct.

On pourra fusionner les groupes « Husband;Wife » et « Unmarried » pour avoir un groupe regroupant les clients en couple.

 

Cliquez sur OK.

 

 

VI. Résultats

L’arbre de décision et le détail des variables permettent de visualiser l’impact des modifications effectuées.

La définition de structure permet aux utilisateurs finaux d’avoir une vision plus nette et plus cohérente avec le métier. Cependant la multiplication des agrégations peut impacter les performances d’un modèle. Les utilisateurs de SAP InfiniteInsight porteront donc une attention particulière à équilibrer performance et compréhensibilité des modèles.

 

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.