Database
 sql >> Base de données >  >> RDS >> Database

Fusionner des fichiers de données avec Statistica, Partie 1

La plateforme Statistica est classée parmi les cinq meilleures plateformes de science des données par le nouveau rapport de Gartner pour 2017, « Magic Quadrant for Data Science Platforms » (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- plates-formes), anciennement appelées "plates-formes d'analyse avancées" en 2016. Le large éventail de fonctionnalités et une interface utilisateur graphique (GUI) fournies par Statistica en font l'un des outils de science des données les plus couramment utilisés.

Les fichiers de données Statistica sont appelés feuilles de calcul , qui comportent des lignes et des colonnes de données. Les lignes de données sont appelées cas et les en-têtes de colonne pour les données sont appelés variables . Un problème courant dans la préparation des données est que différents membres de l'équipe développent ou collectent des ensembles de données séparément et que les ensembles de données doivent être fusionnés avant que la feuille de calcul puisse être utilisée. Les données peuvent se trouver dans plusieurs fichiers de données. Nous verrons comment les données de deux fichiers de données différents peuvent être fusionnées en un seul fichier de données avec Statistica.

Statistica prend en charge différents types de modes de fusion pour deux fichiers de données, et ceux-ci sont :

  • Concaténer : Lorsque deux fichiers de données sont concaténés, un fichier de données est pris et ajouté (ou concaténé) à droite de l'autre fichier de données.
  • Cartésien : Crée un produit croisé de deux fichiers de données.
  • Correspondance des noms de cas : Fusionne les cas (lignes) d'un fichier avec les cas des autres fichiers en faisant correspondre les noms de cas.
  • Variables de correspondance : Fusionne les lignes d'un fichier de données avec les lignes de l'autre fichier de données en faisant correspondre les noms de variables.

Nous allons commencer par discuter de la fusion Concatenate. Ce didacticiel comporte les sections suivantes :

  • Configuration de l'environnement
  • Concaténation des fichiers de données
  • Conclusion

Configuration de l'environnement

Téléchargez et installez la plate-forme Statistica. Les fichiers de données Statistica sont appelés des feuilles de calcul (stockées avec le .sta suffixe). Nous allons créer des fichiers de données Statistica dans ce tutoriel. Un fichier de données est créé avec Fichier>Nouveau . Dans Créer un nouveau document , sélectionnez Feuille de calcul , comme le montre la figure 1.


Figure 1 : Sélection d'une nouvelle feuille de calcul à créer

Pour enregistrer un fichier de données, sélectionnez Fichier>Enregistrer sous , comme illustré à la figure 2.


Figure 2 : Fichier>Enregistrer sous

Concaténation des fichiers de données

Commencez par créer les deux fichiers de données à fusionner. Les fichiers de données à fusionner auraient généralement le même nombre de lignes et un nombre de colonnes identique ou différent. Étant donné que les données doivent être concaténées, les noms de colonne sont généralement différents. Rien de tout cela n'est une exigence; deux fichiers de données peuvent avoir un nombre de lignes différent et nous verrons également comment fusionner un tel ensemble de fichiers de données. L'objectif est de fusionner les données d'un fichier de données avec l'autre afin que le fichier de données 2 soit ajouté à droite du fichier de données 1. Par exemple, créez un fichier de données (appelé wlslog1.sta ) avec des en-têtes de colonne (variables ) horodatage , catégorie , et tapez et les données suivantes (exemple de données de journal).

4-8-2014-7:06:16,Notice,WebLogicServer
4-8-2014-7:06:17,Notice,WebLogicServer
4-8-2014-7:06:18,Notice,WebLogicServer
4-8-2014-7:06:20,Notice,WebLogicServer
4-8-2014-7:06:21,Notice,WebLogicServer
4-8-2014-7:06:22,Notice,WebLogicServer

Le fichier wlslog1.sta Le fichier de données est présenté dans Statistica à la figure 3.


Figure 3 : Fichier de données wlslog1.sta

Créez un autre fichier de données (wlslog2.sta ) avec les en-têtes de colonne servername , code , et message , et ajoutez les données suivantes (également des exemples de données de journal).

AdminServer,BEA-000365,STANDBY
AdminServer,BEA-000365,RESUMING
AdminServer,BEA-000365,ADMIN
AdminServer,BEA-000331,STARTING
AdminServer,BEA-000365,STARTED
AdminServer,BEA-000360,RUNNING

Le fichier wlslog2.sta est illustré à la figure 4. Pour fusionner les deux fichiers de données, wlslog1.sta et wlslog2.sta , cliquez sur Données et sélectionnez Fusionner , comme illustré à la figure 4.


Figure 4 : Fichier de données wlslog2.sta

A Options de fusion La boîte de dialogue s'affiche, comme illustré à la figure 5. Les Variables L'onglet est sélectionné par défaut. Sélectionnez Mode comme Concaténer . Cliquez sur le Fichier 1 pour sélectionner le 1 fichier à fusionner.


Figure 5 : Options de fusion

Sélectionnez wlslog1.sta fichier dans Sélectionner une feuille de calcul boîte de dialogue (voir Figure 6). Cliquez sur OK . Le fichier wlslog1.sta le fichier est ajouté au Fichier 1 domaine. De même, sélectionnez les 2 fichiers wlslog2.sta .


Figure 6 : Sélection d'une feuille de calcul à fusionner

Aucune autre configuration n'est requise. Par défaut, une feuille de calcul de sortie est générée et peut être configurée avec les Options , comme illustré à la figure 7. Conservez les paramètres par défaut pour la feuille de calcul de sortie.


Figure 7 : Onglet Options

Les deux fichiers à fusionner sont ajoutés au Fichier 1 et Fichier 2 champs, comme illustré à la figure 8. Le paramètre par défaut pour les Requêtes sans correspondance remplit les fichiers de données avec les valeurs manquantes, ce qui implique que des données vides sont stockées pour la section d'une ligne fusionnée (cas ) qui ne correspondent pas d'un fichier de données à l'autre. Cliquez sur OK .


Figure 8 : Fichiers de données à fusionner

Les deux fichiers de données sont concaténés, comme illustré à la figure 9. La feuille de calcul résultante comporte 6 colonnes et 6 lignes.


Figure 9 : Feuille de calcul résultante après une fusion

Si une feuille de calcul devait avoir plus de lignes que l'autre, les deux feuilles de calcul seraient concaténées de la même manière. Par exemple, ajoutez une ligne supplémentaire dans la feuille de calcul 1 (wlslog1.sta ) pour faire 7 rangées, comme illustré à la Figure 10.


Figure 10 : Ligne supplémentaire dans wlslog1.sta

Lorsqu'il est concaténé avec la 2 feuille de calcul (wlslog2.sta ), la feuille de calcul résultante a une ligne supplémentaire avec des données manquantes pour les colonnes de la 2 feuille de calcul (voir Figure 11).


Figure 11 : Feuille de calcul fusionnée

Conclusion

Dans ce didacticiel, nous avons présenté la fusion de fichiers de données (également appelés feuilles de calcul) dans la plate-forme Statistica pour la science des données. Nous avons discuté de l'un des modes de fusion :fusion par concaténation. Dans un prochain didacticiel, nous discuterons de la fusion en faisant correspondre les noms de cas et en faisant correspondre les variables.