Database
 sql >> Base de données >  >> RDS >> Database

Fusionner des fichiers de données avec Statistica, partie 2

Dans un didacticiel précédent, "Fusionner des fichiers de données avec Statistica, Partie 1", nous avons présenté l'utilisation de Statistica pour fusionner des feuilles de calcul. Nous avons discuté du mode de fusion par concaténation. Dans ce didacticiel, nous aborderons deux autres modes :utiliser des noms de cas et des noms de variables. Ce didacticiel comporte les sections suivantes :

  • Utiliser des noms de cas pour fusionner des fichiers de données
  • Utiliser des noms de variables pour fusionner des fichiers de données
  • Conclusion

Utiliser des noms de cas pour fusionner des fichiers de données

Ensuite, nous allons fusionner les fichiers de données (feuilles de calcul) en faisant correspondre les lignes (également appelées cas ). Si les lignes ont les mêmes noms de cas, les données des lignes des deux fichiers de données sont fusionnées. Les exemples de fichiers de données que nous avons utilisés dans l'article précédent n'incluent pas de nom de cas. Le nom du cas est spécifié dans la colonne 1, la colonne avant les colonnes de données. En utilisant les mêmes données que pour concaténer les fichiers de données, ajoutez les noms de cas (log1 à log6 ) aux lignes dans wlslog1.sta feuille de calcul, comme illustré à la figure 1.


Figure 1 : Tableur wlslog1

De même, ajoutez des noms de cas (log1 à log6 ) à chaque ligne dans wlslog2.sta , comme illustré à la figure 2.


Figure 2 : Feuille de calcul wlslog2

Sélectionnez Données>Fusionner et, dans Options de fusion , sélectionnez Mode as Correspondre aux noms de cas , comme illustré à la figure 3. Cliquez sur OK .


Figure 3 : Fusion de wlslog1 et wlslog2

Les données dans wlslog1.sta la feuille de calcul est fusionnée avec les données dans wlslog2.sta feuille de calcul, comme illustré dans la feuille de calcul résultante de la figure 4.


Figure 4 : Fichier fusionné

Lors de la fusion en faisant correspondre les noms de cas, chacun des fichiers de données à fusionner doit inclure des noms de cas, sinon l'erreur illustrée à la figure 5 s'affiche.


Figure 5 : Les noms de cas sont requis lors de la fusion en faisant correspondre les noms de cas

Une feuille de calcul peut avoir plus de cas (ou de lignes) que l'autre. Par exemple, ajoutez une ligne 7 à wlslog1.sta (voir Figure 6). Cliquez sur Fusionner pour fusionner les feuilles de calcul.


Figure 6 : Fusionner avec une 7ème ligne dans wlslog1.sta

Fusionner en faisant correspondre les noms de cas avec wlslog2.sta , qui est la même qu'avant avec 6 observations (lignes), comme illustré à la Figure 28. Les feuilles de calcul à fusionner ont des observations sans correspondance (une feuille de calcul contient plus d'observations que l'autre). Les cas sans correspondance sont fusionnés en remplissant les données manquantes par défaut, ce qui implique que les valeurs de données sont vides. La feuille de calcul résultante contient des données manquantes vides pour les cas sans correspondance, comme illustré à la figure 7.


Figure 7 : La feuille de calcul résultante contient des données manquantes vides

Options de fusion fournit quelques options pour les cas sans correspondance autre que remplir avec les données manquantes. Pour illustrer, utilisez une feuille de calcul, wlslog1.sta , avec une ligne supplémentaire et également un nom de cas en double (log2 ), comme le montre la figure 8.


Figure 8 : Feuille de calcul avec nom de cas en double

Les cas sans correspondance peuvent être supprimés en sélectionnant Supprimer les cas dans Fichier 1 Cas sans correspondance , comme illustré à la Figure 9. Plusieurs cas sont corrigés en sélectionnant « Drop File 1 multiples ». Avec le mode de fusion comme Match Casenames , cliquez sur OK .


Figure 9 : Fichier 1 Cas sans correspondance>Supprimer les cas

La feuille de calcul résultante a les deux problèmes résolus. Le cas sans correspondance est supprimé et le cas en double est supprimé, comme illustré à la figure 10.


Figure 10 : Feuille de calcul résultante avec le cas sans correspondance supprimé et le cas en double supprimé

Utiliser des noms de variables pour fusionner des fichiers de données

Ensuite, nous fusionnerons des feuilles de calcul en faisant correspondre les noms de variables. Commencez avec deux feuilles de calcul, wlslog1.sta et wlslog2.sta , chacun avec les noms de colonne indiqués dans la figure 11.


Figure 11 : Noms des colonnes dans wlslog1 et wlslog2

Ajoutez les données suivantes à wlslog1.sta .

4-8-2014-7:06:16,Notice,WebLogicServer,AdminServer,BEA-000365,
   STANDBY
4-8-2014-7:06:17,Notice,WebLogicServer,AdminServer,BEA-000365,
   RESUMING
4-8-2014-7:06:18,Notice,WebLogicServer,AdminServer,BEA-000365,
   ADMIN

Le fichier wlslog1.sta tableur est illustré à la figure 12.


Figure 12 : Feuille de calcul wlslog1.sta

Ajoutez les données suivantes à wlslog2.sta .

4-8-2014-7:06:20,Notice,WebLogicServer,AdminServer,BEA-000331,
   STARTING
4-8-2014-7:06:21,Notice,WebLogicServer,AdminServer,BEA-000365,
   STARTED
4-8-2014-7:06:22,Notice,WebLogicServer,AdminServer,BEA-000360,
   RUNNING

Le fichier wlslog2.sta est illustré à la Figure 13. Sélectionnez Données>Fusionner comme avant.


Figure 13 : Feuille de calcul wlslog2.sta

Dans Options de fusion , sélectionnez Mode en tant que variables de correspondance , comme illustré à la Figure 14. Sélectionnez Fichier 1 comme wlslog1.sta et Fichier 2 comme wlslog2.sta . L'ordre est important car la feuille de calcul à ajouter au bas de l'autre doit être Fichier 2 . Conservez les critères de correspondance comme Par auto , qui choisit automatiquement les critères de fusion les plus appropriés. Les autres options pour les critères de correspondance sont Par texte , qui compare les données en comparant du texte ; et Par numérique , qui compare les données en comparant les valeurs numériques. Ensuite, cliquez sur Sélectionner pour sélectionner les variables à faire correspondre.


Figure 14 : Mode de fusion en tant que variables de correspondance

Tout d'abord, sélectionnez les variables correspondantes pour le fichier actuel (Fichier 1). Cliquez sur Sélectionner tout et cliquez sur OK, comme illustré à la Figure 15.


Figure 15 : Sélection de variables dans le fichier courant

De même, sélectionnez toutes les variables pour le fichier de fusion (Fichier 2) et cliquez sur OK (voir Figure 16).


Figure 16 : Sélection de variables dans le fichier de fusion

Cliquez sur OK dans Options de fusion, comme illustré à la figure 17.


Figure 17 : Fusionner avec Mode en tant que variables de correspondance

Les deux feuilles de calcul sont fusionnées en faisant correspondre les noms de variables, comme illustré à la figure 18.


Figure 18 : Feuille de calcul résultante de la fusion par correspondance des noms de variables

Lors de la fusion de feuilles de calcul en faisant correspondre les noms de variables, les valeurs des données sont triées numériquement et textuellement. Par exemple, fusionnez deux feuilles de calcul avec la feuille de calcul 1, illustrée à la figure 19.


Figure 19 : Première feuille de calcul à fusionner

La 2e feuille de calcul est illustrée à la figure 20. Une modification ajoutée est que le nom de la variable a été légèrement modifié dans le fichier 1 :"ServerType" au lieu de "servername", "MessageCode" au lieu de "code" et "Message" au lieu de " msg".


Figure 20 : Deuxième feuille de calcul à fusionner

Cliquez sur Sélectionner pour sélectionner les variables à utiliser pour la correspondance. Dans Fichier 1, sélectionnez toutes les variables (voir Figure 21).


Figure 21 : Sélection des variables correspondantes pour le fichier actuel

Dans Fichier 2, sélectionnez également toutes les variables, comme illustré à la Figure 22.


Figure 22 : Sélection des variables correspondantes pour le fichier de fusion

Fusionnez les deux feuilles de calcul comme précédemment. Le "servername" ou "ServerType" est le même pour toutes les lignes et ne contribue pas au tri des données dans la feuille de calcul résultante. Les valeurs de données de la colonne « code » ou « MessageCode » sont triées en tant que Texte insensible à la casse ; BEA-000331 est trié avant BEA-000360, qui est trié avant BEA-000365. Pour la même valeur pour le code BEA-000365, les données de la colonne « msg » ou « Message » sont également triées par texte—ADMIN->RESUMING->STANDBY>STARTING—comme illustré à la Figure 23.


Figure 23 : Feuille de calcul résultante

Certaines conditions doivent être appliquées lors de la sélection des variables. Au moins une variable doit être sélectionnée pour la mise en correspondance, sinon l'erreur illustrée à la figure 24 est générée.


Figure 24 : Un minimum de 1 Variable doit être sélectionné

Le nombre de variables sélectionnées doit être le même dans le fichier 1 et le fichier 2, sinon l'erreur illustrée à la figure 25 est générée.


Figure 25 : Le même nombre de variables doit être sélectionné dans les feuilles de calcul à fusionner

Le type de données des variables sélectionnées doit être le même pour les variables sélectionnées. Par exemple, les variables "nom du serveur" et "Type de serveur" dans le fichier 1 et le fichier 2 respectivement doivent avoir le même type de données, sinon l'erreur illustrée à la figure 26 est générée.


Figure 26 : Les types de variables doivent être les mêmes lors de la fusion en faisant correspondre les variables

Conclusion

Dans ce didacticiel, nous avons abordé la fusion de fichiers de données (également appelés feuilles de calcul) dans la plate-forme Statistica à l'aide des modes :Correspondance des noms de cas et Correspondance des variables.