Configurer une grande base de données dans MySQL pour l'analyse dans R

La documentation de RMySQL est assez bonne - mais elle suppose que vous connaissez les bases de SQL. Ce sont :

créer une base de données
créer un tableau
insérer des données dans le tableau
extraire des données de la table

L'étape 1 est simple :dans la console MySQL, il suffit de "créer la base de données DBNAME". Ou depuis la ligne de commande, utilisez mysqladmin , ou il existe souvent des interfaces graphiques d'administration MySQL.

L'étape 2 est un peu plus difficile, car vous devez spécifier les champs de la table et leur type. Cela dépendra du contenu de votre fichier CSV (ou autre fichier délimité). Un exemple simple ressemblerait à :

use DBNAME;
create table mydata(
  id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
  height FLOAT(3,2)
);

Qui dit créer une table avec 2 champs :id , qui sera la clé primaire (elle doit donc être unique) et s'incrémentera automatiquement au fur et à mesure que de nouveaux enregistrements seront ajoutés ; et hauteur , qui est spécifié ici comme un flottant (un type numérique), avec 3 chiffres au total et 2 après la virgule (par exemple 100.27). Il est important que vous compreniez les types de données .

Étape 3 - il existe différentes manières d'importer des données dans une table. L'un des plus simples est d'utiliser le mysqlimport utilitaire. Dans l'exemple ci-dessus, en supposant que vos données se trouvent dans un fichier portant le même nom que la table (mydata), la première colonne un caractère de tabulation et la seconde la variable de hauteur (sans ligne d'en-tête), cela fonctionnerait :

mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata

Étape 4 - nécessite que vous sachiez exécuter des requêtes MySQL. Encore une fois, un exemple simple :

select * from mydata where height > 50;

Signifie "récupérer toutes les lignes (id + hauteur) de la table mydata où la hauteur est supérieure à 50".

Une fois que vous avez maîtrisé ces bases, vous pouvez passer à des exemples plus complexes tels que la création de 2 tables ou plus et l'exécution de requêtes qui joignent les données de chacune.

Ensuite - vous pouvez vous tourner vers le manuel RMySQL. Dans RMySQL, vous configurez la connexion à la base de données, puis utilisez la syntaxe de requête SQL pour renvoyer les lignes de la table sous forme de bloc de données. Il est donc vraiment important que vous obteniez la partie SQL - la partie RMySQL est facile.

Il existe des tas de tutoriels MySQL et SQL sur le Web, y compris le "officiel" tutoriel sur le site MySQL. Il suffit de rechercher sur Google "tutoriel mysql".

Personnellement, je ne considère pas du tout que 80 Mo constituent un grand ensemble de données ; Je suis surpris que cela cause un problème de RAM et je suis sûr que les fonctions R natives peuvent le gérer assez facilement. Mais il est bon d'apprendre de nouvelles compétences telles que SQL, même si vous n'en avez pas besoin pour ce problème.