Database
 sql >> Base de données >  >> RDS >> Database

Feuilles de calcul ou bases de données :est-il temps de changer ? Partie 1

Les feuilles de calcul - Excel, Google Sheets ou une feuille de tout autre nom - sont des outils vraiment sympas et puissants. Mais alors, les bases de données le sont aussi. Quand faut-il s'en tenir à une feuille de calcul ? Quand faut-il passer à une base de données ?

Vous pouvez utiliser des feuilles de calcul et des bases de données à des fins similaires. Étant donné que les deux organisent les données et facilitent les rapports, il peut parfois être difficile de déterminer lequel est le meilleur à utiliser. Parlons donc des avantages et des inconvénients de chaque option.

Au début…

Si vous débutez en affaires, une feuille de calcul (ou une « feuille ») est presque toujours votre premier choix. Les startups ont rarement le budget pour prendre en charge une base de données sur mesure. Et en plus, votre entreprise est nouvelle; vous n'aurez aucune idée si cela restera petit, gonflera dans une énorme société ou sera quelque part au milieu.

Un autre facteur est que la structure et l'organisation de votre entreprise changeront probablement au fur et à mesure de sa croissance. Donc vraiment, construire une base de données au départ n'est pas une option courante. C'est là que les feuilles interviennent généralement.

La principale raison d'utiliser des feuilles est qu'elles sont disponibles. Vous pouvez commencer à utiliser Microsoft Excel, Google Sheets ou tout autre tableur en quelques clics. Vous n'avez pas à planifier une structure compliquée; vous pouvez simplement saisir vos données, effectuer des calculs et des rapports, et partager les informations avec vos collègues. Les feuilles de calcul offrent de nombreuses fonctionnalités intégrées intéressantes, et elles peuvent mener à bien une petite entreprise pendant un certain temps.

Disons que vous avez toutes vos données sur des feuilles. Pourquoi devriez-vous envisager de créer une base de données ? Autrement dit, pourquoi se compliquer la vie si tout fonctionne ?

À ce stade, je vous suggère de vous demander à quel point tout fonctionne bien. Rappelez-vous, tout fonctionne bien jusqu'à ce qu'il cesse de fonctionner. Dans le cas des feuilles, plus vous avez de données, plus vous pouvez rencontrer de problèmes. Comment les bases de données vous aident-elles à éviter ces problèmes ? Et quand devriez-vous envisager de changer ?

Utiliser des feuilles de calcul pour organiser les données

Supposons que nous ayons créé une entreprise qui fournit des services de télécommunication et Internet aux clients. Nous devons savoir quel client est actuellement abonné à quel service. Les clients peuvent avoir plus d'un service actif à la fois, et le service peut expirer à la fin d'une période définie ou se renouveler automatiquement.

Examinons une solution qui utilise des feuilles.

Nous avons simplement fait une liste de toutes les données dont nous disposons, c'est-à-dire qu'il y a un mélange de données en un seul endroit. Nous avons des données client (colonnes A à E), des types de service (colonne F) et des détails de service (colonnes G, H et J).

A première vue, tout semble plutôt bien. Nous pouvons afficher toutes les données sans effectuer d'actions complexes. Nous pouvons filtrer les données dont nous avons besoin et créer des tableaux croisés dynamiques ou des graphiques à des fins de reporting. Jusqu'ici, tout va bien.

Mais si nous continuons à utiliser des feuilles lorsque nous obtenons plus de clients, nous pouvons atteindre un point où tout devient trop volumineux pour être géré par les feuilles. Et cela amène une nouvelle série de problèmes.

Problèmes potentiels avec les feuilles de calcul

Par rapport aux feuilles de calcul, les bases de données sont compliquées. Mais ces « complications » ont un but utile ; ils préviennent ou au moins minimisent les problèmes suivants :

Qualité des données

La qualité et la cohérence des données sont un énorme problème pour les grandes feuilles. Bien que nous ayons l'intention de stocker les données correctement, des problèmes de qualité des données sont très courants. Les gens font des erreurs ou nous avons des informations inattendues à saisir. Pensez simplement à la façon dont les scénarios ci-dessous pourraient présenter un problème :

  1. Nous voulons ajouter un nouveau client sans spécifier son type de service. Devrions-nous ajouter les détails du client et omettre les détails du service ? Si nous ne pouvons insérer que les clients qui ont des détails sur le service, c'est une anomalie d'insertion .
  2. Et si nous ajoutions des données de service dès qu'elles sont disponibles, après avoir créé la fiche client ?
  3. Que se passe-t-il si un client s'abonne à plusieurs services ? Devrions-nous créer un nouvel enregistrement pour chaque service, puisque nous ne pouvons avoir qu'un seul type de service par enregistrement ?
  4. Que se passe-t-il si nous avons plusieurs enregistrements pour un client et que nous devons mettre à jour les informations de ce client ? À moins que nous ne modifiions les informations dans toutes les lignes pertinentes, nos données seront incohérentes. Nous pourrions avoir deux adresses différentes pour le même compte ; dans ce cas, comment pourrions-nous savoir quelles données sont correctes ?
  5. Que se passe-t-il lorsque nous supprimons des données ? Si nous supprimons la ligne entière, nous perdons toutes les données de ce client. Ce n'est pas une bonne idée; il est préférable de supprimer uniquement leurs données de service et de conserver leurs données client. Mais comment pouvons-nous faire cela si tout est stocké sur une seule ligne ?
  6. Que se passe-t-il si un seul client s'abonne à un service et que nous supprimons cet enregistrement ? Si nous supprimons l'enregistrement de ce client, supprimons-nous également tous les enregistrements de ce service ? (C'est ce qu'on appelle une anomalie de suppression .) Cela signifie-t-il que nous n'offrons plus ce service ? Si nous le proposons toujours, nous avons perdu tous les paramètres liés à ce service.

De toute évidence, il y aura des complications dans le stockage des données pour toute entreprise. Nous avons tous été confrontés à des problèmes de qualité des données - par ex. a reçu des factures pour des services que nous n'avons pas commandés, a été facturé deux fois pour la même chose ou s'est fait envoyer un colis à la mauvaise adresse. Ces choses arrivent, et sur un petit ensemble de données, il est relativement facile de les corriger. Mais que se passe-t-il lorsque nous avons des milliers voire des millions de lignes ? Nous allions bientôt consacrer presque tout notre temps à corriger ces problèmes.

Problèmes de performances

Problèmes de performances se produire lorsque les ensembles de données deviennent trop volumineux pour qu'une feuille puisse les gérer efficacement. Vous rencontrerez des problèmes de qualité des données beaucoup plus tôt que des problèmes de performances, mais cela ne signifie pas que les problèmes de performances sont sans importance. Au contraire; les problèmes de performances peuvent être encore plus dangereux que les problèmes de qualité des données.

Il est courant de rechercher des lignes spécifiques, d'insérer de nouvelles lignes, de mettre à jour ou de supprimer des valeurs de cellule dans des lignes existantes et de supprimer des lignes entières. Toutes ces actions nécessitent beaucoup de filtrage, ce qui ne pose aucun problème sur un petit jeu de données. Mais lorsque vos feuilles deviennent très grandes, même une simple opération peut prendre quelques minutes. Passer la moitié de votre journée de travail à attendre que le filtre fasse son travail n'est pas un choix judicieux.

Il y a aussi le problème connexe de la redondance - stocker les mêmes données plusieurs fois sur le disque (par exemple, les données client sont stockées encore et encore dans plusieurs lignes). Cela aura également un impact sur les performances.

Sur un matériel décent, les feuilles avec des milliers de lignes iront bien. Mais lorsque vous entrez dans des dizaines de milliers de lignes, les problèmes de performances peuvent apparaître. Inutile de dire que les feuilles comportant des centaines de milliers, voire des millions de lignes auront des performances extrêmement médiocres.

D'autre part, les bases de données sont là pour résoudre les problèmes de performances. Lorsque tout est correctement configuré, travailler avec des millions de lignes ne posera aucun problème.

Gestion des données historiques et des rapports

Un autre problème important avec les feuilles est le suivi des changements de données au fil du temps. Si vous supprimez simplement des données de feuilles, vous les perdez. Si vous décidez de stocker une feuille quotidienne (pour capturer tous les changements et conserver les données historiques), vous vous retrouverez bientôt enseveli sous des tonnes de feuilles. La création de rapports à partir d'une telle structure prend beaucoup de temps et la qualité des rapports générés à partir de celle-ci serait très discutable.

Reprouvez-vous de tels problèmes avec vos données ?

Dans l'article d'aujourd'hui, nous avons discuté de certains inconvénients de l'utilisation de feuilles pour organiser de nombreuses données. Avez-vous déjà rencontré l'un de ces problèmes? Êtes-vous prêt à faire passer votre entreprise au niveau supérieur ? Si la réponse est « oui », vous êtes au bon endroit ! La semaine prochaine, nous apprendrons comment une base de données résout les problèmes de stockage de données dans des feuilles.