HBase
 sql >> Base de données >  >> NoSQL >> HBase

Construire un processus évolutif à l'aide de NiFi, Kafka et HBase sur CDP

Navistar est l'un des principaux fabricants mondiaux de camions commerciaux. Avec une flotte de 350 000 véhicules, l'entretien imprévu et les pannes de véhicules ont créé une perturbation continue de leur activité. Navistar avait besoin d'une plate-forme de diagnostic qui l'aiderait à prévoir quand un véhicule aurait besoin d'entretien pour minimiser les temps d'arrêt. Cette plate-forme devait être en mesure de collecter, d'analyser et de fournir des données provenant de plus de 70 flux de données télématiques et de capteurs de chaque véhicule de leur flotte, y compris des données mesurant les performances du moteur, la température du liquide de refroidissement, la vitesse du camion et l'usure des freins. Navistar s'est tourné vers Cloudera pour l'aider à créer une plate-forme de diagnostic à distance compatible IoT, appelée OnCommand® Connection, afin de surveiller l'état de ses véhicules et d'augmenter la disponibilité des véhicules.

Ce blog démontre l'utilisation de technologies similaires pour résoudre des problèmes de portée beaucoup plus petite, mais avec des parallèles à ceux rencontrés par Navistar. Les données ont été extraites d'une Corvette hautes performances hautement modifiée (voir Fig 1) pour montrer les étapes de chargement des données à partir d'une source externe, de leur formatage à l'aide d'Apache NiFi, de leur transmission à une source de flux via Apache Kafka et de leur stockage à l'aide Apache HBase pour une analyse supplémentaire.

Fig 1. Corvette 2008 avec moteur 6,8 L modifié

Pour cet exemple spécifique, la Corvette en question a fait remplacer tous les composants du moteur d'origine par des pièces plus performantes. Le moteur a été démoli jusqu'à sa coque, les cylindres alésés, le vilebrequin et l'arbre à cames remplacés, et de nouveaux pistons et bielles ont été installés, poursuivant l'objectif d'environ 600 chevaux (voir Fig 2). Pour que cette nouvelle configuration moteur fonctionne correctement, le logiciel du moteur a subi une refonte complète. Alors que la pression sur l'accélérateur devenait beaucoup plus dramatique, une conséquence inattendue était que les diagnostics et les systèmes d'erreur d'origine de la voiture n'étaient plus précis et devaient donc être désactivés.

Fig 2. Reconstruction du moteur à mi-parcours avec tous les nouveaux composants internes brillants

Pour capturer et analyser les données des capteurs de la Corvette, un chemin était nécessaire pour que les données circulent de la voiture vers une plate-forme alternative d'analyse et de diagnostic. La première étape consistait à connecter un ordinateur portable au port de diagnostic de la Corvette (voir Fig 3) pour importer les données des capteurs sur un emplacement de stockage basé sur le cloud. S3 a été utilisé pour ce projet.

Fig 3. Ordinateur portable connecté au port de diagnostic via USB

L'étape suivante consistait à utiliser Cloudera Data Platform (CDP), la plate-forme multifonctionnelle et multi-analytique de Cloudera, pour accéder aux services nécessaires pour déplacer les données vers leur destination de stockage finale pour une analyse supplémentaire. À l'aide de CDP Public Cloud, 3 hubs de données ont été mis en place, chacun hébergeant un ensemble de services open source pré-packagés (voir Fig 4) :

  • La première configuration était NiFi, un service conçu pour automatiser et gérer le flux de données. NiFi a été utilisé pour importer, formater et déplacer les données de la Corvette de la source vers son point de stockage final.
  • L'étape suivante consistait à mettre en place Kafka, un service de streaming en temps réel qui permet de disposer de gros volumes de données sous forme de flux. Kafka donne la possibilité de traiter les flux de données, tout en permettant également aux autres utilisateurs de s'abonner aux flux de données. Dans cet exemple, il n'y a aucun abonné; cependant, il s'agit d'un concept important qui mérite une démonstration sur la façon de le mettre en place.
  • La configuration finale était HBase, une base de données opérationnelle orientée colonnes hautement évolutive qui fournit un accès en lecture/écriture en temps réel. Une fois les données importées dans HBase, Phoenix serait utilisé pour interroger et récupérer les données.

Fig 4. Diagramme de flux de données Corvette de la source à la requête.

La construction de la plate-forme de diagnostic à l'aide de CDP pour surveiller la santé et les performances de la Corvette a été un exercice réussi. L'utilisation de NiFi et de Kafka pour formater et diffuser les données des capteurs dans HBase permet désormais d'effectuer une ingénierie et un traitement avancés des données, quelle que soit la taille de l'ensemble de données.

Étapes suivantes

Pour voir tout cela en action, veuillez consulter les liens ci-dessous vers quelques sources différentes présentant le processus qui a été créé.

  • Vidéo - Si vous souhaitez voir et entendre comment cela a été construit, jetez un œil à une vidéo rapide de 5 minutes montrant la navigation en temps réel de CDP exécutant NiFi, Kafka et HBase.
  • Tutoriels :si vous souhaitez le faire à votre propre rythme, consultez une présentation détaillée avec des captures d'écran et des instructions ligne par ligne sur la configuration.
  • MeetUps – Si vous souhaitez parler directement avec des experts de Cloudera et même le propriétaire de cette Corvette, veuillez rejoindre une rencontre virtuelle pour voir sa présentation en direct. Il y aura du temps pour des questions/réponses directes à la fin.
  • Page des utilisateurs CDP :pour en savoir plus sur les autres ressources CDP conçues pour les utilisateurs, y compris des vidéos supplémentaires, des didacticiels, des blogs et des événements, cliquez sur le lien.