HBase
 sql >> Base de données >  >> NoSQL >> HBase

Utilisation de Cloudera Data Engineering pour analyser les données du programme de protection des chèques de paie

Le programme de protection des chèques de paie (PPP) est mis en œuvre par le gouvernement fédéral américain pour inciter directement les entreprises à maintenir leurs employés sur la liste de paie, en particulier pendant la pandémie de Covid-19. Le PPP aide les entreprises qualifiées à conserver leur main-d'œuvre et à payer les dépenses professionnelles connexes. Les données du site Web du Trésor américain montrent quelles entreprises ont reçu des prêts PPP et combien d'emplois ont été conservés. Le Trésor américain a approuvé environ un million de prêts PPP à travers les États-Unis.

L'analyse de ces données présente trois défis. Premièrement, la taille des données est importante. Le temps nécessaire pour extraire, conserver, transformer, récupérer et rapporter ces données prend beaucoup de temps. Deuxièmement, l'ensemble de données est susceptible d'évoluer, ce qui consommera du temps et des ressources de développement supplémentaires. Enfin, dans un processus en plusieurs étapes comme celui-ci, il y a une chance que les choses se cassent. Avoir la capacité de déterminer rapidement les erreurs ou les goulots d'étranglement aidera à respecter systématiquement les SLA.

Ce blog illustre comment Cloudera Data Engineering (CDE), à l'aide d'Apache Spark, peut être utilisé pour produire des rapports basés sur les données PPP tout en relevant chacun des défis décrits ci-dessus.

Objectif

Un scénario fictif pour le Texas Legislative Budget Board (LBB) est mis en place ci-dessous pour aider un ingénieur de données à gérer et analyser les données PPP. L'objectif principal de cet ingénieur de données est de fournir au LBB deux rapports finaux :

  • Rapport 1 :Répartition de toutes les villes du Texas qui ont conservé des emplois
  • Rapport 2 :Répartition par type d'entreprise ayant conservé des emplois

Ingénierie des données Cloudera (CDE)

C'est là que Cloudera Data Engineering (CDE) exécutant Apache Spark peut vous aider. CDE est l'un des services de Cloudera Data Platform (CDP) qui permet aux ingénieurs de données de créer, gérer et planifier des tâches Apache Spark, tout en fournissant des outils utiles pour surveiller les performances des tâches, accéder aux fichiers journaux et orchestrer les workflows via Apache Airflow. Apache Spark est une infrastructure de traitement de données capable d'exécuter rapidement un traitement de données à grande échelle.

Le Trésor américain fournit deux ensembles de données différents, un pour les prêts approuvés supérieurs à 150 000 $ et un pour les prêts approuvés inférieurs à 150 000 $. Pour produire les deux rapports finaux pour le LBB, ces étapes ont été suivies (voir Fig. 1).

  • La première étape consistait à charger les deux ensembles de données distincts dans un compartiment S3.
  • Une tâche Spark a été créée pour chaque ensemble de données afin d'extraire et de filtrer les données du compartiment S3.
  • Ces deux tâches Spark ont ​​transformé et chargé les données propres dans un entrepôt de données Hive pour les récupérer.
  • Une troisième tâche Spark a été créée pour traiter les données de l'entrepôt de données Hive afin de créer les deux rapports.

Une fois les exécutions de tâches terminées, CDE a fourni une représentation graphique des différentes étapes de chaque tâche Spark (voir Fig. 2). Cela a permis à l'ingénieur de données de voir facilement quelles parties du travail prenaient potentiellement le plus de temps, ce qui lui a permis d'affiner et d'améliorer facilement son code pour mieux respecter les SLA des clients.

Fig. 1 :Parcours des données pour produire les deux rapports finaux.

Fig. 2 :Représentation graphique CDE des différentes étapes Spark.

Résultats

L'objectif principal de produire les deux rapports finaux à partir du dossier d'un million de candidats approuvés a été atteint. Le résumé graphique du premier rapport (voir Fig. 3) montre un échantillon du top 10 du nombre d'emplois conservés par ville au Texas, et le deuxième rapport (voir Fig. 4) montre un échantillon du top 5 du nombre d'emplois conservés. par type d'entreprise. Avec ces rapports, le Texas Legislative Budget Board, par exemple, peut en déduire que les villes avec le moins de maintien de l'emploi par habitant peuvent avoir besoin de ressources pour atténuer tout impact économique.

Fig. 3 :Top 10 des villes qui ont conservé le plus d'emplois, État du Texas, 2020

Fig. 4 : 5 principaux types d'entreprises qui ont conservé le plus d'emplois, État du Texas, 2020

Étapes suivantes

Pour voir tout cela en action, veuillez cliquer sur les liens ci-dessous vers quelques sources différentes présentant le processus qui a été créé.

  • Vidéo :si vous souhaitez voir et entendre comment cela a été construit, regardez la vidéo sur le lien.
  • Tutoriels :si vous souhaitez le faire à votre propre rythme, consultez une procédure pas à pas détaillée avec des captures d'écran et des instructions ligne par ligne sur la configuration et l'exécution.
  • Meetup :si vous souhaitez parler directement avec des experts de Cloudera, veuillez participer à une réunion virtuelle pour voir une présentation en direct. Il y aura du temps pour des questions/réponses directes à la fin.
  • Page des utilisateurs CDP :pour en savoir plus sur les autres ressources CDP conçues pour les utilisateurs, y compris des vidéos supplémentaires, des didacticiels, des blogs et des événements, cliquez sur le lien.