Entreposage de données de nouvelle génération chez Santander UK

Les données en temps opportun sont cruciales pour les entreprises à l'ère du Big Data :cet article de blog explique comment Santander UK utilise les dernières technologies Cloudera et une capacité de développement logiciel supérieure pour créer la prochaine génération d'entreposage de données et d'analyse de flux pour prendre en charge l'intelligence qui peut améliorer les relations avec les clients et suivez le mantra de 'nous voulons aider les gens à grandir et à prospérer. ‘

Le parcours Big Data de Santander UK a commencé il y a environ quatre ans. Ils ont été les premiers à adopter de nouvelles technologies de streaming de données telles qu'Apache Kafka et avaient l'ambition de révolutionner l'expérience client grâce à l'utilisation de données en temps réel et d'analyses intégrées aux applications pour les utilisateurs mobiles.

Depuis lors, Santander UK a amélioré à la fois son empreinte et sa capacité à innover avec la technologie du Big Data et a évolué rapidement. Le besoin d'analyse de flux à grande échelle a augmenté et est devenu une réalité. Aujourd'hui, chez Santander UK, la plate-forme Big Data, Machine Learning et Analytics de Cloudera est complétée par la fourniture d'événements Platform-as-a-Service (PaaS) intégrés de haute qualité et évolutifs via Apache Kafka.

Un autre composant technologique qui est au cœur de l'entrepôt de données de nouvelle génération de Santander UK est l'utilisation d'Apache Kudu pour permettre une analyse rapide des données rapides. Lorsqu'il est combiné avec des aspects de la méthodologie de conception Data Vault 2.0, il facilite l'ingestion rapide de centaines de flux de données Apache Kafka ; à la fois en déchargeant la charge de travail des systèmes hérités existants et en offrant la possibilité de poser des questions "ici, maintenant" concernant le comportement des clients et l'état actuel de la Banque.

Vitesse de mise sur le marché

Les flux de données rapides peuvent être déplacés en ligne avec un minimum d'effort grâce à une nouvelle plate-forme innovante de Santander UK, qui intègre les systèmes hérités avec un nouveau Data Vault via Apache Kafka. En raison de la structure propre des données intégrées, un nouveau flux de flux d'événements pour remplir le coffre-fort de données Apache Kudu est en grande partie piloté par la configuration - en conformant les événements de données à la structure Hub, Satellite et Link de la méthodologie Data Vault 2.0. Cela permet au schéma de réagir aux changements dans l'entreprise ou à une nouvelle compréhension de la façon dont les données doivent être conformes.

Santander UK peut affecter les transformations de données en faisant évoluer la plate-forme de diffusion d'événements élastique, basée sur Scala Akka et Apache Kafka, permettant un enrichissement rapide et évolutif des données en temps réel. Cela permet des données plus rapides et plus opportunes, des décisions plus rapides et une mise sur le marché plus rapide pour les cas d'utilisation grâce à la plate-forme et à l'architecture réutilisables.

Science des données et prototypage rapide de produits de données

En fin de compte, il existe de nombreux consommateurs potentiels de cette source de données en continu ; cependant, des informations intéressantes ont déjà été glanées grâce à l'intégration de Cloudera Data Science Workbench au Data Vault. Celles-ci offrent une expérience complète en science des données à l'équipe en pleine croissance de science des données et utilisent également, de manière innovante, typiquement Santander UK, le potentiel de prototyper rapidement des idées et de créer de nouveaux produits de données avant de relever de lourds défis d'ingénierie et d'architecture. Construisez un prototype rapide, puis, s'il génère de la valeur, développez-le en un produit de première classe.

Intégration rapide :le modèle de contribution

Dans la veine de l'innovation et de l'agilité que l'équipe Santander UK Data Innovation a concrétisées, ils ont créé la notion de modèle de contribution. Parce que le cluster est multi-locataire avec différentes unités commerciales qui recherchent, nettoient et conçoivent de nouveaux ensembles de données ; si elles sont jugées utiles pour le reste de l'entreprise, les tables de liens de style Data Vault peuvent être utilisées pour intégrer ces données généralement utiles au cœur du schéma Data Vault. De cette manière, l'équipe peut augmenter la valeur des produits de données grâce à la génération rapide de nouvelles combinaisons d'ensembles de données, avec un lignage traçable en utilisant Cloudera Navigator pour la gouvernance et la sécurité en utilisant Apache Sentry pour le contrôle d'accès. Si les données de l'unité commerciale sont jugées utiles à d'autres, elles sont liées au noyau et partagées selon les principes de gouvernance.

Le modèle de contribution nous permet d'exploiter des ensembles de données purs créés indépendamment par différentes unités commerciales et équipes de produits. Si ces données sont précieuses pour le reste de l'entreprise, nous avons la capacité de les intégrer dans le Data Vault en tant que citoyen de première classe grâce à l'utilisation de tables de liens. Nous voulions reproduire l'approche de la communauté Apache pour les logiciels open source pour les systèmes de données de notre organisation afin d'améliorer l'innovation par la collaboration.

– Nicolette Bullivant – Responsable de l'ingénierie des données, Santander UK

Multi-destination :un flux pour les gouverner tous

Les flux d'événements bruts générés à partir des systèmes hérités sont considérés comme canoniques et sont généralement requis par les autres parties prenantes qui utilisent le cluster. L'équipe d'innovation des données de Santander UK a adopté le principe de garantir que ces flux d'événements sont disponibles pour une utilisation par différents cas d'utilisation et technologies ; ainsi, un flux d'événements canonique peut être redistribué vers différentes destinations ; soit le système de fichiers HDFS, Apache HBase ou Apache Kudu. Cela permet de générer une version unique de la vérité pour toutes les parties prenantes tout en évitant une contre-pression sur les systèmes hérités.

Conclusion

En bref, Santander UK innove directement sur la pile Cloudera, en associant des données en continu, des principes et des cadres d'ingénierie logicielle avancés et des principes de conception d'entrepôt de données modernes pour générer des informations en temps réel afin d'améliorer l'expérience client et le bien-être financier des clients. Cette innovation a récemment été reconnue par un jury indépendant qui a élu Santander finaliste du Data Impact Award.

Nicolette Bullivant est responsable de l'ingénierie des données chez Santander UK.
Rob Siwicki est architecte de solutions senior pour les services professionnels de Cloudera, EMEA.