Montez votre architecture Big Data temps réel
[TUTORIEL 1/4]

  • Le 6 février 2018

Article rédigé par Michel REMISE

Prêt à entrer dans l’ère du Big Data en temps réel ? Dans cette série de tutoriels nous couvrirons la partie stockage et processing en traitant un flux avec deux frameworks adaptés pour faire du streaming : Couchbase pour le stockage et Spark pour le processing.

Ci-dessous une vue d’ensemble de l’architecture que nous allons monter :

COLLECT : on simulera un flux qui sera traité en streaming

STORE : les données seront insérées de manière pérenne dans Couchbase notre base de stockage distribuée

PROCESS : la couche processing Spark détectera les mutations au sein de la base de stockage, traitera les données et puis restituera les résultats à la volée en les injectant dans Couchbase

VISUALIZE : les résultats peuvent être visualisés en pseudo temps réel, cette partie ne rentre pas dans le cadre du tutoriel

Pourquoi Couchbase ?

C’est une base de stockage distribuée qui est axée sur une architecture unique et centrée sur la mémoire, scalable, haut débit au niveau des flux, et surtout basée sur du NoSQL : tous ces critères rassemblés sont idéals pour faire du stockage en temps réel. Comparé à une base de données relationnelle classique, le NoSQL est bien plus scalable et délivre des performances bien supérieures. En plus, si vous voulez analyser un large volume de données dont la structure peut changer, Couchbase est votre allié.

Pourquoi Spark ?

Spark, dont la réputation n’est plus à refaire, permet des vitesses de traitement ultra-rapides (Map-reduce) et combine SQL, Streaming et analyses Machine Learning pour traiter les données. Grâce à sa librairie « ML », il est possible d’entrainer des modèles. La librairie « Spark streaming » combinée avec le connecteur Couchbase – Spark permet de récupérer les nouvelles données provenant de Couchbase en temps réel et de les confronter au modèle Spark. De la même manière que les données peuvent être récupérées, on pourra insérer les résultats dans Couchbase depuis Spark.

Allons-y ! Il est temps de créer notre architecture Big Data Real Time !

Tous les articles de la série « Montez votre architecture Big Data temps réel » ici.

Crédit : Michel REMISE

Les prochaines occasions de se rencontrer

L’expérience de paiement en assurance

Participer