BPN
Big Data Pour les Nuls
Le computing in-memory est une technique permettant de transférer des ensembles de données complets vers la mémoire collective d’un cluster et d’éviter d’écrire des calculs intermédiaires sur le disque. Apache Spark est un système de computing in-memory offrant une vitesse nettement supérieure à Hadoop MapReduce.
Le Framework logiciel open source Hadoop est inextricablement lié au Big Data. Ce framewok repose sur le système de fichiers distribué Hadoop (HDFS) et permet le stockage et l’analyse de larges ensembles de données par le biais de hardware distribué. Apache Foundation, qui a créé Hadoop, est également à l’origine de Pig, Hive et Spark.
Spark est un puissant moteur de traitement de données capable d’effectuer des tâches de streaming, de machine Learning, ou de requêtes SQL nécessitant un accès itératif rapide aux ensembles de données. Spark est généralement beaucoup plus rapide que MapReduce.
SQL (Structured Query Language) est la base des systèmes de gestion de bases de données relationnelles traditionnels (RDBMS). NOSQL est l’acronyme de Not Only SQL. Ce terme désigne les systèmes de gestion de base de données conçus pour prendre en charge de larges volumes de données n’ayant pas de structure ou de schéma, contrairement aux bases de données relationnelles. Les bases de données NoSQL sont généralement bien adaptées aux systèmes Big Data pour leur flexibilité et leur architecture.
Le Stream processing permet d’agir en temps réel sur les données à l’aide de requêtes continues. Combiné avec les streaming analytics, comme les analyses mathématiques ou statistiques au sein du Stream, les solutions de Stream processing sont conçus pour prendre en charge de larges quantités de données en temps réel.
Un algorithme est une formule mathématique ou un traitement statistique utilisé pour effectuer une analyse de données. Les algorithmes sont utilisés dans de nombreux autres domaines, mais ont une importance capitale dans le secteur du Big Data.