Apache Hadoop est un logiciel libre utilisé pour le stockage et le traitement distribués d'ensembles de données à grande échelle sur des grappes de serveurs de base. Il est conçu pour évoluer d'un simple serveur à des milliers de machines, chacune offrant un traitement et un stockage locaux. Il s'agit d'une implémentation du modèle de programmation MapReduce. Hadoop stocke les données dans un espace de stockage distribué et les traite à l'aide du modèle de calcul MapReduce.

Hadoop a été créé en 2006 chez Yahoo ! Research par Doug Cutting et Mike Cafarella, qui se sont inspirés du document MapReduce de Google. Dans un premier temps, l'Apache Software Foundation a pris en charge la gestion du projet en 2007. Depuis lors, Hadoop a gagné beaucoup de terrain et est aujourd'hui largement utilisé dans de nombreux domaines, notamment les médias sociaux, la finance, l'analyse des risques, les dossiers médicaux et bien d'autres encore.

Hadoop repose sur deux éléments : un système de fichiers distribués et le modèle de programmation MapReduce. Le système de fichiers distribués de Hadoop, HDFS, est basé sur le système de fichiers de Google et permet de stocker les données en blocs sur plusieurs machines, fournissant ainsi un système de stockage tolérant aux pannes. Parallèlement, le modèle de programmation MapReduce divise une tâche en sous-tâches et les répartit sur plusieurs nœuds. Cela permet une parallélisation et un calcul distribué à grande vitesse.

Outre les composants de base, Hadoop s'accompagne d'une bibliothèque d'outils connexes. Il s'agit notamment de la base de données et du moteur d'analyse Hive, du langage de script Pig Latin, de YARN pour la planification des tâches et d'Oozie pour la gestion des flux de travail. Hadoop prend également en charge un large éventail de langages de développement, notamment Java, C++, Python, Ruby et Perl.

Ces dernières années, Hadoop est devenu un élément clé des solutions Big Data. C'est un choix idéal pour les entreprises qui ont besoin de traiter rapidement et efficacement d'importants volumes de données. Son évolutivité et sa flexibilité en font une excellente option pour les organisations axées sur les données.

Globalement, Apache Hadoop est un cadre open-source utilisé pour le stockage et le traitement distribués d'ensembles de données à grande échelle sur des grappes de serveurs de base. Il est facile à utiliser et offre un moyen efficace de traiter et de stocker des données.

Choisir et acheter une procuration

Proxies pour centres de données

Procurations tournantes

Proxies UDP

Approuvé par plus de 10 000 clients dans le monde

Client mandataire
Client mandataire
Client proxy flowch.ai
Client mandataire
Client mandataire
Client mandataire