Apache Hadoop

O Apache Hadoop é uma estrutura de software de código aberto usada para armazenamento distribuído e processamento de conjuntos de dados em grande escala em clusters de servidores de commodities. Ele foi projetado para ser dimensionado de servidores individuais a milhares de máquinas, cada uma oferecendo processamento e armazenamento locais. É uma implementação do modelo de programação MapReduce e o Hadoop armazena dados em armazenamento distribuído e os processa com o modelo computacional MapReduce.

O Hadoop foi criado em 2006 no Yahoo! Research por Doug Cutting e Mike Cafarella, que se inspiraram no trabalho MapReduce do Google. Inicialmente, a Apache Software Foundation assumiu o gerenciamento do projeto em 2007. Desde então, o Hadoop ganhou muita força e agora está sendo amplamente utilizado em muitos campos, incluindo mídia social, finanças, análise de risco, registros médicos e muito mais.

No centro do Hadoop estão dois componentes: um sistema de arquivos distribuídos e o modelo de programação MapReduce. O sistema de arquivos distribuídos do Hadoop, o HDFS, é baseado no sistema de arquivos do Google e permite que os dados sejam armazenados em blocos em várias máquinas, proporcionando um sistema de armazenamento tolerante a falhas. Enquanto isso, o modelo de programação MapReduce divide uma tarefa em subtarefas e as distribui em vários nós. Isso proporciona a paralelização e permite a computação distribuída de alta velocidade.

Além dos componentes principais, o Hadoop vem com uma biblioteca de ferramentas relacionadas. Isso inclui o banco de dados Hive e o mecanismo de análise, a linguagem de script Pig Latin, o YARN para agendamento de trabalhos e o Oozie para gerenciamento de fluxo de trabalho. O Hadoop também oferece suporte a uma ampla gama de linguagens de desenvolvedores, incluindo Java, C++, Python, Ruby e Perl.

Nos últimos anos, o Hadoop se tornou um componente essencial das soluções de Big Data. Ele é a opção ideal para empresas que precisam processar grandes volumes de dados de forma rápida e eficiente. Sua escalabilidade e flexibilidade o tornam uma ótima opção para organizações orientadas por dados.

Em geral, o Apache Hadoop é uma estrutura de código aberto usada para armazenamento distribuído e processamento de conjuntos de dados de grande escala em clusters de servidores de commodities. É fácil de usar e oferece uma maneira eficiente de processar e armazenar dados.

Postagens recentes

Escolha e compre um proxy

Proxies de data center

Proxies rotativos

Proxies UDP

Principais locais de proxy

EUA

Grã-Bretanha

Alemanha

China

Austrália

Canadá

Rússia

Ucrânia

França

Turquia

Índia

Espanha

Aprovado por mais de 10.000 clientes em todo o mundo

Todos os países

Países Mistos