Introdução ao Hadoop File System

Links da documentação oficial:

http://hadoop.apache.org/

Github:

https://github.com/toticavalcanti

HADOOP – INTRODUÇÃO

  • É UMA PLATAFORMA DE COMPUTAÇÃO DISTRIBUÍDA VOLTADA PARA CLUSTERS E PROCESSAMENTO DE GRANDES VOLUMES DE DADOS
  • É UM SISTEMA OPERACIONAL PARA BIG DATA
  • CÓDIGO ABERTO
  • CRIADO POR DOUG CUTTING DO GOOGLE LABS EM 2005
  • CRIAÇÃO MOTIVADA PELO DESAFIO DA ESCALABILIDADE PARA CONSEGUIR INDEXAR BILHÕES DE PÁGINAS NA WEB
  • O HADOOP FOI PROJETADO PARA PARALELIZAR O PROCESSAMENTO DE DADOS ATRAVÉS DE NÓS DE COMPUTAÇÃO, ACELERAR PROCESSAMENTOS E ESCONDER A LATÊNCIA.

HADOOP – MÓDULOS

  • HADOOP COMMON - CONTÉM AS BIBLIOTECAS E ARQUIVOS COMUNS E NECESSÁRIOS PARA TODOS OS MÓDULOS HADOOP.
  • HADOOP DISTRIBUTED FILE SYSTEM (HDFS) - SISTEMA DE ARQUIVOS DISTRIBUÍDO QUE ARMAZENA DADOS EM MÁQUINAS DENTRO DO CLUSTER, SOB DEMANDA, PERMITINDO UMA LARGURA DE BANDA MUITO GRANDE EM TODO O CLUSTER.
  • HADOOP YARN - TRATA-SE DE UMA PLATAFORMA DE GERENCIAMENTO DE RECURSOS RESPONSÁVEL PELO GERENCIAMENTO DOS RECURSOS COMPUTACIONAIS EM CLUSTER, ASSIM COMO PELO AGENDAMENTO DOS RECURSOS.
  • HADOOP MAPREDUCE - MODELO DE PROGRAMAÇÃO PARALELA E DISTRIBUÍDA PARA PROCESSAMENTO EM LARGA ESCALA.

HADOOP – FUNCIONAMENTO

                               

HADOOP – LENDO ARQUIVO

 
  • QUANDO SE QUER DESCOBRIR O QUE TÁ ACONTECENDO COM CLUSTER, É PRECISO SE COMUNICAR COM O NAMENODE
  • POR EXEMPLO: ONDE POSSO LER O ARQUIVO AZUL?
  • COM A RESPOSTA DO NAMENODE, A COMUNICAÇÃO PASSA A SER DIRETAMENTE COM O(S) DATANODE(S) QUE TEM O ARQUIVO AZUL

HADOOP – RESPONSABILIDADES

Funcionamento Hadoop 21     Funcionamento Hadoop 23            

HADOOP – RÉPLICAS

  • AS RÉPLICAS SÃO NÃO SÓ PARA A SEGURANÇA DA INTEGRIDADE DOS DADOS, MAS TAMBÉM PELA LOCALIZAÇÃO DOS DADOS
  • IMAGINEMOS QUE SE QUEIRA FAZER UM MAP-REDUCE NO ARQUIVO AZUL, COMO ELE TÁ NOS NÓS 1, 2 E 4, O TRABALHO DE MAP-REDUCE DEVERÁ OCORRER PREFERENCIALMENTE NESSES NÓS
  • NO MAP-REDUCE, O PROCESSAMENTO É LEVADO AOS DADOS E NÃO OS DADOS AO PROCESSAMENTO

Obrigado

Até a próxima