Tutorial Hadoop/AULA

Aula 02 - Introdução ao Map-Reduce

Aula Anterior← Aula 01 - Introdução ao Hadoop File System Próxima AulaAula 03 - Configuração da máquina Cloudera →

Introdução ao Map-Reduce

Link da documentação oficial:

http://hadoop.apache.org/

Github:

https://github.com/toticavalcanti

O MAPREDUCE DIVIDE VOLUMES IMENSOS DE DADOS EM PARTES PEQUENAS, QUE SÃO ENTÃO ESPALHADAS POR MUITOS COMPUTADORES
EM VEZ DE MOVER DADOS PARA UM SOFTWARE DE PROCESSAMENTO – O QUE SERIA LENTO COM VOLUMES GRANDES DE DADOS – O PROCESSAMENTO É MOVIDO PARA ONDE ESTÃO OS DADOS, O QUE TRAZ MAIS VELOCIDADE.
É POSSÍVEL RODAR O MAPREDUCE EM MÁQUINAS RELATIVAMENTE MODESTAS QUANDO COMPARADAS COM O EQUIPAMENTO DE PONTA DE UM DATA CENTER TRADICIONAL

VISÃO GERAL DO MAP-REDUCE

Visão geral do map-reduce

Visão geral do map-reduce

Visão geral do map-reduce

Visão geral do map-reduce

Visão geral do map-reduce

Exemplo map-reduce

O INPUT SÃO CARTAS DE BARALHO
O OBJETIVO E SOMAR OS VALORES DAS CARTAS DE CADA NAIPE DISTINTO DO BARALHO
CARTAS NUMÉRICAS SÃO CONSIDERADOS DADOS VÁLIDOS, CARTAS DE FIGURAS COMO VALETES, DAMAS, REIS E CORINGAS SÃO CONSIDERADOS DADOS INVÁLIDOS (BAD DATA)

FASE SPLITTING E MAPPING

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

Fase splitting e maping

FASE SPLITTING (DIVIDINDO OS DADOS)

Fase Splitting

DOIS NÓS DE PROCESSAMENTO TRABALHANDO JUNTOS
CADA QUADRADO BRANCO É UM NÓ (MÁQUINA) DO CLUSTER HADOOP

Fase Splitting

Fase Splitting

Fase reducing

Fase Splitting

Fase Splitting

COMO VIMOS NA AULA ANTERIOR OS ARQUIVOS SÃO DIVIDIDOS EM BLOCOS
QUANDO UM MAPPER ESTÁ OPERANDO EM UM ARQUIVO DE UM TERABYTE, POR EXEMPLO, ELE ESTÁ OPERANDO EM UM BLOCO E NÃO NO ARQUIVO INTEIRO
CADA NÓ DO CLUSTER OPERA EM UM PEDAÇO DO ARQUIVO
VÁRIOS NÓS PODEM OPERAR EM DIFERENTES BLOCOS DO MESMO ARQUIVO AO MESMO TEMPO
QUANDO TERMINA O PROCESSAMENTO, O ARQUIVO É COMBINADO BASEADO NA CHAVE, OS REDUCERS EXECUTAM SOBRE CHAVES DIFERENTES
O BENEFÍCIL É QUE O PROBLEMA É PROCESSADO POR VÁRIOS NÓS AO MESMO TEMPO AO INVÉS DE SER PROCESSADO EM UM ÚNICO NÓ, OU SEJA, EM UMA ÚNICA MÁQUINA

Obrigado

Até a próxima

AnteriorAULA 01

PróximaAULA 03

Aulas Relacionadas

Aula 18 - Hadoop - Instalação do Hadoop 3 no Ubuntu 20.04.1

Big Data - Data Science - Machine Learning

Aula 18 - Hadoop - Instalação do Hadoop 3 no Ubuntu 20.04.1

04.1 [caption id="attachment_1591" align="alignnone" width="1280"] Instalação do Hadoop 3 no Ubuntu 20.04.1[/caption] Aula anterior

Aula 17 - Hadoop - Cloudera Quickstart com docker

Big Data - Data Science - Machine Learning

Aula 17 - Hadoop - Cloudera Quickstart com docker

Aula 17 - Hadoop - Cloudera Quickstart com docker [caption id="attachment_1591" align="alignnone" width="1280"] Cloudera Quickstart em docker[/captio...

Aula 16 - Hadoop - Tutorial Apache Pig

Big Data - Data Science - Machine Learning

Aula 16 - Hadoop - Tutorial Apache Pig

Aula 16 - Hadoop - Tutorial Apache Pig [caption id="attachment_1591" align="alignnone" width="1280"] Apache Pig[/caption] Aula anterior ...

Aula 15 - Apache Sqoop - Continuação 02

Big Data - Data Science - Machine Learning

Aula 15 - Apache Sqoop - Continuação 02

Apache Sqoop - Big Data Analytics Ferramentas de big data analytics do ecossistema hadoop O Apache Sqoop é uma ferramenta que intermedia o Hadoop fi...