HDFS,YARN e os tipos de nós

Link da documentação oficial do Hadoop:

http://hadoop.apache.org/

Link para o download do putty:

https://www.putty.org/

Link para o download do WINSCP:

https://winscp.net/eng/download.php

Link do meu Github:

https://github.com/toticavalcanti

COMPONENTES PRINCIPAIS DO HADOOP

O HADOOP POSSUI DOIS COMPONENTES PRINCIPAIS QUE IMPLEMENTAM O ARMAZENAMENTO E O PROCESSAMENTO DISTRIBUÍDO:

O HDFS QUE GERENCIA OS DADOS ARMAZENADOS EM DISCOS NO CLUSTER
E O YARN QUE GERENCIA OS RECURSOS DO CLUSTER, ALOCANDO RECURSOS COMPUTACIONAIS PARA APLICAÇÕES QUE QUEIRAM FAZER UM PROCESSAMENTO DISTRIBUÍDO
TODO O MAPREDUCE ORIGINAL ESTÁ IMPLEMENTADO AGORA NO YARN, ASSIM COMO O APACHE GIRAPH (PROCESSAMENTO EM GRAFOS)E O APACHE SPARK (PROCESSAMENTO EM MEMÓRIA).

O HDFS E O YARN TRABALHAM EM CONJUNTO PARA MINIMIZAR O VOLUME DE TRÁFEGO DE REDE NO CLUSTER.

A PRINCIPAL PREOCUPAÇÃO É GARANTIR QUE OS DADOS SEJAM LOCAIS AO PROCESSAMENTO SOLICIDADO.

O HDFS E O YARN FORMAM UMA PLATAFORMA SOBRE A QUAL APLICAÇÕES BIG DATA SÃO CONSTRUÍDAS.

FORMAM UM SISTEMA OPERACIONAL PARA BIG DATA.

CONSISTE EM VÁRIOS PROCESSOS DAEMON, RODANDO EM SEGUNDO PLANO.

DOIS TIPOS DE NÓS BÁSICOS

NÓS MESTRES (MASTERS) – COORDENA OS NÓS TRABALHADORES, GERALMENTE SÃO OS PONTOS DE ENTRADA PARA O ACESSO DO USUÁRIO AO CLUSTER.

NÓS TRABALHADORES – ACEITAM AS TAREFAS DESIGNADAS PELOS NÓS MESTRES, PARA ARMAZENAR OU LER DADOS OU EXECUTAR UMA APLICAÇÃO EM PARTICULAR.

TANTO O HDFS COMO O YARN TÊM VÁRIOS SERVIÇOS MESTRES RESPONSÁVEIS PELA COORDENAÇÃO DOS SERVIÇOS TRABALHADORES QUE EXECUTAM EM CADA NÓ.

SERVIÇOS DO HDFS

NameNode (MESTRE) – ARMAZENA A ÁRVORE DE DIRETÓRIOS DO SISTEMA DE ARQUIVOS, METADADOS DE ARQUIVOS E AS LOCALIZAÇÕES DE CADA ARQUIVO NO CLUSTER.

ELE NÃO ARMAZENA DADOS E NEM PASSA DO DATANODE AO CLIENTE, O QUE ELE FAZ É APONTAR OS DATANODES CORRETOS AOS CLIENTES.

NameNode SECUNDÁRIO (MESTRE) – EXECUTAM TAREFAS DE MANUTENÇÃO (HOUSEKEEPING) E DE PONTOS DE VERIFICAÇÃO (CHECKPOINTING) EM NOME DO NAMENODE (ELE NÃO É UM NAMENODE DE BACKUP!)

DataNode (TRABALHADOR) – ARMAZENA E ADMINISTRA BLOCOS HDFS NO DISCO LOCAL E INFORMA A SAÚDE E O STATUS DE REPOSITÓRIOS INDIVIDUAIS DE DADOS AO NameNode.

SERVIÇOS DO YARN

ResourceManager (MESTRE) – ALOCA E MONITORA RECURSOS DISPONÍVEIS NO CLUSTER (MEMÓRIA E PROCESSADORES) PARA AS APLICAÇÕES E TRATA DO ESCALONAMENTO DOS JOBS NO CLUSTER.

ApplicationMaster (MESTRE) – COORDENA UMA APLICAÇÃO EM PARTICULAR EXECUTADA NO CLUSTER DE ACORDO COM O ESCALONAMENTO FEITO PELO ResourceManager.

NodeManager (TRABALHADOR) – EXECUTA E ADMINISTRA TAREFAS DE PROCESSAMENTO EM UM NÓ INDIVIDUAL E INFORMA SOBRE A SAÚDE E O STATUS DAS TAREFAS À MEDIDA QUE ELAS EXECUTAM.

HADOOP NA PRÁTICA

LINK PARA BAIXAR shakespeare.txt https://github.com/toticavalcanti/Curso_Hadoop/raw/master/shakespeare.txt

PRÉ-REQUISITO:

TER O VIRTUAL BOX, TER A MÁQUINA CLOUDERA JÁ IMPORTADA E CONFIGURADA COMO MOSTRADO NA AULA PASSADA.
TER O PUTTY E O WINSCP JÁ INSTALADOS NA SUA MÁQUINA FÍSICA, NO MEU CASO WINDOWS 10. SÃO SOFTWARES GRATUÍTOS.

CUMPRIDO OS REQUISITOS, VAMOS INICIAR A MÁQUINA CLOUDERA.

DEPOIS DE INICIADA, VAMOS USAR O WINSCP PARA TRANFERIR O ARQUIVO shakespeare.txt PARA O SISTEMA DE ARQUIVOS LOCAL DA MÁQUINA CLOUDERA.

Obrigado

Até a próxima

toticavalcanti | Tutorial Hadoop | 0 Comments

Aula 04 – HDFS – YARN e os tipos de nós

HDFS,YARN e os tipos de nós

Link da documentação oficial do Hadoop:

http://hadoop.apache.org/

Link para o download do putty:

https://www.putty.org/

Link para o download do WINSCP:

https://winscp.net/eng/download.php

Link do meu Github:

https://github.com/toticavalcanti

COMPONENTES PRINCIPAIS DO HADOOP

O HADOOP POSSUI DOIS COMPONENTES PRINCIPAIS QUE IMPLEMENTAM O ARMAZENAMENTO E O PROCESSAMENTO DISTRIBUÍDO:

DOIS TIPOS DE NÓS BÁSICOS

SERVIÇOS DO HDFS

SERVIÇOS DO YARN

HADOOP NA PRÁTICA

LINK PARA BAIXAR shakespeare.txt https://github.com/toticavalcanti/Curso_Hadoop/raw/master/shakespeare.txt

Obrigado

Até a próxima

Aula 04 – HDFS – YARN e os tipos de nós

About The Author

Aula 03 – Configuração da máquina Cloudera

Aula 05 – Configuração e comandos básicos Hadoop

Aula 14 – Apache Sqoop – Continuação 01

Aula 13 – Apache Sqoop – Hadoop e SGBDR

Aula 16 – Hadoop – Tutorial Apache Pig

Aula 18 – Hadoop – Instalação do Hadoop 3 no Ubuntu 20.04.1

Aula 17 – Hadoop – Cloudera Quickstart com docker

Aula 15 – Apache Sqoop – Continuação 02

Cancel reply

HDFS,YARN e os tipos de nós

Link da documentação oficial do Hadoop:

Link para o download do putty:

Link para o download do WINSCP:

Link do meu Github:

COMPONENTES PRINCIPAIS DO HADOOP

O HADOOP POSSUI DOIS COMPONENTES PRINCIPAIS QUE IMPLEMENTAM O ARMAZENAMENTO E O PROCESSAMENTO DISTRIBUÍDO:

DOIS TIPOS DE NÓS BÁSICOS

SERVIÇOS DO HDFS

SERVIÇOS DO YARN

HADOOP NA PRÁTICA

LINK PARA BAIXAR shakespeare.txt https://github.com/toticavalcanti/Curso_Hadoop/raw/master/shakespeare.txt

Obrigado

Até a próxima

Aula 04 – HDFS – YARN e os tipos de nós

About The Author

Aula 03 – Configuração da máquina Cloudera

Aula 05 – Configuração e comandos básicos Hadoop

Related Videos