Aula 17 - Hadoop - Cloudera Quickstart com docker

Aula anterior                                            Próxima aula

Página principal

Meu github:

https://github.com/toticavalcanti

Meu Canal de Música:

https://www.youtube.com/channel/UCUEtjLuDpcOvR3mIUr-viOA

Meu canal de Backing track / Play-along:

https://www.youtube.com/channel/UCT3TryVMqTqYBjf5g5WAHfA

O canal do código fluente no youtube

https://www.youtube.com/channel/UCgn-O-88XBAwdG9gUWkkb0w

Fiquem a vontade para me adicionar ao linkedin.

Se gostarem do conteúdo dêem um joinha 👍 na página do Código Fluente no Facebook

Esse é o link do código fluente no Pinterest

Meus links de afiliados:

Hostinger

Digital Ocean

One.com

Aula 17 - Hadoop - Cloudera Quickstart com docker

Nessa aula vamos aprender a usar a QuickStart cloudera com docker, ao invés de VM. Recebi algumas mensagens pedindo um link para baixar a VM QuickStart, até passei um link do meu google drive com essa VM para as pessoas poderem baixar. Nas respostas eu aconselho sempre a usar a imagem docker, porque é a que a cloudera dá suporte, e também porque uma imagem docker é muito mais leve do que uma VM. No link https://community.cloudera.com/t5/Support-Questions/Cloudera-QuickStart-VM-Download/td-p/290587 o usuário Saagar pergunta: "preciso do link para baixar a VM QuickStart 5.14 ". E o moderador da comunidade cloudera Ferenc Erdélyi, o Bender, diz em resposta a pergunta do Saagar: "Olá @Saagar, Obrigado por expressar seu interesse em baixar o Quickstart VM para CDH5.14. Infelizmente, a Cloudera Quick start VM foi descontinuada. Você pode tentar a imagem docker da Cloudera disponível publicamente em https://hub.docker.com/r/cloudera/quickstart ou simplesmente executar o comando abaixo para fazer o download no sistema habilitado para docker..."

FLUME

Ao longo do tutorial de Hadoop aqui do código fluente, das aulas 8 até a 12, foram aulas dedicadas ao Flume. Eu repeti a experiência que tive durante minha pós graduação MIT em Big Data que fiz no Instituto InfNet. Nesse trabalho, usei o Apache Flume e um script pyspark, que é o python para trabalhar distribuído no HDFS, para criar um analisador de sentimento baseado em posts do twitter, relacionado as eleições de 2018. Apesar de simples e tosco, funcionou, acertando quem iria vir a ganhar a eleição a presidencial de 2018, contrariando inclusive e infelizmente meu voto, mas enfim, dados são dados.

Mas voltando ao que interessa.

Algumas pessoas e eu inclusive, tentei refazer a experiência em outro contexto, mas, não consegui fazer mais a conexão do Flume com o twitter. Tentei atualizar a VM quickstart, atualizar o Java, atualizar o Flume, enfim... Várias tentativas e nada.

Conclusão que cheguei

Como a VM quickstart da cloudera foi descontinuada, acho que alguma atualização Java ou da API do Twitter entrou em conflito e deixaram de se falar. No futuro, vou tentar repetir usando a imagem docker da quickstart da cloudera, essa que vou ensinar a partir de agora nessa aula.

Chega de blá blá blá

Agora sim, partiu tutorial :)

Requisitos

  • Ter o docker instalado na sua máquina
O link para baixar a imagem docker é esse: https://hub.docker.com/r/cloudera/quickstart/ Você pode baixar automaticamente usando o comando abaixo no shell do linux:

docker pull cloudera/quickstart

Tenha paciência são praticamente 4.5 gigas, então demora um pouquinho para baixar

Quando terminar, você pode executar o contêiner com:

docker run --hostname=quickstart.cloudera --privileged=true -t -i -v \
/Users/sohamadwani/Documents/yourDirectory:/src --publish-all=true -p 8888 \
cloudera/quickstart /usr/bin/docker-quickstart
Depois desse comando tenha paciência novamente, porque demora até o contêiner levantar completamente. Para listar os contêineres em execução use o comando:

docker ps
Você deverá ver algumas informações do contêiner, entre elas o id. Agora dê um docker inspect usando o id do contêiner, ao parecido com: docker inspect 735b78805746 Ele vai retornar um monte de informações, mas, o que precisamos ver é essa parte em NetworkSettings: "Ports": {   "8888/tcp": [     {       "HostIp": "0.0.0.0",       "HostPort": "32768"     }   ] },

Então, para acessar no browser use:

localhost:32768

Você vai cair na página de login, para logar use: username: cloudera password: cloudera Caso o hue não tenha iniciado, use o comando abaixo:

service hue start

É isso pessoal, fico por aqui, até mais :)

Aula anterior                                            Próxima aula

Página principal

Meu github:

https://github.com/toticavalcanti

Meu Canal de Música:

https://www.youtube.com/channel/UCUEtjLuDpcOvR3mIUr-viOA

Meu canal de Backing track / Play-along:

https://www.youtube.com/channel/UCT3TryVMqTqYBjf5g5WAHfA

O canal do código fluente no youtube

https://www.youtube.com/channel/UCgn-O-88XBAwdG9gUWkkb0w

Fiquem a vontade para me adicionar ao linkedin.

Se gostarem do conteúdo dêem um joinha 👍 na página do Código Fluente no Facebook

Esse é o link do código fluente no Pinterest

Meus links de afiliados:

Hostinger

Digital Ocean

One.com