Análise de sentimento com Flume e Twitter
SEGUNDA PARTE
Link da documentação oficial do Hadoop:
Link do meu Github:
VAMOS TENTAR USAR O TIPO DE SOURCE
com.cloudera.flume.source.TwitterSource AO INVÉS DO
org.apache.flume.source.twitter.TwitterSource SEM FAZER NENHUMA MODIFICAÇÃO NA MÁQUINA CLOUDERA .
NO ARQUIVO
flume_twitter.conf VAMOS DESCOMENTAR A LINHA ABAIXO, RETIRANDO A TRALHA (#) DO INÍCIO:
TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource
E COMENTAR COLOCANDO TRALHA (#) NO INÍCIO DA LINHA ABAIXO:
#TwitterAgent.sources.Twitter.type=org.apache.flume.source.twitter.TwitterSource
COMO MOSTRADO NO VÍDEO.
AGORA VAMOS ATUALIZAR O DATETIME:
sudo ntpdate ntp.ubuntu.com
ENTRE NA PASTA
/etc/flume-ng/conf COM O COMANDO:
cd /etc/flume-ng/conf
E VAMOS RODAR O AGENTE COM O COMANDO:
flume-ng agent -f /etc/flume-ng/conf/flume_twitter.conf Dflume.root.logger=DEBUG,console -n TwitterAgent
O SEGUINTE ERRO OCORRERÁ:
ERROR node.PollingPropertiesFileConfigurationProvider: Failed to load configuration data. Exception follows.
org.apache.flume.FlumeException: Unable to load source type: com.cloudera.flume. source.TwitterSource, class: com.cloudera.flume.source.TwitterSource
O FLUME NÃO CONSEGUE CARREGAR O
source type: com.cloudera.flume. source.TwitterSource, class: com.cloudera.flume.source.TwitterSource
ENTÃO VAMOS AOS AJUSTES PARA FUNCIONAR.
FAÇA O DOWNLOAD DOS ARQUIVOS JÁ CONSTRUÍDOS:
flume-sources-1.0-SNAPSHOT.jar
hive-serdes-1.0-SNAPSHOT.jar
NOS LINKS ABAIXO:
https://github.com/toticavalcanti/Curso_Hadoop/tree/master/Flume/Flume_Twitter/Arquivos_extras/flume-sources-1.0-SNAPSHOT.jar
https://github.com/toticavalcanti/Curso_Hadoop/tree/master/Flume/Flume_Twitter/Arquivos_extras/hive-serdes-1.0-SNAPSHOT.jar
AGORA COPIE O
flume-sources-1.0-SNAPSHOT.jar E O
hive-serdes-1.0-SNAPSHOT.jar PARA A PASTA
/Toti/, UTILIZE NOVAMENTE O
WINSCP.
CRIE A PASTA
/usr/lib/flume-ng/plugins.d/twitter-streaming/lib/ PARA ISSO USE:
mkdir -p /usr/lib/flume-ng/plugins.d/twitter-streaming/lib/
CRIE A PASTA
/var/lib/flume-ng/plugins.d/twitter-streaming/lib/ PARA ISSO USE:
mkdir -p /var/lib/flume-ng/plugins.d/twitter-streaming/lib/
ENTRE NA PASTA
/Toti/:
cd /Toti/
COPIE O ARQUIVO
flume-sources-1.0-SNAPSHOT.jar PARA DENTRO DAS DUAS PASTAS CRIADAS:
/usr/lib/flume-ng/plugins.d/twitter-streaming/lib/ E
/var/lib/flume-ng/plugins.d/twitter-streaming/lib/COM OS COMANDOS:
cp flume-sources-1.0-SNAPSHOT.jar /usr/lib/flume-ng/plugins.d/twitter-streaming/lib/
cp flume-sources-1.0-SNAPSHOT.jar /var/lib/flume-ng/plugins.d/twitter-streaming/lib/
AGORA PODEMOS RODAR NOVAMENTE O AGENTE SEM ERRO NENHUM.
flume-ng agent -f /etc/flume-ng/conf/flume_twitter.conf Dflume.root.logger=DEBUG,console -n TwitterAgent
PARA VISUALIZAR OS ARQUIVOS GERADOS COLETADOS PELO FLUME DO TWITTER UTILIZE A INTERFACE WEB OU UTILIZE O COMANDO:
hadoop fs -cat /twitteranalytics/incremental/nome_do_arquivo_gerado
NA PRÓXIMA AULA, SEGUIMOS NA CONSTRUÇÃO DAS TABELAS E DO SCRIPT PYSPARK.
Obrigado
Até a próxima