Aula 15 – Apache Sqoop – Continuação 02

toticavalcanti

Apache Sqoop – Big Data Analytics

Ferramentas de big data analytics do ecossistema hadoop

O Apache Sqoop é uma ferramenta que intermedia o Hadoop file system e bancos relacionais (SGBDR)

Antes de começar, quero deixar meu link de afiliados na Hostinger, tá valendo a pena, dêem uma olhada: Hostinger

Dêem um joinha ? na página do Código Fluente no Facebook
Facebook

Meu link de referidos na digitalocean pra vocês.

Quem se cadastrar por esse link, ganha $100.00 dólares de crédito na digitalocean:

Esse outro é da one.com:

Agora sim, vamos lá! 🙂

Os comandos a seguir anexam ( append ) informações em uma tabela ou diretório existente, senão existir ele cria.

Customiza o número de threads (Num-Mappers) para duas thread e define o delimitador de campo como pipe ( | ) e o de linha como \n.

O out-dir é usado para armazenar alguns arquivos java internos do sqoop.

Ao usar o split-by, usar coluna indexada é altamente recomendado, se a coluna não estiver indexada, o desempenho será ruim por causa da varredura completa da tabela feita por cada uma das threads.

Por isso a escolha do split ser pelo ID.

sqoop import \ --connect "jdbc:mysql://localhost:3306/retail_db" \ --username=root \ --password=cloudera \ --table departments \ --target-dir /apps/hive/warehouse/retail_ods.db/departments \ --append \ --fields-terminated-by '|' \ --lines-terminated-by '\n' \ --num-mappers 2 \ --split-by department_id \ --outdir java_files

O fields-terminated-by define como será o delimitador dos campos, no caso um pipe ( | ) e o lines-terminated-by define que as linhas terminam com \n.

Ao importar para arquivos delimitados, a escolha do delimitador é importante.

Delimitadores que aparecem dentro de campos baseados em string podem causar uma análise ambígua dos dados importados pelas etapas subsequentes de análise.

Por exemplo, a string "Olá, é um prazer te conhecer" não deve ser importada com o delimitador de campo definido como uma vírgula.

Delimitadores podem ser um caracter de escape também.

Por exemplo:--fields-terminated-by \t. Nesse caso o delimitador é a tabulação.

Os caracteres de escape suportados são:

\b (backspace)
\n (newline)
\r (carriage return)
\t (tab)
\" (double-quote)
\\' (single-quote)
\\ (backslash)
\0 (NUL) – Insere caracteres NUL entre campos ou linhas, ou desabilita o enclosing/escaping se usado por um dos argumentos --enclosed-by, --optionally-enclosed-by, ou --escaped-by .
Pode ser usado representação octal de um caracter UTF-8.
- Por exemplo, --fields-terminated-by \001 que produz o caracter ^A.
Pode ser usado a representação hexadecimal de um caracter UTF-8.
- Por exemplo, --fields-terminated-by \0x10 produz o caracter carriage return.

Agora vamos usar o where:

sqoop import \ --connect "jdbc:mysql://localhost:3306/retail_db" \ --username=root \ --password=cloudera \ --table departments \ --target-dir /apps/hive/warehouse/retail_ods.db/departments \ --append \ --fields-terminated-by '|' \ --lines-terminated-by '\n' \ --split-by department_id \ --where "department_id > 5" \ --outdir java_files

O where tá restringindo os registros aos que tem ID maior que 5.

Você pode usar o argumento incremental para especificar o tipo de importação incremental a ser executada.

sqoop import \ --connect "jdbc:mysql://localhost:3306/retail_db" \ --username=root \ --password=cloudera \ --table departments \ --target-dir /apps/hive/warehouse/retail_ods.db/departments \ --append \ --fields-terminated-by '|' \ --lines-terminated-by '\n' \ --check-column "department_id" \ --incremental append \ --last-value 7 \ --outdir java_files

Você deve especificar o modo do append ao importar uma tabela em que novas linhas são adicionadas continuamente com valores de id de linha crescentes.

Você deve especificar a coluna que contém o ID da linha com check-column.

O Sqoop importa as linhas nas quais a coluna de verificação possui um valor maior que o especificado com last-value, no caso 7.

Sqoop Job

sqoop job --create sqoop_job \ -- import \ --connect "jdbc:mysql://localhost:3306/retail_db" \ --username=root \ --password=cloudera \ --table departments \ --target-dir /toti/departments \ --append \ --fields-terminated-by '|' \ --lines-terminated-by '\n' \ --split-by department_id \ --outdir java_files

A Sqoop Job nos permite criar e trabalhar com Jobs salvos.

Os Jobs salvos guardam os parâmetros que foram usados, por isso, podemos reexecutá-los chamando o Job pelo identificador.

Então é isso, o Sqoop job cria e salva os comandos de importação e exportação.

Nos comandos Sqoop Job anterior mostrado um pouco acima, foi criado um job com o nome sqoop_job , que importa os dados da tabela do RDBMS para o HDFS.

Agora temos o Job (sqoop_job ) disponível na lista de Jobs salvos, vamos listar:
sqoop job --list

Podemos verificar a configuração de um Job:
sqoop job --show sqoop_job

Podemos executar o Job usando o exec:
sqoop job --exec sqoop_job

Se ele pedir a senha é só digitar cloudera.

Para deletar esse job que criamos, o sqoop_job é só dá um:

sqoop job --delete sqoop_job

Criando uma tabela Hive com Sqoop

Com os comandos abaixo, é criada a tabela departments_test no Hive, serão gerados quatro arquivos já que não especificamos o número de threads, e eles vão ficar na pasta padrão do hive na máquina cloudera: /user/hive/warehouse.

Vamos usar o fields-terminated-by para definir o separador dos campos como pipe ( | ) e lines-terminated-by para definir o final de linha como \n.

sqoop import \ --connect "jdbc:mysql://localhost:3306/retail_db" \ --username=root \ --password=cloudera \ --table departments \ --fields-terminated-by '|' \ --lines-terminated-by '\n' \ --hive-import \ --hive-table departments_test \ --create-hive-table \ --outdir java_files

Os comandos a seguir sobrescrevem ( –hive-overwrite ) os dados existentes associados à tabela hive departments_test na pasta do HDFS /user/hive/warehouse/
sqoop import \ --connect "jdbc:mysql://localhost:3306/retail_db" \ --username=root \ --password=cloudera \ --table departments \ --fields-terminated-by '|' \ --lines-terminated-by '\n' \ --hive-import \ --hive-overwrite \ --hive-table departments_test \ --outdir java_files

Exports

Como exportar dados do HDFS para o banco de dados RDBMS?

Usando o export do sqoop!

No export do sqoop, a tabela de destino deve existir no banco de dados de destino.

Os arquivos que são fornecidos como entrada para o Sqoop contêm registros, que são chamados de linhas na tabela.

Esses arquivos são lidos e analisados em um conjunto de registros e delimitados por um delimitador especificado pelo usuário.

A operação padrão é inserir todo o registro dos arquivos de entrada na tabela do banco de dados usando a instrução INSERT.

No modo de atualização, o Sqoop gera a instrução UPDATE, que substitui o registro existente no banco de dados.

Exemplo usando a tabela departments

É obrigatório que a tabela a ser exportada seja criada manualmente e esteja presente no banco de dados para onde ela vai ser exportada.

A consulta a seguir é usada para criar o banco de dados retail_sqoop_db e nele a tabela departments.

Primeiro entre no mysql:

$ mysql -u root -p

Digite seu password.

mysql> CREATE DATABASE retail_sqoop_db; mysql> USE retail_sqoop_db; mysql> CREATE TABLE departments ( department_id int(11) NOT NULL AUTO_INCREMENT, department_name varchar(45) NOT NULL, PRIMARY KEY (department_id) );

Agora já podemos exportar do HDFS nossa tabela departments da pasta /user/root/departments no HDFS para o banco retail_sqoop_db na tabela departments.

sqoop export --connect "jdbc:mysql://localhost:3306/retail_sqoop_db" \ --username=root \ --password=cloudera \ --table departments \ --export-dir /user/root/departments \ --batch \ --outdir java_files \ --num-mappers 1 \ --update-key department_id \ --update-mode allowinsert

Entre no mysql novamente para vê se o export funcionou:

$ mysql -u root -p

Digite seu password.

mysql> USE retail_sqoop_db; mysql> select * from departments;

Especifique como as atualizações são executadas quando novas linhas são encontradas com chaves não correspondentes no banco de dados.

O update-key só pode atualizar as colunas já presentes na tabela, não pode inseri-las, a menos que você também configure o update-Mode para allowinsert (que não é suportado por todos os bancos de dados).

Se você tentar atualizar usando a chave de atualização (update-key), ele atualizará as linhas da chave mencionada no update-key.

Os valores legais para o mode incluem: updateonly (padrão) e allowinsert.

Ative o batch JDBC usando o parâmetro –batch com o comando de exportação.

Usando esse modo para a execução básica da instrução, ativa o modo em lote(batch) no driver JDBC, as consultas são enfileiradas, entregando os resultados em lote.

O –batch especifica que podemos agrupar as instruções SQL relacionadas em um lote quando exportamos os dados.

A interface JDBC expõe uma API para fazer batches em uma instrução preparada com vários conjuntos de valores.

Essa API está presente em todos os drivers JDBC porque é requerida pela interface JDBC.

Eval

O eval permite que os usuários executem consultas no banco de dados e visualizem o resultado no console.

sqoop eval --connect "jdbc:mysql://localhost:3306/retail_db" \ --username root \ --password cloudera \ --query "select * from departments"

Aula 15 – Apache Sqoop – Continuação 02

Apache Sqoop – Big Data Analytics

Ferramentas de big data analytics do ecossistema hadoop

O Apache Sqoop é uma ferramenta que intermedia o Hadoop file system e bancos relacionais (SGBDR)

Antes de começar, quero deixar meu link de afiliados na Hostinger, tá valendo a pena, dêem uma olhada: Hostinger

Dêem um joinha ? na página do Código Fluente no Facebook Facebook

Meu link de referidos na digitalocean pra vocês.

Quem se cadastrar por esse link, ganha $100.00 dólares de crédito na digitalocean:

Esse outro é da one.com:

Agora sim, vamos lá! 🙂

O out-dir é usado para armazenar alguns arquivos java internos do sqoop.

Agora vamos usar o where:

Você pode usar o argumento incremental para especificar o tipo de importação incremental a ser executada.

Sqoop Job

Criando uma tabela Hive com Sqoop

Exports

Como exportar dados do HDFS para o banco de dados RDBMS?

Usando o export do sqoop!

Exemplo usando a tabela departments

Eval

Com isso encerramos as aulas sobre o sqoop.

Para mais informações sobre o sqoop acesse:

Esse são meus link de afiliados na Hostinger: Hostinger

Curta a página do Código Fluente no Facebook https://www.facebook.com/Codigofluente-338485370069035/

Meu link de referidos na digitalocean .

Quem se cadastrar por esse link, ganha $100.00 dólares de crédito na digitalocean:

E o da one.com:

Obrigado, até a próxima e bons estudos. 😉

About The Author

Aula 14 – Apache Sqoop – Continuação 01

Aula 01 – Aprendizado de Máquina com Python e scikit-learn

Related Videos

Dêem um joinha ? na página do Código Fluente no Facebook
Facebook

Curta a página do Código Fluente no Facebook
https://www.facebook.com/Codigofluente-338485370069035/