Aula 07 – Tarefa 05 do simulado da prova de certificação HDP Hortonworks

Certificação Hortonworks Hadoop FS – Certificação HDP hortonworks

Simulado da prova de certificação HDP Hortonworks

TAREFA 05

Use HCatalog com Pig

Escreva um script Pig e salve na máquina local em /home/horton/solutions/flightdelays_nonzero.pig que satisfaça todos os seguintes critérios:

  1. Execute uma consulta Pig usando o Tez como o mecanismo(engine) de execução
  2. Carregue os dados da tabela flightdelays criada no Hive usando HCatalog
  3. Remova todas as linhas onde o arrdelay é menor ou igual a Zero.
  4. Ordene a saída de forma descendente pelo valor do campo arrdelay
  5. Armazene a saída em três arquivos separados por vírgula em um novo diretório no HDFS  chamado /user/horton/flightdelays_nonzero

Script

-- Carrega o arquivo flightdelays na relação a
a = load 'flightdelays' using org.apache.hive.hcatalog.pig.HCatLoader();

--Filtra a pelo campo arrdelay maior que 0 (Zero)
b = filter a by arrdelay > 0;
--Use a cláusula PARALLEL para aumentar o paralelismo de um job
c = order b by arrdelay desc parallel 3;

--Armazena a relação c em '/user/horton/flightdelays_nonzero' separado por vírgula
store c into '/user/horton/flightdelays_nonzero' using PigStorage(',');

No shell linux execute o script com o seguinte comando,
verifique se está na mesma pasta do script:
pig -x tez -useHCatalog flightdelays_nonzero.pig

Obrigado

Até a próxima

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *