Curso de Data Science

Aula 06 - Data Science - R - Caso do Titanic - Kaggle

Continuando com o problema do Titanic proposto pelo Kaggle. Agora que o campo Embarked está devidamente limpo, vamos olhar agora para o campo Age. Rodando: table(is.na(titanic.full$Age)) Saída: FALSE  TRUE 1046   263 Existem 263 registros sem a informação age Como contornar esse problema? #Pega a mediana do conjunto total (titanic.full) desconsiderando #os registros sem essa informação e atribuindo a variável age.median age.median <- median(titanic.full$Age, na.rm = TRUE) Saída: [1] 28 Agora é só preencher os registros que não tem essa informação com a mediana das idades. #preenche os registros sem a informação de Age com a mediana titanic.full[is.na(titanic.full$Age), "Age"] <- age.median Rodando novamente: table(is.na(titanic.full$Age)) Saída: FALSE 1309 Agora todos os registros tem a informação Age. Na próxima aula vamos olhar o campo Fare e ver o que podemos fazer pra limpá-lo.

Obrigado, até mais.