Curso de Data Science

Aula 06 – Data Science – R – Caso do Titanic – Kaggle

kaggle - Caso do Titanic - Data Science

Caso do Titanic – Kaggle

Continuando com o problema do Titanic proposto pelo Kaggle.

Agora que o campo Embarked está devidamente limpo, vamos olhar agora para o campo Age.

Rodando:

table(is.na(titanic.full$Age))

Saída:

FALSE  TRUE

1046   263

Existem 263 registros sem a informação age

Como contornar esse problema?

#Pega a mediana do conjunto total (titanic.full) desconsiderando
#os registros sem essa informação e atribuindo a variável age.median
age.median <- median(titanic.full$Age, na.rm = TRUE)

Saída:

[1] 28

Agora é só preencher os registros que não tem essa informação com a mediana das idades.

#preenche os registros sem a informação de Age com a mediana

titanic.full[is.na(titanic.full$Age), "Age"] <- age.median

Rodando novamente:

table(is.na(titanic.full$Age))

Saída:

FALSE

1309

Agora todos os registros tem a informação Age.

Na próxima aula vamos olhar o campo Fare e ver o que podemos fazer pra limpá-lo.

Obrigado, até mais.

Aula 06 – Data Science – R – Caso do Titanic – Kaggle

About The Author
-

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>