Aula 05 – Data Science – R – Caso do Titanic – Kaggle

Curso de Data Science

Aula 05 – Data Science – R – Caso do Titanic – Kaggle

kaggle - Caso do Titanic - lendo arquivos csv em R

Caso do Titanic – Kaggle

Continuando com o problema do Titanic proposto pelo Kaggle.

Na última aula foi criado o campo Survived no titanic.test e atribuído valor NA ao campo, em todos os registros do titanic.test, agora vamos juntar o titanic.train e o titanic.test e atribuir a variável titanic.full.

#Junta as bases de teste e treinamento
titanic.full <- rbind(titanic.train, titanic.test)

Vamos olhar para o campo Embarked no conjunto titanic.full

table(titanic.full$Embarked)

Saída:

C       Q        S

2     270    123    914

Dois registros não tem informação sobre o campo Embarked, vamos pegar esses dois registros e dizer que essas pessoas embarcaram em S (Southampton), já que a maioria das pessoas embarcaram nessa cidade.

#Filtra a base pelo campo Embarked, pegando só os que estão em branco e
#faz um replace com 'S'
titanic.full[titanic.full$Embarked == '', "Embarked"] <- 'S'

Agora vamos verificar o campo Age, mas vamos fazer isso na próxima aula.

Obrigado.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *