Curso de Data Science

Aula 05 - Data Science - R - Caso do Titanic - Kaggle

Continuando com o problema do Titanic proposto pelo Kaggle. Na última aula foi criado o campo Survived no titanic.test e atribuído valor NA ao campo, em todos os registros do titanic.test, agora vamos juntar o titanic.train e o titanic.test e atribuir a variável titanic.full. #Junta as bases de teste e treinamento titanic.full <- rbind(titanic.train, titanic.test) Vamos olhar para o campo Embarked no conjunto titanic.full table(titanic.full$Embarked) Saída: C       Q        S 2     270    123    914 Dois registros não tem informação sobre o campo Embarked, vamos pegar esses dois registros e dizer que essas pessoas embarcaram em S (Southampton), já que a maioria das pessoas embarcaram nessa cidade. #Filtra a base pelo campo Embarked, pegando só os que estão em branco e #faz um replace com 'S' titanic.full[titanic.full$Embarked == '', "Embarked"] <- 'S' Agora vamos verificar o campo Age, mas vamos fazer isso na próxima aula.

Obrigado.