Aula 08 – Data Science – R – Caso do Titanic – Kaggle

Curso de Data Science

Aula 08 – Data Science – R – Caso do Titanic – Kaggle

kaggle - Caso do Titanic - Data Science

Caso do Titanic – Kaggle

Continuando com o problema do Titanic proposto pelo Kaggle.

Agora que todos os registros tem a informação de Age, Embarked e Fare, vamos agora transformar algumas variáveis em variáveis categóricas, também conhecidas como qualitativas.

Exemplos de variáveis qualitativas (categóricas):

  • escolaridade (1º, 2º, 3º graus)
  • estágio da doença (inicial, intermediário, terminal)
  • mês de observação (janeiro, fevereiro,…, dezembro)

#Tranforma PClass (1º, 2º, 3º classe) em variável qualitativa (ou categórica)

#(categorical casting)

titanic.full$Pclass <- as.factor(titanic.full$Pclass)

#Tranforma Sex (male, female) em variável qualitativa (ou categórica)

#(categorical casting)

titanic.full$Sex <- as.factor(titanic.full$Sex)

#Tranforma Embarked em variável qualitativa (ou categórica)

#(categorical casting)

titanic.full$Embarked <- as.factor(titanic.full$Embarked)

#Repopula a variável titanic.train com todas as correções feitas até agora

titanic.train <- titanic.full[titanic.full$IsTrainSet == TRUE,]

#Repopula a variável titanic.testcom todas as correções feitas até agora

titanic.test <- titanic.full[titanic.full$IsTrainSet == FALSE,]

#Tranforma Survived em variável qualitativa (ou categórica)

#(categorical casting) do training set

titanic.train$Survived <- as.factor(titanic.train$Survived)

Já que falamos de variáveis categóricas e usamos o as.factor( ), quero fazer uma observação.

As linhas no início do código:

#Lê o csv de treinamento
titanic.train <- read.csv(file = "train.csv", stringsAsFactors = FALSE, header = TRUE)
#Lê o csv de teste
titanic.test <- read.csv(file = "test.csv", stringsAsFactors = FALSE, header = TRUE)

O parâmetro stringsAsFactors = FALSE é porque o padrão do R é pegar todos os campos que são string e transformar em factor, ou seja,em variável categórica, como não é o que queríamos, usamos o stringsAsFactors = FALSE, para especificar, isto é, dizer ao interpretador R: “não quero nenhum campo lido do CSV como variável categórica.

Valeu, obrigado e até mais.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *