Curso de Data Science

Aula 08 - Data Science - R - Caso do Titanic - Kaggle

Continuando com o problema do Titanic proposto pelo Kaggle. Agora que todos os registros tem a informação de Age, Embarked e Fare, vamos agora transformar algumas variáveis em variáveis categóricas, também conhecidas como qualitativas. Exemplos de variáveis qualitativas (categóricas):
  • escolaridade (1º, 2º, 3º graus)
  • estágio da doença (inicial, intermediário, terminal)
  • mês de observação (janeiro, fevereiro,…, dezembro)
#Tranforma PClass (1º, 2º, 3º classe) em variável qualitativa (ou categórica) #(categorical casting) titanic.full$Pclass <- as.factor(titanic.full$Pclass) #Tranforma Sex (male, female) em variável qualitativa (ou categórica) #(categorical casting) titanic.full$Sex <- as.factor(titanic.full$Sex) #Tranforma Embarked em variável qualitativa (ou categórica) #(categorical casting) titanic.full$Embarked <- as.factor(titanic.full$Embarked) #Repopula a variável titanic.train com todas as correções feitas até agora titanic.train <- titanic.full[titanic.full$IsTrainSet == TRUE,] #Repopula a variável titanic.testcom todas as correções feitas até agora titanic.test <- titanic.full[titanic.full$IsTrainSet == FALSE,] #Tranforma Survived em variável qualitativa (ou categórica) #(categorical casting) do training set titanic.train$Survived <- as.factor(titanic.train$Survived) Já que falamos de variáveis categóricas e usamos o as.factor( ), quero fazer uma observação. As linhas no início do código: #Lê o csv de treinamento titanic.train <- read.csv(file = "train.csv", stringsAsFactors = FALSE, header = TRUE) #Lê o csv de teste titanic.test <- read.csv(file = "test.csv", stringsAsFactors = FALSE, header = TRUE) O parâmetro stringsAsFactors = FALSE é porque o padrão do R é pegar todos os campos que são string e transformar em factor, ou seja,em variável categórica, como não é o que queríamos, usamos o stringsAsFactors = FALSE, para especificar, isto é, dizer ao interpretador R: "não quero nenhum campo lido do CSV como variável categórica.

Valeu, obrigado e até mais.