Curso de Data Science
Aula 01 – Data Science – R – Conhecendo a plataforma Kaggle.

Data Science – R – Conhecendo a plataforma Kaggle.
O que é o Kaggle?
É uma plataforma fundada em 2010 para competições de modelagem preditiva e analítica.
Empresas e pesquisadores postam seus dados e estatísticas para que mineradores, analistas e cientistas de dados de todo o mundo possam competir para produzir os melhores modelos.
A Kaggle também organiza competições de recrutamento em que os cientistas de dados competem por uma chance de entrevistar empresas líderes em ciência de dados como Facebook, Winton Capital e Walmart.
Foi comprada em 8 de março de 2017 pelo google.
COMPETIÇAO DO CASO TITANIC
- O naufrágio do Titanic é um dos naufrágios mais trágicos da história.
- O navio afundou após colidir com um iceberg, em 15 de abril de 1912,na sua viagem inaugural, matando 1502 de 2224 passageiros e tripulação.
- Essa tragédia chocou a comunidade internacional e levou a melhores regulamentações de segurança para os navios.
- Razões que levaram a tantas perdas de vidas:
- Não havia bastantes barcos salva-vidas para todos;
- Embora houvesse algum elemento de sorte envolvido, alguns grupos de pessoas eram mais propensos a sobreviver (mulheres, crianças e a classe alta) do que outros;
Neste desafio, a proposta é analisar quais tipos de pessoas poderiam sobreviver, aplicando as ferramentas de aprendizado de máquina para prever quais passageiros sobreviveram à tragédia.
Pré-requisitos para começar:
- Baixe e instale o Rstudio versão FREE;
- Agora baixe os arquivos necessários nesse link:
https://www.kaggle.com/c/titanic/data
Os arquivos são:
- gender_submission.csv
- test.csv
- train.csv
TREINAMENTO E TESTE
-
- O treinamento tem como objetivo apresentar ao classificador exemplos que o farão conhecer e aprender sobre a base de dados.
- A aplicação de testes possibilita a avaliação da performance.
- Existem várias formas de dividir os dados em um conjunto de treinamento e outro de teste (holdout, testeK-Fold, Cross Validation, etc).
- O training set é usado para treinar o modelo.
- O test set para validar.
training set
test set
Obrigado e até a próxima.