Aula 01 – Data Science – R – Conhecendo a plataforma Kaggle.

More videos
Views
   

Curso de Data Science

Aula 01 – Data Science – R – Conhecendo a plataforma Kaggle.

Data Science - R - Conhecendo a plataforma Kaggle.

Data Science – R – Conhecendo a plataforma Kaggle.

O que é o Kaggle?

É uma plataforma fundada em 2010 para competições de modelagem preditiva e analítica.
Empresas e pesquisadores postam seus dados e estatísticas para que mineradores, analistas e cientistas de dados de todo o mundo possam competir para produzir os melhores modelos.
A Kaggle também organiza competições de recrutamento em que os cientistas de dados competem por uma chance de entrevistar empresas líderes em ciência de dados como Facebook, Winton Capital e Walmart.
Foi comprada em 8 de março de 2017  pelo google.

COMPETIÇAO DO CASO TITANIC

  • O naufrágio do Titanic é um dos naufrágios mais trágicos da história.
  • O navio afundou após colidir com um iceberg, em 15 de abril de 1912,na sua viagem inaugural, matando 1502 de 2224 passageiros e tripulação.
  • Essa tragédia chocou a comunidade internacional e levou a melhores regulamentações de segurança para os navios.
  • Razões que levaram a tantas perdas de vidas:
    • Não havia bastantes barcos salva-vidas para todos;
    • Embora houvesse algum elemento de sorte envolvido, alguns grupos de pessoas eram mais propensos a sobreviver (mulheres, crianças e a classe alta) do que outros;

Neste desafio, a proposta é analisar quais tipos de pessoas poderiam sobreviver, aplicando as ferramentas de aprendizado de máquina para prever quais passageiros sobreviveram à tragédia.

Pré-requisitos para começar:

  • Baixe e instale o Rstudio versão FREE;
  • Agora baixe os arquivos necessários nesse link:

https://www.kaggle.com/c/titanic/data

Os arquivos são:

  • gender_submission.csv
  • test.csv
  • train.csv

TREINAMENTO E TESTE

    • O treinamento tem como objetivo apresentar ao classificador exemplos que o farão conhecer e aprender sobre a base de dados.
    • A aplicação de testes possibilita a avaliação da performance.
    • Existem várias formas de dividir os dados em um conjunto de treinamento e outro de teste (holdout, testeK-Fold, Cross Validation, etc).
    • O training set é usado para treinar o modelo.
    • O test set para validar.

    training set

    test set

    test set

    Obrigado e até a próxima.

     

     

Increva-se

Inscreva-se agora e receba um e-mail assim que eu publicar novo conteúdo.

Concordo em me inscrever no blog Código Fluente

Você poderá cancelar sua inscrição a qualquer momento.

(Visited 15 times, 1 visits today)
About The Author
-

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>