Aula 01 – Aprendizado de Máquina com Python e scikit-learn

Aprendizado de Máquina com Python e scikit-learn

Voltar para página principal do blog

Iniciando mais um tutorial.

Esse é sobre aprendizado de máquina, em inglês, Machine Learning, utilizando python e scikit-learn.

O scikit-learn é uma biblioteca de aprendizado de máquina de código aberto para a linguagem de programação Python.

As aulas são resenhas baseadas na documentação oficial do scikit-learn, disponível no endereço:

https://scikit-learn.org/stable/

Aprendizado de máquina com Scikit Learn

Antes de começar, quero deixar meu link de afiliados na Hostinger, tá valendo a pena, dêem uma olhada: Hostinger

Dêem um joinha 👍 na página do Código Fluente no Facebook
Facebook

Meu link de referidos na digitalocean pra vocês.

Quem se cadastrar por esse link, ganha $100.00 dólares de crédito na digitalocean:

Esse outro é da one.com:

Então vamos lá!

scikit-learn

Tem ferramentas simples e eficientes para mineração de dados e análise de dados;
Acessível a todos e reutilizável em vários contextos;
Construído em NumPy, SciPy e matplotlib;
Código aberto, comercialmente utilizável sob licença BSD.

O NumPy é o pacote fundamental para computação científica em Python.

O SciPy é um conjunto de ferramentas científicas, numéricas de código aberto (licença BSD) para Python.

O Matplotlib é uma biblioteca de plotagem para a linguagem de programação Python e sua extensão de matemática numérica NumPy.

A licença BSD é uma licença de código aberto inicialmente utilizada nos sistemas operacionais do tipo Berkeley Software Distribution (um sistema derivado do Unix).

Aprendizado de Máquina – Machine Learning

Antes começar a explorar o scikit-learn, precisamos conhecer um pouco sobre Machine learning, seus tipos, como funciona, isto é, entender alguns conceitos introdutórios.

Em geral, um problema de aprendizagem de máquina considera um conjunto de n amostras de dados e em seguida, tenta prever as propriedades de dados desconhecidos.

Se cada amostra(samples) tem mais do que um único número, por exemplo, uma entrada multidimensional (também conhecida como dados multivalorados), diz-se que a amostra possui vários atributos ou características.

Os problemas de Machine Learning se enquadram em algumas categorias:

Aprendizado supervisionado, em que os dados vêm com atributos adicionais que queremos prever.

O aprendizado supervisionado pode ser uma:
- classificação: as amostras pertencem a duas ou mais classes e queremos aprender com os dados já rotulados como prever a classe de dados não rotulada. Um exemplo de um problema de classificação seria o reconhecimento de dígitos manuscritos, em que o objetivo é descobrir qual o dígito foi escrito de forma manuscrita, outro exemplo é o reconhecimento de imagem, através de uma imagem de entrada, o modelo descobrir se a imagem é de um cachorro, um gato, etc.
- regressão: se a saída desejada consiste em uma ou mais variáveis contínuas, a tarefa é chamada de regressão. Um exemplo de um problema de regressão seria a previsão do comprimento de um salmão em função de sua idade e peso. Você pode usar regressão para, por exemplo, responder às perguntas: “Quanto custa …?” ou “Quantos existem …?”, “Qual a probabilidade de …?” etc.

Aprendizado não supervisionado é aquele:

Em que os dados de treinamento consistem em um conjunto de vetores de entrada x sem nenhum valor alvo correspondente. O objetivo em tais problemas pode ser descobrir grupos de exemplos semelhantes dentro dos dados. Isso é chamado de clustering, ou determinar a distribuição de dados dentro do espaço de entrada, conhecido como estimativa de densidade, ou projetar os dados de uma alta dimensionalidade. Espaço para duas ou três dimensões para fins de visualização.

Conjunto de treinamento e conjunto de testes

Aprendizado de máquina diz respeito a sobre aprender algumas propriedades de um conjunto de dados e, em seguida, testar essas propriedades em relação a outro conjunto de dados.

Uma prática comum no aprendizado de máquina é avaliar um algoritmo dividindo um conjunto de dados em dois.

Chamamos um desses conjuntos de treinamento, no qual aprendemos algumas propriedades e chamamos o outro conjunto de testes, no qual testamos as propriedades aprendidas.