Análise exploratória em Python com Pandas, Matplotlib e Numpy

Python é uma linguagem muito utilizada em atividades de análise de dados. Atualmente, vem disputando o posto de “linguagem preferida dos cientistas de dados” com o R.

Continuar lendo Análise exploratória em Python com Pandas, Matplotlib e Numpy

Aprendendo a aprender Machine Learning: É aqui que a sua ficha cai

Sim, neste post vamos aprender a estudar Machine Learning (ML). Na prática, o que vamos fazer é dar um passo para trás (sem retroceder), sair da confusão, olhar o problema por fora e por um outro ângulo. O nome disso é abstração ou generalização da “coisa” que você quer aprender. Ah sim, você pode seguir esta lógica para aprender qualquer assunto.

Continuar lendo Aprendendo a aprender Machine Learning: É aqui que a sua ficha cai

Modelando casos raros com oversampling, undersampling e synthetic sampling

Muitas vezes precisamos criar um modelo para identificar a ocorrência de um evento raro, por exemplo, classificar transações fraudulentas de cartão de credito ou prever a ocorrência de doenças. Na minha opinião, eventos raros são os tipos de casos mais interessantes para se estudar, pois podemos causar melhorias de grade impacto em processos de negócio ao encontrar o modelo certo.

Continuar lendo Modelando casos raros com oversampling, undersampling e synthetic sampling

Feature selection: escolhendo as variáveis para o modelo

Nas primeiras atividades de um projeto de modelagem é comum que se faça um brainstorming para levantar todas as variáveis que poderiam ajudar a resolver o problema em questão. Na sequência, você precisa escolher apenas aquelas que realmente serão úteis. O nome desta tarefa é feature selection.

Continuar lendo Feature selection: escolhendo as variáveis para o modelo

Resampling: separando os dados entre treino, validação e teste

Quando estamos construindo um modelo estatístico ou de machine learning precisamos estimar quão bom ele é, baseado em alguma métrica. Adicionalmente, este teste de “qualidade” deve ser executado em dados que não foram usados na construção do modelo, assim poderemos inferir o comportamento do modelo em dados novos (que nunca foram vistos).

Continuar lendo Resampling: separando os dados entre treino, validação e teste

Model tuning: Otimizando os hiper parâmetros do modelo

Muitas tarefas devem ser realizadas até chegarmos em um modelo ideal para resolver um determinado problema. No entanto, quando encontramos este modelo ideal ainda podemos tentar refiná-lo, testando diferentes configurações de seus hiper parâmetros. A este processo de refinamento/melhoria damos o nome de model tuning.

Continuar lendo Model tuning: Otimizando os hiper parâmetros do modelo

Ensemble: Combinando modelos para melhorar o resultado

Considero ensemble um tópico avançado em machine learning. Já li muitos depoimentos de pessoas dizendo que ganharam competições do Kaggle usando este tipo de técnica. Então vamos à nossa missão de desmitificar e mostrar a aplicação de ensemble!

Continuar lendo Ensemble: Combinando modelos para melhorar o resultado