Preparando dados para dashboard – Exemplo Google Data Studio

Nem sempre os dados estão no formato correto para criação de relatórios. É muito comum termos que realizar algumas limpezas e transformações para que tenhamos menos trabalho durante a criação daquele dashboard! Neste artigo vou exibir um caso de uso no qual passei por esta situação.

Os dados são muito simples: referem-se aos dados de census de algumas regiões. O relatório final foi publicado neste link https://datastudio.google.com/u/0/reporting/02213feb-63fd-4ef8-8cc7-be17e3c5159b e as instruções de uso do relatório podem ser acessadas no meu repositório https://github.com/weslleymoura/hackinganalytics/tree/master/data_prep_dashboard_google_data_studio

Porém, o que eu realmente quero mostrar neste artigo é o pré-processamento que tive que fazer nos dados para que fosse possível criar o relatório. Por exemplo, transposição de dados, mapeamento, agrupamento e cálculo de métricas do tipo period over period.

Acesse meu notebook aqui https://anaconda.org/weslleymoura/data_preparation_for_dashboarding/notebook. Espero que tenha alguma utilidade para você algum dia!

Abraços!

Um modelo completo de machine learning (de ponta a ponta)

Se você está começando a estudar machine learning, é comum que tenha várias dúvidas sobre como treinar e usar seus modelos. As pessoas falam sobre uma série de termos, como análise exploratória de dados, data transformation, feature selection, model selection, cross-validation…porém, você sabe como e quando deve usar todos estes componentes no seu modelo? E se você precisasse implementar o modelo em um ambiente de produção? Sabe como deveria organizar seu script de treino e inferência? Este artigo foi feito para esclarecer todos estes pontos, com muita prática!

No notebook abaixo, utilizei o desafio do Titanic (https://www.kaggle.com/c/titanic)  para criar um modelo completo de classificação binária. Você vai encontrar as principais etapas necessárias, assim como precauções, para treinar e implementar um modelo deste tipo.

Tentei ser o mais específico possível e também criei uma série de funções que pode te ajudar a automatizar os seus próximos modelos. Portanto, mesmo que já tenha experiência na área, creio que vale a pena guardar este notebook para consulta futura.

Se você realmente quer entrar de cabeça nisso, sugiro também que leia o relatório que também estou compartilhando abaixo. Nele você encontrará um exemplo completo de como reporta/documentar seu projeto de machine learning.

Espero que os materiais sejam úteis, abraços!

Link para o notebook: https://anaconda.org/weslleymoura/titanic_final/notebook

Link para o relatório: relatório completo

Análise exploratória de dados com R

Antes de começar a usar algoritmos de machine learning é importante entender a estrutura dos dados que temos em mãos. Por exemplo, presença de missing values, distribuição de variáveis, correlação, desvio padrão, etc. Chamamos esta atividade de análise exploratória de dados.

Continuar lendo Análise exploratória de dados com R