Python é uma linguagem muito utilizada em atividades de análise de dados. Atualmente, vem disputando o posto de “linguagem preferida dos cientistas de dados” com o R.
Ao contrário do R, Python é uma linguagem de programação genérica, ou seja, não é exclusiva para atividades de análise de dados. Esta característica tem contribuído para aumentar o uso da linguagem dentro das empresas, já que muitas vezes as equipes de desenvolvimento de software já trabalham com Python, o que facilita o implantação em produção de um modelo de machine learning desenvolvido na mesma plataforma.
Python possui algumas bibliotecas específicas para se trabalhar com machine learning. Neste post vamos testar algumas delas:
- Numpy: Permite manipulação de matrizes, geração de números aleatórios e possui diversos recursos de álgebra linear.
- Pandas: Fornece suporte para a modelagem por meio de análise exploratória de dados.
- Matplotlib: Permite a visualização de dados por meio de diversos gráficos.
Existem mais alguns pacotes importantes como Scikit-learn e Keras pelos quais podemos utilizar diversos algoritmos para criação de modelos.
Se você quer começar a usar o Python para atividades de machine learning, sugiro instalar a distribuição Anaconda (https://www.continuum.io/downloads). Esta distribuição já possui os principais pacotes de machine learning.
Dentro da distribuição Anaconda você também encontrará o IPython Notebook, uma interface muito interessante para criar seus modelos e compartilhar com quem quiser.
Veja aqui o meu IPython Notebook com a parte prática deste post.
https://anaconda.org/weslleymoura/analise_exploratoria/notebook
Grande abraço.
Weslley Moura