Word embedding é uma forma muito interessante para criar uma representação numérica para um texto. Ao contrário de abordagens clássicas como one hot encoding ou TD-IDF, word embedding consegue representar as palavras e seu contexto com meio de um embedding space. Existem várias formas para se criar um embedding space e eu já escrevi sobreContinuar lendo “Sentiment analysis com tensorflow 2.0 e word embedding layer”
Arquivos da categoria: NLP
Comparando textos com TF-IDF e Cosine Similarity no Gensim
Neste artigo vou utilizar gensim para criar uma modelo capaz de identificar a similaridade entre textos. A ideia é que você consiga identificar o(s) texto(s) mais similares(s) a um determinado texto de entrada.
Word Embedding
Word Embedding é uma abordagem de mineração de textos em que as palavras são representadas de forma matemática em um vetor. Diferentemente da abordagem mais simples utilizada no modelo conhecido como bag of words, na qual as palavras costumam ser representadas em vetores muito grandes e esparsos, word embeddings utilizam vetores densos de tamanho fixo queContinuar lendo “Word Embedding”