Por Camila Casarotto

Redatora Freelancer da Rock Content

Publicado em 11 de dezembro de 2019. | Atualizado em 16 de dezembro de 2019


TF-IDF é um cálculo usado pelo Google para entender a importância dos termos nas páginas de um site. Conhecer esse modelo ajuda a entender o buscador, mas também a planejar e otimizar seus conteúdos. Entenda agora o que é TF-IDF e como isso pode ajudar no SEO on page.

O mercado de SEO está cada vez mais maduro. Foi-se o tempo em que bastava encher a página de palavras-chave para alcançar os primeiros lugares da busca. O algoritmo do Google já evoluiu para conseguir dar sentido às palavras de um texto e até interpretar as intenções de busca dos usuários.

Você acha que, com toda essa inteligência do buscador, é possível fazer apenas o básico do SEO para ter resultados?

Os profissionais da área devem entender como o algoritmo pensa e adotar abordagens de otimização que atendam às suas expectativas para ter bons resultados no rankeamento. E essas abordagens estão cada vez mais sofisticadas.

É o caso, por exemplo, do que vamos falar neste artigo: TF-IDF, uma abordagem de otimização on page. Essa sigla representa uma forma de o Google determinar estatisticamente a importância de uma palavra-chave ou uma frase analisando centenas ou milhares de documentos.

Ao entender a inteligência por trás dessa ferramenta do buscador, você pode adotar melhores estratégias de SEO on page e largar na frente da concorrência.

Neste texto você aprenderá:

Acompanhe!

 

O que é TF-IDF?

TF-IDF é um cálculo estatístico adotado pelo algoritmo do Google para medir quais termos são mais relevantes para um tópico, analisando a frequência com que aparecem em uma página, em comparação à sua frequência em um conjunto maior de páginas.

TF-IDF não é um conceito exclusivo de SEO. Ele é usado em diferentes sistemas de recuperação de informações. Entre eles, estão os mecanismos de busca da web, mas também sistemas bibliotecários e de mineração de textos, por exemplo.

O cálculo serve como fator de ponderação de termos, ou seja, para entender a importância de um termo ou frase específica para determinado documento.

Mas, desde que leu o título deste artigo, você deve estar se perguntando: “TF-o quê”!? Então, vamos entender o que essa sigla quer dizer.

TF-IDF significa Term Frequency – Inverse Document Frequency. Essa expressão pode ser traduzida para o português como “Frequência do Termo – Frequência Inversa dos Documentos”. Não ficou muito claro ainda, né? Então, vamos por partes.

TF se refere à “frequência do termo”. Essa parte do cálculo responde à pergunta: com que frequência o termo aparece nesse documento? Quanto maior for a frequência no documento, maior será a importância do termo.

Já o IDF significa “frequência inversa dos documentos”. Nessa parte, a ferramenta responde: com que frequência o termo aparece em todos os documentos da coleção? Quanto maior for a frequência nos documentos, menor será a importância do termo.

O cálculo do IDF considera que termos que se repetem frequentemente nos textos — como artigos e conjunções (a, o, e, mas, que etc.) — não têm relevância para os documentos e, no caso do Google, para a indexação e o rankeamento.

Então, quando o fator IDF é incorporado, o cálculo diminui o peso dos termos que ocorrem com muita frequência no conjunto de documentos e aumenta o peso dos termos que ocorrem raramente. Este esquema ajuda a entender melhor:

semrush
Fonte: SEMrush

Não vamos entrar no detalhe dos cálculos estatísticos (aqui você pode entender as fórmulas).

Podemos resumir assim: a importância do termo (valor TF-IDF) aumenta conforme o número de vezes que a palavra aparece no documento (TF), mas é compensada pelo número de repetições na coleção de documentos (IDF), o que serve para ajustar o fato de que algumas palavras aparecem com mais frequência em geral.

 

Como o cálculo TF-IDF é usado pelo Google?

No caso do Google, o cálculo TF-IDF ajuda o buscador a enfatizar os termos e frases do conteúdo de sites e blogs que realmente importam para a sua indexação e classificação no ranking.

Vale lembrar que o Google usa um robô para rastrear os conteúdos da web, certo? Por isso, o buscador não tem a capacidade humana de compreender os sentidos das palavras e o contexto dos conteúdos. Ou melhor: hoje ele já sabe fazer isso, graças à tecnologia, que permite que ele se aproxime da inteligência humana.

O cálculo TF-IDF é um exemplo da tecnologia incorporada ao robô para processamento de linguagem. O Google adota sistemas que fazem esses cálculos automaticamente em milhões de documentos da web para dar sentido ao que eles estão dizendo.

TF-IDF é usado como parte da indexação semântica latente (LSI ou Latent Semantic Indexing). O Google utiliza essa abordagem de indexação para compreender as relações entre palavras, frases e conceitos, ou seja, a semântica dos textos de um site ou blog.

Isso é essencialmente importante quando há palavras com significados semelhantes (sinonímia) ou com mais de um significado (polissemia).

Lembra aquela época em que os sites repetiam milhares de vezes a mesma palavra-chave para a qual eles queriam rankear?

Foi para evitar esse tipo de prática de black hat — chamada de keyword stuffing —, prejudicial à experiência do usuário, que o Google adotou o LSI. Assim, o buscador tem mais inteligência para valorizar os conteúdos de qualidade para o visitante.

Dentro dessa lógica, então, o TF-IDF serve para processar a linguagem utilizada nos conteúdos. Ele não serve para dar sentido aos termos, mas para entender a sua importância ao dar pesos diferentes para eles.

Antes disso, o Google considerava apenas a densidade de palavras-chave, que é um conceito bastante difundido em SEO, mas que analisa apenas a frequência do termo na página, sem avaliar a sua relevância.

Assim, a palavra “que” poderia ser entendida como relevante em um post sobre “marketing de conteúdo”, já que sempre tende a aparecer bastante.

Então, o TF-IDF ajusta esse cálculo para compreender a importância do termo ao comparar a frequência na página com a sua frequência em outros milhares de documentos. Dessa forma, o Google consegue refinar a qualidade da indexação para as palavras-chave corretas.

Assim, quando o usuário fizer uma pesquisa no Google, ele saberá indicar as páginas mais relevantes para a sua consulta, considerando ainda outros fatores de rankeamento, é claro.

 

Como essa abordagem de otimização on page pode ajudar seu blog?

Depois de saber o que é TF-IDF, talvez você se pergunte: ok, mas como isso pode ajudar nas minhas estratégias de SEO?

Primeiramente, conhecer a lógica do TF-IDF é importante para entender como o Google funciona e como ele está evoluindo ao longo dos anos. Esse é o primeiro passo para estabelecer as suas estratégias de SEO conforme as últimas atualizações do algoritmo.

Infelizmente, porém, não temos acesso aos cálculos exatos que o Google faz no seu blog. Isso está guardado a sete-chaves no algoritmo do buscador.

A boa notícia é que existem ferramentas que fazem o cálculo TF-IDF para o termo e a URL que você definir, em comparação com outros sites bem posicionados no ranking.

Assim, a abordagem TF-IDF pode ser usada na prática, nas suas otimizações on page, que agora você pode fazer usando a mesma lógica que o Googe usa. Com essas ferramentas, você pode fazer:

  • pesquisa de palavras-chave (identificar quais termos e assuntos são vitais para um tópico);
  • análise da concorrência (identificar quais termos pesam mais para que o seu concorrente esteja à sua frente no ranking);
  • otimização semântica de conteúdos novos ou publicações antigas (identificar palavras-chave vitais para o tópico e inseri-las naturalmente no conteúdo).

Ryte, Seobility e Link Assistant são algumas ferramentas que trabalham com TF-IDF. Elas costumam funcionar assim: você insere uma URL e as palavras-chave (ou apenas uma) para as quais deseja rankear.

A ferramenta, então, verifica as páginas mais bem classificadas no Google para essas palavras-chave, analisa o conteúdo delas e faz o cálculo TF-IDF em todos os termos para identificar os mais relevantes.

Dessa forma, você obtém uma lista de palavras-chave relacionadas, também chamadas de co-ocorrências. Com essa lista em mãos, você pode planejar seus conteúdos, comparar com os concorrentes e otimizar os seus textos semanticamente.

A seguir, você vai entender como usar essas ferramentas nas suas otimizações.

 

Como fazer uma otimização TF-IDF?

Quer entender melhor como fazer uma otimização TF-IDF? Veja agora um passo a passo para usar uma ferramenta de TF-IDF e fazer as otimizações no seu blog.

Acompanhe!

1. Escreva o seu conteúdo ou escolha uma página para otimizar

Lembre-se de que a escrita natural se comunica melhor com o usuário do que se você escrevesse já pensando no robô. O ideal é começar pela escrita e depois fazer as otimizações com a abordagem TF-IDF.

2. Escolha uma ferramenta de análise TF-IDF

Para exemplificar, escolhemos a Seobility, que oferece três análises gratuitas, sem necessidade de cadastro. Insira a URL que você deseja analisar e a palavra-chave para a qual deseja rankear.

Você também pode definir o país da pesquisa (na versão gratuita) e a quantidade de resultados do Google que a ferramenta vai analisar (apenas na versão paga).

No exemplo, usamos o termo “Marketing de Conteúdo” e a URL “www.rockcontent.com” para uma busca no “Google.com.br”. A ferramenta gera um gráfico assim:

Seobility

O gráfico mostra os termos relacionados a “Marketing de Conteúdo” que têm mais relevância nas páginas mais bem posicionadas para ela.

Em azul, está identificado o valor médio do TF-IDF para os resultados contendo o termo em questão — quanto maior é a barrinha azul, maior é a importância do termo para o tópico.

A linha laranja, por sua vez, mostra o valor TF-IDF da URL que está sendo pesquisada, em relação aos concorrentes.

3. Identifique quais termos e co-ocorrências são mais relevantes

A partir desse gráfico, já é possível tirar algumas conclusões. Você pode ver, por exemplo, que o termo “resultados” está bem otimizado na URL em relação aos concorrentes.

Porém, a URL tem um TF-IDF muito baixo para os termos “redes” e “sociais”, que são co-ocorrências relativamente importantes. Então, a palavra-chave “redes sociais” pode entrar na mira das otimizações on page.

4. Faça as otimizações on page com os termos identificados

Depois de identificar quais termos precisam ser otimizados, é hora de ir para o seu texto. Insira ou substitua palavras do conteúdo para que os termos identificados ganhem mais relevância.

Na otimização on page, é importante considerar não apenas o corpo do texto, mas também os campos da página como o título, as heading tags, a URL e as tags de imagens. Nesses campos, a palavra-chave ganha ainda mais peso.

Lembre-se, também, de que não adianta poluir o texto com palavras-chave. O Google tem inteligência suficiente para identificar e punir keyword stuffing, ok?

ntão, utilize os termos com naturalidade, de maneira que o leitor tenha uma boa experiência, mas que você também consiga conquistar o algoritmo.

No caso do Seobility, a ferramenta oferece ainda o recurso de editar o texto da página ali mesmo, com recomendações sobre quais termos devem ser otimizados.

Veja na imagem abaixo um exemplo:

editor do Seobility
 

Quando usar a otimização TF-IDF?

A otimização TF-IDF pode ser usada para otimizar os conteúdos e orientar a redação de novos textos do blog. Porém, quando você já tem centenas de publicações, como saber por onde começar?

O ideal é trabalhar com as páginas que têm maior potencial, para obter resultados mais rápidos. Então, você pode mirar em:

Conteúdos de alto potencial na segunda página da SERP

Verifique se você tem conteúdos que foram publicados há bastante tempo, mas que não conseguem chegar à primeira página de resultados do Google.

Nesses casos, a otimização do conteúdo via TF-IDF, em conjunto com ajustes técnicos e link building, tende a trazer resultados positivos.

Conteúdos perdendo posições lentamente

Verifique quais páginas estão perdendo posições e tráfego no último ano. Provavelmente, elas estão sofrendo a ação da concorrência ou da mudança de peso que o algoritmo está dando para os termos.

Nesse caso, revisitar o conteúdo para otimizar as palavras, a partir da abordagem TF-IDF, ajuda a recuperar as posições no ranking.

Conteúdos com termos de busca semelhantes em conteúdo

Identifique as páginas que estão otimizadas para termos de busca semelhantes, como “carro” e “comprar carro”.

Nesse caso, você pode pesquisar termos relevantes que podem ser usados nessas páginas para diferenciar o conteúdo e evitar a canibalização de palavras-chave.

Por outro lado, palavras-chave genéricas e com alta concorrência (ex.: “notícias”, “faculdade”, “receitas”) tendem a não ter tanto resultado com a abordagem TF-IDF.

Nesses casos, outros critérios, como os backlinks e a autoridade do site, costumam ter um peso maior no rankeamento, enquanto a otimização do conteúdo provavelmente não será um diferencial.

Enfim, entender o que é TF-IDF é uma forma de entender como o Google pensa e otimizar as suas páginas conforme a lógica do buscador. Porém, nunca se esqueça de que o foco é o usuário. O Google não quer que você agrade apenas o robô — ele quer que os visitantes do seu site tenham uma boa experiência.

A abordagem TF-IDF, portanto, não deve estar acima de experiência do usuário. Ela é apenas uma ferramenta para “ajustar os parafusos” na otimização de conteúdo e SEO on page.

Agora que você já conhece a abordagem TF-IDF, leia também o nosso artigo completo sobre SEO técnico, que é essencial para que o Google consiga chegar até os seus conteúdos.

100.000 pessoas não podem estar enganadas
Deixe seu email e receba conteúdos antes de todo mundo

Posts relacionados

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *