Se você entregasse a alguém uma folha de papel em branco e a única coisa escrita nela fosse o título da página, eles entenderiam o que o título significava? Eles teriam uma ideia clara do que o documento real seria? Se sim, então parabéns! Você acabou de passar no Teste de Folha de Papel em Branco para títulos de página porque seu título era descritivo.

Teste de Folha de Papel em Branco (BSoPT) é uma ideia sobre a qual Ian Lurie falou muito ao longo dos anos, e recentemente em seu novo site . É um teste para ver se o que você escreveu tem significado para alguém que nunca encontrou sua marca ou conteúdo antes. Nas palavras de Ian: “Será que este texto, escrito em uma folha de papel em branco, fará sentido para um estranho?” O Teste da Folha de Papel em Branco trata de clareza sem contexto.

Mas e se estivermos realizando o BSoPT em uma máquina em vez de uma pessoa? Nosso experimento mental ainda se aplica? Eu penso que sim. As máquinas não podem ler – mesmo as sofisticadas como Google e Bing. Eles podem apenas adivinhar o significado do nosso conteúdo, o que torna o teste especialmente relevante.

Eu tenho uma versão alternativa do BSoPT, mas para máquinas: se tudo o que uma máquina pudesse ver fosse uma lista de palavras que aparecem em um documento e com que freqüência, ela poderia adivinhar do que se trata o documento?

O Teste de Folha de Papel em Branco para frequência de palavras

Se você entregasse a alguém uma folha de papel em branco e a única coisa escrita nela fosse esta tabela de palavras e frequências, ela poderia adivinhar do que se trata o artigo?

papel em branco

Um artigo sobre como afiar uma faca é um bom palpite. O artigo de onde tirei essa tabela de frequência de palavras era um guia prático para afiar uma faca de cozinha.

E se as palavras “etapa” e “como” aparecessem na tabela? A pessoa que está lendo ficaria mais confiante neste artigo sobre como afiar facas, ou menos? Eles poderiam dizer se este artigo é sobre como afiar facas de cozinha ou canivetes?

Se não conseguirmos ter uma boa ideia do que o artigo trata com base nas palavras que ele usa, ele falha no BSoPT para frequência de palavras.

Ainda podemos usar a frequência de palavras para o BERT?

Abordagens anteriores de processamento de linguagem natural (PNL) empregadas por mecanismos de busca usavam análise estatística de frequência e coocorrência de palavras para determinar do que se tratava uma página. Eles ignoraram a ordem e a classe gramatical das palavras em nosso conteúdo, basicamente tratando nossas páginas como pacotes de palavras.

As ferramentas que usamos para otimizar esse tipo de PNL compararam a frequência de palavras de nosso conteúdo com a de nossos concorrentes e nos disseram onde estavam as lacunas no uso das palavras. Hipoteticamente, se adicionarmos essas palavras ao nosso conteúdo, teremos uma classificação mais elevada ou, pelo menos, ajudaremos os mecanismos de pesquisa a entender melhor nosso conteúdo.

Essas ferramentas ainda existem: MarketMuse, SEMRush, seobility, Ryte e outros têm algum tipo de frequência de palavra ou capacidade de análise de lacunas TD-IDF. Tenho usado uma ferramenta gratuita de frequência de palavras chamada Online Text Comparator e funciona muito bem. Eles ainda são úteis agora que os mecanismos de pesquisa avançaram com abordagens de PNL como o BERT? Acho que sim, mas não é tão simples quanto mais palavras = melhores classificações.

O BERT é muito mais sofisticado do que uma abordagem de saco de palavras. BERT analisa a ordem das palavras, classe gramatical e quaisquer entidades presentes em nosso conteúdo. É robusto e pode ser treinado para fazer muitas coisas, incluindo respostas a perguntas e reconhecimento de entidades nomeadas – definitivamente mais avançado do que a frequência básica de palavras.

No entanto, o BERT ainda precisa examinar as palavras presentes na página para funcionar, e a frequência das palavras é um resumo básico disso. Agora, a localização da palavra e a classe gramatical são mais importantes. Não podemos simplesmente espalhar as palavras que encontramos em nossa análise de lacunas pela página.

Aprimorando o conteúdo com ferramentas de frequência de palavras

Para ajudar a tornar nosso conteúdo inequívoco para as máquinas, precisamos torná-lo inequívoco para os usuários. Reduzir a ambigüidade em nossa redação é escolher palavras que são específicas ao tópico sobre o qual estamos escrevendo. Se nossa escrita usa muitos verbos genéricos, pronomes e adjetivos não temáticos, então não apenas nosso conteúdo é brando, mas é difícil de entender.

Considere este exemplo extremo de linguagem não específica:

“O truque para encontrar a faca de chef certa é encontrar um bom equilíbrio entre características, qualidades e preço. Deve ser feito de metal forte o suficiente para manter sua borda por um período decente de tempo. Você deve ter uma alça confortável que não o deixará cansado. Você também não precisa gastar muito. O cozinheiro doméstico não precisa de uma faca japonesa sofisticada de $ 350. ”

Esta cópia não é boa. Parece quase gerado por máquina. Não consigo imaginar que um artigo completo escrito assim passaria no BSoPT para frequência de palavras.

Esta é a aparência da tabela de frequência de palavras com algumas palavras de parada removidas:

Agora, suponha que usamos uma ferramenta de frequência de palavras em algumas páginas que estão bem classificadas em “como escolher uma faca de chef” e descobrimos que essas classes gramaticais estavam sendo usadas com bastante frequência:

Entidades : lâmina, aço, fadiga, aço damasco, santoku, Shun (marca)
Verbos
 : agarrar, cortar
Adjetivos
 : perfeito, duro, alto teor de carbono

Incorporar essas palavras em nossa cópia resultaria em um texto significativamente melhor:

“O truque para encontrar a faca de chef perfeita é encontrar o equilíbrio certo de recursos, qualidades e preço. A lâmina deve ser feita de aço duro o suficiente para manter uma lâmina afiada após o uso repetido. Você deve ter uma alça ergonômica que possa segurar confortavelmente para evitar que o cansaço estenda o corte. Você também não precisa gastar muito. O cozinheiro caseiro não precisa de um santoku de aço damasco de alto carbono de US $ 350 da Shun. ”

Este texto atualizado será mais fácil para as máquinas classificarem e melhor para os usuários lerem. Também é bom escrever usar palavras relevantes para o seu tópico.

Olhando para o futuro da PNL

Melhorar nosso conteúdo com o Teste de Folha de Papel em Branco está otimizando para BERT ou outros algoritmos de PNL? Não, eu não penso assim. Não creio que haja um conjunto especial de palavras que possamos adicionar ao nosso conteúdo para obter uma classificação magicamente mais elevada por meio da exploração do BERT. Vejo isso como uma forma de garantir que nosso conteúdo seja entendido claramente por usuários e máquinas.

Prevejo que estamos chegando bem perto do ponto em que a ideia de otimizar para a PNL será considerada absurda. Talvez em 10 anos, escrever para usuários e escrever para máquinas seja a mesma coisa por causa do quão longe a tecnologia avançou. Mesmo assim, ainda teremos que garantir que nosso conteúdo faça sentido. E o Teste da Folha de Papel em Branco ainda será um ótimo lugar para começar.