Como funciona
O que a nuvem de palavras mostra — e o que esconde
Nuvens de palavras são a forma mais rápida de ter uma impressão imediata de um texto. Em um segundo você vê se um artigo realmente fala do que o título promete, se uma reunião girou em torno da pauta ou se a landing page do concorrente está cheia de keyword stuffing. O alerta: o tamanho reflete a contagem, não o sentimento nem a importância. Use como primeira leitura e depois leia as frases por trás.
Como esta calculadora processa o texto
O tokenizador aplica quatro passos determinísticos para a nuvem ser reproduzível e segura de compartilhar:
- Minúsculas + normalização Unicode para *Calculadora*, *calculadora* e *CALCULADORA* contarem como uma só.
- Separação por pontuação e espaços — sobram apenas letras, números, apóstrofos e hífens.
- Remoção de stop-words (lista bilíngue PT + EN) e palavras com menos de 2 caracteres.
- Contagem, ranking e corte em 25 — fonte entre 0,9 rem (menor contagem) e 3 rem (maior).
Entradas que funcionam bem
A técnica brilha com textos longos: post de 1.500 palavras, transcrição de 30 minutos de entrevista, capítulo inteiro, trimestre de tickets de suporte. Entradas curtas (poucos parágrafos) dão nuvens ruidosas — quase toda palavra aparece uma vez só.
- Auditoria de conteúdo: compare a nuvem de uma página top do Google com a sua para achar lacunas de entidade.
- Pesquisa SEO: confirme que um artigo cobre de fato o tema-alvo.
- Pesquisa qualitativa: varra respostas abertas de pesquisa antes de codificar.
- Reuniões de produto: cole um export do Slack para ver o que dominou o trimestre.
Lendo a tabela ranqueada
A nuvem é o elemento visual, mas a tabela abaixo é onde as decisões são tomadas. Ela mostra contagem e participação (em % do total de tokens após a remoção de stop-words). Uma regra prática: se os cinco primeiros termos somam mais de 40% do total, o texto é muito estreito; abaixo de 15%, provavelmente está difuso ou mal tematizado.
Limitações importantes
A calculadora é puramente baseada em frequência. Não faz lematização (*correr*, *correndo* e *corri* contam como três). Não faz bigramas ("São Paulo" vira *são* e *paulo*). E a lista de stop-words nunca é exaustiva — adicione ruído específico do seu domínio manualmente. Para NLP avançado (TF-IDF, reconhecimento de entidades, topic modelling) use uma ferramenta dedicada.
