Como controlo a variabilidade entre runs?

Médias de 3 a 5 runs por prompt, temperatura constante (idealmente 0 nos modelos que o permitem), sessões limpas (sem histórico anterior). A variabilidade reduz-se mas não desaparece — é uma propriedade dos modelos.

Como medir GEO: citation rate, share of voice e taxa de menção

Q: Posso medir GEO só com o ChatGPT?

Podes, mas não chega. Cada motor tem dataset e comportamento próprio. Medir apenas no ChatGPT dá uma fotografia parcial; idealmente cobrir ChatGPT, Claude, Gemini e Perplexity em paralelo para o mesmo prompt set.

Q: Com que frequência devo medir?

Mensal para baseline. Semanal se estiver a correr uma iniciativa de optimização activa (queres ver a curva). Diário só faz sentido em fases de roll-out de algum motor (ex.: lançamento de funcionalidade nova) — caso contrário é ruído.

Q: Quantos prompts no set?

Entre 30 e 100. Menos do que 30 dá amostra fraca; mais do que 100 sem haver volume real de mercado por trás é overengineering. Para SaaS B2B portuguesa, 50 prompts cobrem bem o terreno.

Resumo

Há três métricas que importam em GEO: citation rate (com que frequência és mencionado), share of voice (a tua quota face aos concorrentes) e taxa de menção (que evolução depois de uma iniciativa). Este post descreve a metodologia para correr cada uma internamente — prompt set, cadência, runs, controlo de variabilidade — sem ferramentas pagas. As mesmas três métricas que usamos com os nossos clientes.

Key takeaways

Três métricas resolvem 90% da pergunta “está a funcionar?”
Prompt set fixo (30–100 prompts) é a fundação — sem isso não há comparação válida
Medir nos 4 motores principais (ChatGPT, Claude, Gemini, Perplexity) em paralelo
Mensal para baseline; semanal em fase activa de optimização
3 a 5 runs por prompt + temperatura zero = reduz variabilidade ao mínimo

Porque há três métricas, não uma

Cada métrica responde a uma pergunta diferente. Citation rate responde a: aparecemos? Share of voice responde a: aparecemos comparado com a concorrência? Taxa de menção (mais conhecida em inglês como mention lift) responde a: melhorou desde que começámos?

Em isolamento, qualquer uma delas mente. Citation rate de 60% parece bom — até descobrir que os concorrentes estão a 80%. Share of voice de 40% parece bom — até descobrir que o mercado total está a colapsar. Taxa de menção positiva parece bom — até perceber que a base era zero.

As três em conjunto dão a fotografia. É assim que medimos.

A fundação: prompt set

Tudo começa por um conjunto fixo de prompts que representa como compradores reais investigam o sector. Sem prompt set estável, as métricas mudam por mudança de input — e perde-se a capacidade de comparar entre períodos.

Boas regras na construção:

30 a 100 prompts. Para SaaS B2B PT, 50 cobre o terreno relevante.
Mix de intenções. Comparação (melhor X para Y), avaliação (X é bom para Y?), descoberta (quem oferece X), técnicas (como X resolve Y).
Linguagem natural. Não imitar query Google (curta, com keywords). Compradores em ChatGPT escrevem parágrafos.
Em PT-PT e EN. Compradores B2B portugueses alternam idioma conforme a profundidade técnica.
Fixar e versionar. O prompt set é tratado como código: versionado, change-log, com data de update.

Métrica 1: Citation rate

A pergunta: em que percentagem dos prompts do set somos citados?

Fórmula: (prompts em que aparecemos) ÷ (total de prompts no set) × 100.

Definição operacional importante: “ser citado” = nome da marca explícito na resposta. Se o motor menciona uma característica do produto sem nomear, não conta. Se aparece numa lista, conta uma vez (não por número de ocorrências). Se aparece com URL, conta — mas tracking separado da menção pura, porque o sinal é diferente.

Baseline típica para empresa portuguesa de SaaS B2B sem investimento prévio em GEO: perto de 0%. Após 3–6 meses de trabalho consistente, 30–60% é razoável dependendo da competitividade do nicho.

Métrica 2: Share of voice

A pergunta: das menções totais para o sector, quanto é nosso?

Fórmula: (menções da nossa marca em todo o prompt set) ÷ (menções totais de qualquer marca relevante no mesmo set) × 100.

Para calcular, precisas de uma lista de 5–15 marcas competidoras directas — não inclui marcas que não são competidoras reais, mesmo que apareçam (ex.: AWS, Salesforce em respostas genéricas não conta para a tua share of voice na tua categoria).

Esta métrica é a mais difícil de mover, e a mais informativa. Citation rate alto com share of voice baixo significa que estás a aparecer, mas em terceira ou quarta posição quando o utilizador lê a resposta. Para B2B, em que a recomendação é decisiva, isso é ainda fraco.

Métrica 3: Taxa de menção (mention lift)

A pergunta: quanto subiu o nosso citation rate desde o baseline?

Fórmula: ((citation rate actual) − (citation rate baseline)) ÷ (citation rate baseline) × 100.

Se o baseline é 0% (cenário comum), trata como pontos percentuais absolutos. Subiu de 0 para 28%? Lift = +28 pp.

Esta é a métrica para reportar progresso. Tem o cuidado de contextualizar com share of voice simultânea — caso contrário, o lift pode ser ilusório (mercado todo subiu, posição relativa manteve-se).

Metodologia operacional

O processo mensal típico:

Sessões limpas. Cada prompt vai num novo chat, sem histórico. Em alguns motores isso obriga a abrir janela anónima.
Temperatura zero. Onde a API permitir (Claude, Gemini, ChatGPT via API). Reduz variabilidade.
3 a 5 runs por prompt. Usa a média ou a moda das menções. Para SaaS com poucos competidores, 3 é suficiente; em sectores muito competitivos, 5.
Quatro motores em paralelo. ChatGPT, Claude, Gemini (preferencialmente em AI Mode), Perplexity. Cada um tem o seu citation rate.
Registo estruturado. Spreadsheet ou ferramenta com colunas: motor, prompt, citado (sim/não), posição na lista, marcas concorrentes mencionadas, run, data.
Análise mensal. Comparação mês a mês das três métricas, por motor. Tendências por trimestre.

O que NÃO medir (ainda)

Algumas métricas parecem atractivas mas não acrescentam sinal fiável em 2026:

Sentiment analysis das menções. Os modelos tendem a ser neutros ou positivos. Diferenciação é fraca.
Click-through das URLs citadas. Os motores ainda não expõem analytics de origem fiáveis (Perplexity é a excepção parcial). Esperar 12–18 meses.
Volume de tráfego “de origem IA”. Headers de referrer são inconsistentes. Estimar é especulação.

Manter-se nas três métricas core até as outras maturarem é o caminho disciplinado.

Ferramentas: manual vs pago

Para arrancar, manual chega:

Prompt set em Google Sheets versionado.
Run manual com 4 separadores no browser, um por motor.
Anotação directa no sheet com check (sim/não) e listagem de marcas mencionadas.

Cobertura: 50 prompts × 4 motores × 3 runs = 600 interacções. Uma pessoa faz em meio dia, uma vez por mês. É repetitivo, mas dá uma fotografia fiel ao baixo custo.

Quando faz sentido pagar por ferramenta: quando o prompt set cresce acima de 100, quando a cadência precisa de ser semanal/diária, ou quando a equipa quer poupar tempo operacional. Aí ferramentas tipo Profound, Otterly ou Peec fazem sentido — pesam o trabalho de execução, não o de decisão.

Reportar internamente

Um relatório de uma página. Topo: as três métricas, com variação mês a mês. Meio: prompts em que perdemos posição (e porquê — concorrente X subiu, motor Y mudou comportamento). Fundo: 1–3 acções para o mês seguinte.

Resistir à tentação de slides bonitos com 20 gráficos. Para a maioria das equipas, três números bem entendidos valem mais que dashboards complexos.

Perguntas frequentes

Posso medir GEO só com o ChatGPT?

Não chega. Cada motor tem dataset e comportamento próprios. ChatGPT + Claude + Gemini + Perplexity em paralelo dá a fotografia completa.

Com que frequência devo medir?

Mensal para baseline. Semanal em fase activa de optimização. Diário só em roll-outs específicos.

Quantos prompts no set?

30 a 100. Para SaaS B2B portuguesa, 50 prompts é tipicamente suficiente.

Fontes

Glossário GEO — citation rate
Glossário GEO — share of voice em LLMs
Onde é que a IA aprende sobre a tua marca — complementa este post pelo lado da autoridade.