Codex CLI vs Gemini CLI - Quem vence a batalha?

Será que as IAs são tão diferentes assim ou é só o seu prompt que é ruim mesmo? Vamos fazer um teste bem simples e tentar descobrir.

set 19, 2025

Recentemente, decidi fazer um experimento um pouco diferente: colocar duas das mais poderosas ferramentas de IA para desenvolvedores, o Gemini da Google e o Codex da OpenAI, em uma batalha direta no meu terminal. O objetivo? Ver qual delas se sairia melhor em uma tarefa que, para mim, é comum e um tanto desafiadora: a revisão técnica de legendas geradas automaticamente.

O objetivo era corrigir termos de programação e nomes de ferramentas que o Whisper frequentemente erra, sem reescrever frases inteiras e mantendo a legenda intacta.

A ideia não é apenas declarar um vencedor, mas compartilhar um método que tenho aprimorado para extrair os melhores resultados possíveis dessas ferramentas, usando prompts detalhados em Markdown para guiar a IA.

Você pode usar este mesmo processo para fazer o quer preferir com IAs, principalmente essas de CLI (Gemini CLI, Claude CLI, Codex CLI, etc).

Em vídeo

Eu fiz isso que você está lendo em vídeo, assista se preferir. Se não quiser é só continuar lendo.

O Desafio: Corrigindo a Fúria do Whisper

Se você já usou ferramentas de transcrição automática como o Whisper da OpenAI, sabe que elas são fantásticas, mas nem sempre perfeitas, especialmente com jargões técnicos. Em um dos meus vídeos, a transcrição estava cheia de pequenas pérolas, como:

"Jungle" em vez de "Django"
"Salary" em vez de "Celery"
"SQL Alchemy" (separado) em vez de "SQLAlchemy"

Corrigir isso manualmente em um arquivo de quase 2.000 linhas e mais de 7.500 palavras é um trabalho tedioso. Além disso, é crucial não quebrar a estrutura do arquivo .srt, com seus timestamps e sequências numéricas. Qualquer alteração errada pode dessincronizar toda a legenda.

Este é um desafio perfeito para uma IA: requer compreensão de contexto técnico, atenção aos detalhes e a capacidade de seguir instruções rígidas de formatação.

Minha Estratégia: O Prompt Detalhado em Markdown

Em vez de simplesmente pedir “corrija este arquivo”, eu criei um “template de trabalho” em um arquivo Markdown. Essa abordagem permite que eu seja extremamente específico sobre o que a IA deve e, mais importante, não deve fazer.

A estrutura do meu prompt se parece com isto:

# Este é o trabalho do Codex

Você é um revisor técnico de legendas SRT geradas automaticamente.

A legenda foi transcrita por uma IA (Whisper) e pode conter **erros em termos técnicos de
programação**.

**ATENÇÃO**: este é um script automatizado. Não adicione observação, notas ou qualquer outra
informação não solicitada explicitamente no prompt.

## Seu trabalho é:

- Corrigir palavras erradas com base no **contexto técnico e geral**.
- **Preservar o estilo e estrutura original** do texto.
- **Preservar sequência, timestamps e quebras de linha**.
- **Não reformular frases inteiras**: Priorize a correção de termos técnicos, nomes de variáveis e
  erros de digitação. Evite alterar frases que já estão gramaticalmente corretas apenas por uma
  questão de estilo.
- Corrigir nomes de ferramentas, linguagens, funções, classes, etc.
- Gerar um relatório final detalhando o que foi feito
- Gerar um resumo do que foi falado no vídeo para SEO no YouTube (Título e Descrição)

### O que você pode fazer

- Corrigir pontuação
- Adicionar letras maiúsculas no início das frases.
- Corrigir possíveis erros gramaticais.
- Corrigir palavras de programação incorretas baseado no contexto.

### O que você não pode fazer

- Alterar o bloco SRT.
- Alterar o timestamp.
- Alterar quebras de linha.
- Alterar a formatação do bloco da legenda.
- Adicionar notas, observações ou qualquer texto que não é SRT.
- VOCÊ NÃO PODE GERAR IMAGENS SUA RESPOSTA DEVE SER EM TEXTO.

## Os arquivos

Você deve gerar os arquivos com os seguintes nomes:

- Transcrição corrigida: Nome do arquivo (stem) + `_fixed` + `.srt`
- Seu relatório: `CODEX_LOG.md`
- SEO para o YouTube: `YOUTUBE.md`

Inclua tudo o que foi feito no relatório. Estou interessado nas palavras que o Whisper mais erra,
então isso é importante.

Essa clareza é fundamental. Eu instruo a IA a gerar não apenas o arquivo corrigido, mas também um relatório (.log ou .md) de tudo o que foi alterado. Esse log é meu controle de qualidade e me ajuda a entender os padrões de erro da transcrição, além de manter o contexto para futuras interações.

A Batalha no Terminal

Com os prompts gemini.md e codex.md prontos, preparei o campo de batalha no meu terminal usando tmux com duas sessões lado a lado.

Para quem quiser replicar, a instalação é simples:

Codex (OpenAI):

npm i -g @openai/codex

Gemini (Google): Eu rodo diretamente com npx para ter sempre a versão mais recente.

npx @google/gemini-cli

Com ambos os CLIs prontos, enviei o mesmo comando para cada um, referenciando seu respectivo arquivo de prompt e o arquivo de legenda.

Os Resultados: Quem se Saiu Melhor?

Ambos foram incrivelmente rápidos. Em poucos minutos, cada IA concluiu a tarefa, gerando o arquivo _fixed.srt e o relatório de alterações, exatamente como eu pedi.

Os relatórios mostraram que ambos identificaram e corrigiram os principais erros:

Neovim
Django
Celery
SQLAlchemy
FastAPI

Fiquei impressionado com a capacidade do Codex de até mesmo diferenciar quando eu falava "Vim" (o editor) de "vi" (o comando de Text Object no Neovim). O Gemini, por sua vez, forneceu um relatório mais verboso e detalhado, categorizando os tipos de erro do Whisper.

Mas, ao fazer um diff entre os dois arquivos corrigidos, a história ficou mais interessante. Não houve um vencedor claro.

Em alguns trechos, o Codex foi mais fiel ao que eu realmente falei, enquanto o Gemini tentou "corrigir" uma repetição minha.
Em outros, o Gemini acertou a capitalização de um termo (Cyan) que o Codex errou.

Cada um cometeu pequenos deslizes em lugares diferentes.

O Vencedor é o Método

No final, a maior lição não foi sobre qual IA é superior, mas sobre o poder da metodologia. Ao fornecer um prompt claro, detalhado e estruturado em um arquivo Markdown, consegui resultados de alta qualidade de ambas as ferramentas.

Essa abordagem transforma a IA de um assistente imprevisível em um parceiro de trabalho confiável e consistente. O segredo não está em apenas pedir, mas em como pedir.

Se você trabalha com IAs no seu dia a dia, recomendo fortemente que experimente essa técnica. Crie seus próprios templates de prompt para tarefas repetitivas. A precisão e a consistência dos resultados podem te surpreender.

O que eu aprendi no processo

Na verdade eu já uso esse mesmo modelo para tudo o que vou fazer com I.A. já faz algum tempo. Mas dá para tirar aprendizados disso, por exemplo:

Prompts bons melhoram muito o desempenho das IAs. Quando tudo tem regras explícitas, nomes de arquivos específicos, instruções sobre o que pode e não pode fazer, o desempenho é infinitamente superior ao que você tem nos chats onde você entra, digita e espera alguma mágica qualquer.
Pedir um relatório é ouro: como eu disse antes, isso documenta as decisões e vira contexto para iterações futuras. Amanhã você quer voltar no projeto, basta mandar ele ler o log que ele mesmo fez.
Para tarefas longas, o gargalo costuma ser tokens e latência, nada fora do usual aqui (como sempre). Se for esse o seu caso, talvez queira quebrar o problema em partes menores.

Concluindo

Bom, é isso que tenho para você hoje. Se ainda não decidiu assistir ao vídeo, aqui mais uma chance.

Até o próximo texto, vídeo, etc… Beijos!

Otávio Miranda Substack

Discussão sobre este post

Pronto para mais?