Capítulo 15 · Multimodalidade · 8 min

Quando o modelo lê imagens

Patch embedding, ViT, CLIP. Como um Transformer de texto se torna multimodal tratando uma imagem como uma grade de tokens.

Uma imagem tambem pode ser tokens

Um Transformer nao exige palavras. Ele exige uma sequencia de vetores.

Para aplicar a mesma arquitetura a imagens, podemos cortar a imagem em pequenos quadrados, converter cada quadrado em um vetor e alimentar a sequencia ao modelo. Essa e a ideia dos Vision Transformers.

Nota sobre o escopo deste capitulo. Falamos aqui de modelos que entendem imagens (descrevem, respondem perguntas, leem um grafico). Para modelos que geram imagens a partir de texto — Stable Diffusion, DALL-E, Midjourney — a arquitetura e diferente e e o tema do capitulo 21.

A imagem é dividida em patches quadrados; cada patch vira um token via uma projeção linear. O Transformer não sabe mais se a entrada é texto ou uma grade de imagens — processa a sequência da mesma forma.

Patches

Uma imagem de 224×224 pixels pode ser dividida em patches de 16×16. Isso produz 14×14 = 196 patches, portanto 196 tokens visuais.

Cada patch e achatado, projetado para um embedding e tratado como mais um token. A posicao indica onde o patch estava na imagem.

Texto e imagem juntos

Um modelo multimodal pode misturar tokens de texto e tokens visuais em uma mesma sequencia:

[tokens de imagem] + [tokens de texto] → resposta

A atencao permite que uma palavra olhe para uma regiao da imagem, e que uma regiao visual influencie uma palavra gerada.

Custo

Mais resolucao significa mais patches. E mais patches significa mais tokens. Como a atencao custa O(n²), dobrar a resolucao pode aumentar muito o custo.

Por isso sistemas multimodais usam truques: compressao visual, resolucoes adaptativas, selecao de regioes, modelos especializados.

E o audio?

O mesmo principio — converter uma modalidade em sequencia de tokens — se aplica a voz. O Whisper da OpenAI (2022) continua sendo a referencia para transcricao fala→texto. Sua arquitetura e um Transformer encoder-decoder, exatamente como um modelo de traducao.

O truque: o sinal de audio e convertido em espectrograma Mel — uma imagem 2D em que o eixo vertical e a frequencia e o horizontal e o tempo. Cada quadradinho desse espectrograma vira um token de entrada, como os patches do ViT para imagens. O Whisper produz entao tokens de texto na saida.

Para a geracao de voz (text-to-speech), o principio se inverte: geram-se tokens de audio a partir de texto. ElevenLabs, OpenAI TTS, Suno (para musica) usam todos Transformers treinados a prever o proximo token de audio. A voz clonada de um ente querido e exatamente a tokenizacao de alguns minutos de gravacao usada como condicionamento.

O salto recente vem dos modelos de voz nativamente multimodais: GPT-4o realtime (2024), Gemini Live (2025), Claude voice. Esses modelos nao fazem mais o ida-e-volta texto ↔ audio internamente — eles raciocinam diretamente em um espaco que mistura tokens de texto e tokens de audio. E isso que permite latencia baixa (~300 ms) e prosodia natural — o modelo pode sorrir enquanto fala, porque nunca saiu do dominio do audio.

Como na visao, a arquitetura subjacente continua sendo um Transformer. A diferenca esta apenas na modalidade do token.

O proximo passo

Ja vimos como o modelo prediz, aprende, usa contexto, ferramentas e dados multimodais. Resta uma pergunta dificil: como sabemos se ele e realmente bom?

Precisamos avalia-lo.

Atualizado em 10 de maio de 2026