Artificial Intelligence (AI)
Área que busca fazer máquinas executarem tarefas que normalmente exigem inteligência humana.
196 termos · 15 categorias
Todos os termos de IA em inglês (o uso padrão) com definições simples.
Área que busca fazer máquinas executarem tarefas que normalmente exigem inteligência humana.
Subcampo da IA em que um sistema aprende a partir de dados em vez de ser explicitamente programado.
ML baseado em redes neurais com múltiplas camadas.
IA especializada em uma única tarefa (ex.: jogar xadrez).
IA hipotética capaz de realizar qualquer tarefa intelectual humana.
Usado em: ch.16
IA que superaria amplamente a inteligência humana em todos os domínios.
Abordagem clássica baseada em regras e lógica formal.
Representação matemática aprendida a partir de dados.
Fase em que um modelo treinado faz previsões.
Fase em que o modelo aprende a partir dos dados.
Aprendizado a partir de dados rotulados (entrada → saída conhecida).
Aprendizado sem rótulos; o modelo descobre estruturas ocultas.
O modelo gera seus próprios rótulos a partir dos dados.
Usado em: ch.06
Aprendizado por tentativa e erro com recompensas.
Usado em: ch.08
Reutilizar um modelo treinado em uma tarefa para outra semelhante.
Aprender a partir de pouquíssimos exemplos.
Resolver uma tarefa sem ter visto nenhum exemplo durante o treinamento.
«Aprender a aprender» — treinar um modelo para se adaptar rapidamente a novas tarefas.
Treinamento distribuído sem centralizar os dados.
O modelo aprende novas tarefas sem esquecer as anteriores.
Unidade de cálculo de uma rede, inspirada no neurônio biológico.
Conjunto de neurônios processados em paralelo.
Parâmetros que ponderam as conexões entre neurônios.
Termo constante adicionado à soma ponderada.
Função não linear aplicada à saída de um neurônio.
Função de ativação muito comum: max(0, x).
Converte um vetor em uma distribuição de probabilidade.
Cálculo da saída a partir de uma entrada.
Cálculo dos gradientes para atualizar os pesos.
Usado em: ch.06
Algoritmo que ajusta os pesos para minimizar o erro.
Usado em: ch.01, ch.03, ch.04, ch.05, ch.06, ch.08, ch.14, ch.21
Medida do erro entre a previsão e o valor real.
Função de perda padrão para classificação.
Algoritmo que conduz a atualização dos pesos (Adam, SGD, etc.).
Tamanho dos passos durante a descida de gradiente.
Usado em: ch.06
Uma passagem completa pelo conjunto de treinamento.
Subconjunto de dados processado de uma vez.
Rede em que a informação flui em um único sentido.
Rede feedforward clássica com camadas densas.
Especializada em imagens por meio de filtros convolucionais.
Processa sequências mantendo um estado interno.
Usado em: ch.04
RNN aprimorado para memorizar dependências de longo prazo.
Usado em: ch.04
Arquitetura baseada em atenção, dominante na IA desde 2017.
Usado em: ch.01, ch.02, ch.04, ch.05, ch.07, ch.08, ch.10, ch.15, ch.17, ch.18, ch.20, ch.21
Cada posição de uma sequência presta atenção nas demais posições.
Usado em: ch.01, ch.03, ch.04, ch.05, ch.07, ch.08, ch.09, ch.15, ch.17, ch.18, ch.21
Vários mecanismos de atenção em paralelo.
Arquitetura clássica para tradução e geração.
Usado em: ch.15
Injeta a ordem das palavras em um Transformer.
Usado em: ch.05
Codificação de posição rotativa moderna, frequente em LLMs.
Usado em: ch.05
Conexão que pula camadas para estabilizar o treinamento.
Normalização para estabilizar o treinamento.
Vários sub-modelos especializados ativados seletivamente.
Usado em: ch.05
Modelo generativo que aprende a remover ruído de uma imagem passo a passo.
Duas redes em competição (gerador vs. discriminador).
Transformer aplicado a imagens.
Arquitetura alternativa ao Transformer para sequências longas.
Área de processamento de linguagem natural por máquinas.
Usado em: ch.15
Divisão de um texto em unidades chamadas tokens.
Unidade básica processada por um modelo (palavra, sub-palavra ou caractere).
Usado em: ch.01, ch.02, ch.03, ch.04, ch.05, ch.06, ch.07, ch.08, ch.09, ch.10, ch.11, ch.12, ch.13, ch.14, ch.15, ch.17, ch.18, ch.19, ch.20, ch.21
Algoritmo de tokenização muito utilizado.
Usado em: ch.02
Outros algoritmos de tokenização.
Usado em: ch.02
Conjunto de tokens conhecidos pelo modelo.
Representação vetorial densa de uma palavra ou token.
Usado em: ch.01, ch.03, ch.04, ch.05, ch.10, ch.11, ch.15, ch.21
Técnica clássica de embeddings de palavras.
Embedding que depende do contexto da frase.
Identificação de entidades (pessoas, lugares…).
Detecção do tom ou sentimento de um texto.
Reconhecimento de voz (áudio → texto).
Síntese de voz (texto → áudio).
Usado em: ch.15
Modelo que prevê a probabilidade de uma sequência de palavras.
Modelo de linguagem enorme treinado com bilhões de palavras.
Usado em: ch.01, ch.02, ch.03, ch.04, ch.05, ch.06, ch.07, ch.08, ch.09, ch.10, ch.11, ch.12, ch.13, ch.15, ch.16, ch.17, ch.18, ch.20
Modelo generalista reutilizável para muitas tarefas.
IA capaz de produzir conteúdo (texto, imagem, áudio…).
Treinamento inicial sobre grandes quantidades de dados brutos.
Ajuste de um modelo pré-treinado para uma tarefa específica.
Usado em: ch.01, ch.08, ch.09, ch.11, ch.13, ch.14, ch.17, ch.19, ch.20
Fine-tuning para seguir instruções humanas.
Ajuste do modelo usando feedback humano.
Alternativa simplificada ao RLHF.
Método de alinhamento baseado em um conjunto de princípios.
Usado em: ch.08
Texto de entrada fornecido ao modelo.
Usado em: ch.01, ch.07, ch.08, ch.09, ch.10, ch.11, ch.12, ch.17, ch.18, ch.21
Instruções gerais dadas ao modelo antes da conversa.
Arte de formular prompts eficazes.
Usado em: ch.12
Incitar o modelo a raciocinar passo a passo.
Fornecer alguns exemplos dentro do prompt.
Capacidade do modelo de aprender a partir de exemplos incluídos no prompt.
Quantidade de texto que o modelo pode processar de uma vez.
Controla a aleatoriedade das respostas (baixa = determinística, alta = criativa).
Amostragem entre os k tokens mais prováveis.
Amostragem entre um subconjunto que acumula p% de probabilidade.
Escolher sempre o token mais provável.
Usado em: ch.07
Explora várias sequências candidatas em paralelo.
Usado em: ch.07
O modelo inventa informações falsas, porém plausíveis.
O modelo recupera documentos externos antes de responder.
Banco de dados que armazena e busca embeddings.
Busca por similaridade de significado, não apenas de palavras.
LLM otimizado para raciocinar profundamente antes de responder.
Modelo que lida com vários tipos de entrada (texto, imagem, áudio…).
Modelo que compreende texto e imagem.
Geração de imagens a partir de texto.
Técnica de fine-tuning leve baseada em matrizes de baixo rank.
Usado em: ch.14
LoRA combinado com quantização para economizar memória.
Família de métodos de fine-tuning eficientes em parâmetros.
Usado em: ch.14
Sistema de IA que persegue um objetivo por meio de múltiplas etapas e ferramentas.
Capacidade do modelo de chamar funções externas.
Usado em: ch.11
Padrão que alterna raciocínio e ação.
Usado em: ch.11
Capacidade de um agente de decompor um objetivo em sub-tarefas.
Vários agentes que colaboram ou se coordenam.
Protocolo padrão para conectar ferramentas a um LLM.
Usado em: ch.11
Capacidade de um agente de usar um computador.
Usado em: ch.11
IA que age de forma autônoma em um ambiente.
Conjunto de dados usado para treinar ou avaliar um modelo.
Dados para treinar, ajustar e avaliar.
Resposta correta associada a um exemplo.
Ação de associar rótulos aos dados.
Geração artificial de mais dados.
Dados gerados artificialmente, por exemplo por IA.
Variável de entrada do modelo.
Usado em: ch.20
Criação manual de variáveis relevantes.
Codificar uma categoria como vetor binário.
Mudança progressiva dos dados em relação ao treinamento.
Vazamento de informação do conjunto de teste para o de treinamento (resultados enganosamente bons).
Parâmetro definido antes do treinamento (taxa de aprendizado, tamanho de batch…).
Avaliação por meio de múltiplas divisões dos dados.
O modelo memoriza os dados de treinamento e generaliza mal.
Usado em: ch.06
O modelo é simples demais para captar o sinal.
Técnicas que previnem o sobreajuste.
Usado em: ch.06
Desativa neurônios aleatoriamente durante o treinamento.
Interromper o treinamento quando o erro de validação volta a subir.
Os gradientes ficam pequenos demais para treinar.
O modelo esquece tarefas antigas ao aprender novas.
Transferir o conhecimento de um modelo grande para um pequeno.
Usado em: ch.21
Remover pesos desnecessários para aligeirar o modelo.
Reduzir a precisão numérica dos pesos.
Relações entre tamanho do modelo, dados, computação e desempenho.
Percentual de previsões corretas.
Das previsões positivas, quantas estão corretas.
Dos positivos reais, quantos foram recuperados.
Média harmônica da precisão e do recall.
Tabela cruzada de previsões versus valores reais.
Curva e área sob a curva para avaliar um classificador.
Medida de incerteza de um modelo de linguagem (menor é melhor).
Métricas para tradução e sumarização automáticas.
Medida de qualidade das imagens geradas.
Teste padronizado para comparar modelos (MMLU, HumanEval…).
Usado em: ch.16
Testes adversariais para encontrar falhas em um modelo.
Entidade que toma decisões em um ambiente.
Mundo no qual o agente atua.
Estratégia do agente (estado → ação).
Sinal numérico que indica a qualidade de uma ação.
Algoritmo de RL baseado na estimativa de Q.
Algoritmo de RL muito utilizado, especialmente no RLHF.
Dilema entre explorar o novo e aproveitar o que já se sabe.
O agente explora a função de recompensa de formas não desejadas.
Usado em: ch.11
Área da IA que processa imagens e vídeos.
Atribuir uma categoria a uma imagem.
Localizar e classificar objetos em uma imagem.
Rotular cada pixel com uma classe.
Reconhecimento de texto em uma imagem.
Modelos clássicos de detecção de objetos.
Modelo universal de segmentação.
Representação 3D de uma cena aprendida a partir de imagens.
Garantir que a IA persiga objetivos alinhados aos valores humanos.
Campo de estudo para tornar a IA confiável e segura.
Entrada projetada para enganar um modelo.
Contornar as salvaguardas de um LLM.
Usado em: ch.08
Injeção maliciosa de instruções em um prompt.
Usado em: ch.12
Viés nos dados ou nas previsões do modelo.
Equidade nas decisões algorítmicas.
Capacidade de entender por que um modelo toma uma decisão.
Estudo do funcionamento interno das redes neurais.
Método formal de proteção da privacidade.
Conteúdo falsificado por IA.
Desalinhamento entre os objetivos reais e os aparentes do modelo.
Modelo que prevê a qualidade de uma resposta segundo critérios humanos.
Governança e regulação da IA.
Processador gráfico, muito utilizado para IA.
Chip especializado em IA desenvolvido pelo Google.
Plataforma de computação GPU da Nvidia.
Operações de ponto flutuante por segundo.
Treinamento distribuído entre várias máquinas.
Mesmos pesos, dados diferentes em cada GPU.
O modelo é dividido entre várias GPUs.
Principais frameworks de deep learning.
Plataforma de modelos, datasets e ferramentas de ML.
Formato padrão para trocar modelos entre frameworks.
IA executada em dispositivos embarcados.
Tempo de resposta do modelo.
Usado em: ch.18
Número de inferências por segundo.
Práticas DevOps aplicadas ao ML.
Capacidades que surgem de repente a partir de um certo tamanho de modelo.
Usado em: ch.19
Aumentar tamanho, dados ou computação para obter melhor desempenho.
Modelo cujos pesos estão disponíveis publicamente.
Modelo na vanguarda do estado da arte.
Modelo de linguagem compacto, otimizado para eficiência.
Inclusão do ser humano no ciclo de aprendizado ou de decisão.
Modelo interno de um agente que prevê a evolução do ambiente.
IA incorporada em um corpo físico (robô).
Ficha descritiva de um modelo (capacidades, limitações, vieses).