Aprendizagem Contínua Homoicônica: unindo o núcleo auto-referencial do Lisp à plasticidade neural — Pensaduras

O arcabouço proposto de Aprendizagem Contínua Homoicônica (HCL) traça uma analogia estruturalmente convincente — mas imperfeita — entre o avaliador metacircular do Lisp e a aprendizagem contínua neural. O mapeamento é mais justo para arquiteturas de núcleo congelado baseadas em LoRA e para a aprendizagem em contexto (onde os transformers comprovadamente implementam descida do gradiente em sua passagem direta), moderadamente forte para hypernetworks como geradoras de pesos, e mais fraco nas afirmações sobre reversibilidade. Embora o vocabulário específico Lisp→neural não tenha aparecido em publicações anteriores, os mecanismos subjacentes — matrizes de pesos auto-referenciais, núcleos congelados com deltas composicionais e algoritmos de aprendizagem contínua meta-aprendidos — estão bem estabelecidos no programa de pesquisa de 30 anos de Schmidhuber. A contribuição genuína do arcabouço está em unificar esses fios sob uma lente principiada de teoria de linguagens de programação, mas ele precisa de fundamento categórico formal e algoritmos concretos que superem os métodos existentes para não permanecer apenas uma metáfora sugestiva.

1. O avaliador metacircular como ponto fixo computacional

A âncora teórica do HCL é o avaliador metacircular do Capítulo 4 de Structure and Interpretation of Computer Programs, de Abelson & Sussman (MIT Press, 1996). O ciclo eval/apply define um ponto fixo semântico: um interpretador Lisp escrito em Lisp, no qual eval despacha expressões para regras de avaliação e apply executa procedimentos sobre argumentos. Como diz o SICP: “expressões a serem avaliadas em ambientes reduzem-se a procedimentos a serem aplicados a argumentos, que por sua vez reduzem-se a novas expressões a serem avaliadas em novos ambientes”. Todo o avaliador cabe em cerca de uma página de código e ainda assim define a semântica completa do Scheme.

O conceito remonta ao artigo de McCarthy de 1960 no Communications of the ACM, no qual a S-função universal apply desempenhava “o papel teórico de uma máquina de Turing universal e o papel prático de um interpretador”. Reynolds (1972) cunhou o termo “metacircular” e classificou sistematicamente interpretadores definicionais. A propriedade-chave para o HCL é a homoiconicidade — código e dados compartilham a mesma representação (S-expressions), permitindo que programas inspecionem e modifiquem a si mesmos. A programação genética de Koza (1992) explorou isso diretamente: programas representados como árvores de S-expressions são submetidos a crossover e mutação como se fossem dados, tornando literal a ideia de código-modificando-código.

O análogo neural dessa propriedade foi articulado explicitamente por Irie, Schlag, Csordás & Schmidhuber (ICML 2022, arXiv:2202.05780): “A matriz de pesos de uma rede neural é seu programa.” A Self-Referential Weight Matrix (SRWM) deles usa produtos externos e a regra de atualização delta para se modificar em tempo de execução, inclusive as partes responsáveis pela modificação — a arquitetura neural existente mais próxima de um avaliador metacircular. A “self-referential weight matrix” original de Schmidhuber de 1993 (ICANN 1993) estabeleceu o conceito, e Kirsch & Schmidhuber (2022) formalizaram arquiteturas auto-referenciais que controlam todas as próprias variáveis, provando-as estritamente mais expressivas do que arquiteturas com memória sem meta-otimização.

2. Esquecimento catastrófico e o panorama da aprendizagem contínua

O esquecimento catastrófico — a tendência de redes neurais sobrescreverem conhecimento previamente aprendido quando treinadas em novas tarefas — foi identificado por McCloskey & Cohen (1989) e segue sendo o desafio central em aprendizagem contínua. O campo desenvolveu seis grandes abordagens, cada uma mapeando-se de modo distinto sobre a arquitetura HCL.

Métodos baseados em regularização restringem atualizações de pesos para preservar conhecimento anterior. Elastic Weight Consolidation (Kirkpatrick et al., PNAS 2017, arXiv:1612.00796) adiciona uma penalidade quadrática ponderada pela Matriz de Informação de Fisher: L(θ) = L_new(θ) + Σᵢ (λ/2) Fᵢ(θᵢ − θ*ᵢ)². O EWC trata todos os pesos como parte de um único programa mutável — o oposto do princípio do núcleo congelado do HCL. Suas limitações são bem documentadas: o número de termos de regularização cresce linearmente com as tarefas, a aproximação de Laplace subestima a importância dos parâmetros (Huszár 2018), e o desempenho degenera após cerca de 18 tarefas no Permuted MNIST.

Métodos baseados em arquitetura alinham-se mais ao HCL. Progressive Neural Networks (Rusu et al. 2016, arXiv:1606.04671) congelam colunas anteriores e adicionam novas com conexões laterais — imunes ao esquecimento por construção, mas com crescimento de parâmetros O(k²). PackNet (Mallya & Lazebnik, CVPR 2018) poda e congela subconjuntos de pesos por tarefa, usando máscaras binárias como “deltas” sobre uma rede compartilhada. Dynamically Expandable Networks (Yoon et al., ICLR 2018) re-treinam, expandem e dividem neurônios seletivamente, atingindo desempenho de modelo batch com 12–60% dos parâmetros.

Métodos baseados em replay armazenam ou regeneram exemplos passados. GEM (Lopez-Paz & Ranzato, NeurIPS 2017) formalizou as métricas-chave do campo: Acurácia Média (ACC), Transferência Retroativa (BWT, negativa = esquecimento) e Transferência Prospectiva (FWT). iCaRL (Rebuffi et al., CVPR 2017) combina armazenamento de exemplares com destilação de conhecimento. Dark Experience Replay (Buzzega et al., NeurIPS 2020) armazena e destila logits junto aos exemplos.

O paradigma existente mais alinhado ao HCL é a aprendizagem contínua baseada em LoRA. LoRA (Hu et al., ICLR 2022, arXiv:2106.09685) congela pesos pré-treinados W₀ e aprende atualizações de posto baixo ΔW = BA com posto r ≪ min(d,k). Isto implementa diretamente o núcleo congelado + deltas composicionais do HCL: cada tarefa recebe seu próprio (Aₜ, Bₜ), e a troca de tarefas envolve trocar pequenos módulos adaptadores. Biderman et al. (2024, arXiv:2405.09673) mostraram que “LoRA aprende menos e esquece menos” — a restrição de posto baixo atua como regularização implícita contra o esquecimento.

3. A explosão da aprendizagem contínua baseada em LoRA (2023–2025)

O período 2023–2025 viu o desenvolvimento acelerado de variantes LoRA para aprendizagem contínua, todas implementando variações da arquitetura de núcleo congelado do HCL:

O-LoRA (Wang et al., EMNLP 2023 Findings, arXiv:2310.14152) aprende tarefas em subespaços ortogonais de posto baixo, eliminando interferência sem replay
InfLoRA (Liang & Li, CVPR 2024) projeta matrizes B para subespaços ortogonais às direções de gradiente de tarefas anteriores, com capacidade limitada por T ≤ ⌊d/r⌋
BiLoRA (Zhu et al., CVPR 2025) obtém taxas de colisão quadraticamente menores via separação bilinear de tarefas por frequência, atingindo 87,46% no CIFAR-100 contra 91,92% do treinamento conjunto
TreeLoRA (ICML 2025) usa árvores hierárquicas de similaridade de gradiente para alocação de LoRA camada a camada
LiLoRA (arXiv:2508.06202, 2025) compartilha a matriz A entre tarefas e aplica decomposição de posto baixo adicional sobre B — uma composição hierárquica de deltas
KeepLoRA (arXiv:2601.19659, 2026) projeta atualizações de gradiente em subespaços residuais ortogonais tanto ao subespaço principal pré-treinado quanto às direções de tarefas anteriores

Esses métodos validam a afirmação arquitetural central do HCL: um modelo pré-treinado congelado com deltas de pesos de posto baixo composicionais, armazenáveis, intercambiáveis e reversíveis por tarefa constitui uma arquitetura eficaz de aprendizagem contínua. As variantes ortogonais (O-LoRA, InfLoRA, BiLoRA) adicionam a propriedade crítica de que atualizações específicas por tarefa não interferem entre si, aproximando-se do ideal de conhecimento de tarefa não-destrutivo e reconstruível.

A aritmética de tarefas (Ilharco et al., ICLR 2023, arXiv:2212.04089) fornece o complemento algébrico: vetores de tarefa τₜ = θₜ − θ₀ podem ser somados (multitarefa), negados (desaprender) e compostos por analogia. Chitale et al. (NeurIPS 2023 Workshop, arXiv:2311.02428) aplicaram aritmética de tarefas no espaço LoRA para aprendizagem contínua, implementando diretamente a “reconstrução a partir do núcleo + deltas armazenados” do HCL. MagMax (Marczak et al., ECCV 2024) mostrou que simples seleção de pesos por magnitude máxima durante o fine-tuning sequencial supera muitos métodos dedicados de CL.

4. Hypernetworks como interpretadores neurais que geram programas-peso

Hypernetworks (Ha, Dai & Le, ICLR 2017, arXiv:1609.09106) instanciam um paralelo estrutural direto com eval/apply: uma pequena rede (a hypernetwork/eval) recebe uma descrição de tarefa e gera pesos (programas) para uma rede alvo (apply). A rede alvo então executa esses pesos sobre entradas para produzir saídas.

Von Oswald, Henning, Grewe & Sacramento (ICLR 2020, arXiv:1906.00695) aplicaram isso à aprendizagem contínua com resultados impressionantes. Sua hypernetwork condicionada à tarefa gera pesos alvo completos a partir de embeddings de tarefa: θₜ = h(eₜ; φ). Em vez de ensaiar dados, o sistema ensaia configurações de pesos — um regularizador força h(eᵢ; φ) a permanecer próximo de realizações de pesos previamente computadas. Isso alcança um regime compressivo em que os parâmetros da hypernetwork podem ser menores que os da rede alvo e ainda reter memórias de muitas tarefas. A biblioteca hypnettorch (github.com/chrhenning/hypnettorch) e o repositório hypercl (github.com/chrhenning/hypercl) fornecem implementações em PyTorch.

Extensões recentes incluem hypernetworks parciais para CL (Hemati et al., PMLR 2023), HyperPEFT para aprendizagem contínua baseada em ViT (Information Sciences, 2024) e a provocativa reformulação da atenção como hypernetwork (ICLR 2025): interações chave-query especificam um código latente de baixa dimensão que parametriza operações da rede de valores, viabilizando generalização composicional em raciocínio abstrato.

A analogia com avaliação metacircular se sustenta de várias formas. Ambos os sistemas separam o “interpretador” (hypernetwork/eval) dos “programas” interpretados (pesos gerados/expressões). Ambos alcançam generalização por meio de um núcleo computacional compartilhado. E ambos exibem uma forma de homoiconicidade: os pesos gerados são simultaneamente dados (saída da hypernetwork) e programas (parâmetros executáveis da rede alvo).

Onde quebra: hypernetworks não interpretam verdadeiramente a si mesmas. O avaliador metacircular é especial porque interpretador e interpretado são a mesma linguagem. A SRWM de Schmidhuber (1993, modernizada em Irie et al. 2022) chega mais perto ao permitir que uma matriz de pesos se modifique, incluindo as partes responsáveis pela modificação. Mas mesmo aí o treinamento inicial depende de descida do gradiente externa.

5. A aprendizagem em contexto oferece a evidência mais forte da tese do “interpretador congelado”

O suporte mais convincente para a metáfora central do HCL vem da literatura sobre aprendizagem em contexto, que demonstra que pesos de transformer congelados implementam algoritmos de aprendizagem adaptativa em sua passagem direta.

Von Oswald, Niklasson, Randazzo et al. (ICML 2023, arXiv:2212.07677) provaram por construção que uma única camada linear de self-attention implementa um passo de descida do gradiente em uma loss de regressão. Empiricamente, transformers de self-attention treinados convergem para essa construção teórica — tornam-se meso-otimizadores que aprendem modelos por descida do gradiente dentro de sua passagem direta. Os pesos congelados são o loop externo (meta-aprendizagem); a computação na passagem direta é o loop interno (adaptação específica à tarefa). Esta é precisamente a estrutura do HCL: um núcleo metacircular congelado executando programas variáveis.

Akyürek, Schuurmans, Andreas, Ma & Zhou (ICLR 2023, arXiv:2211.15661) mostraram que transformers implementam e transitam entre diferentes algoritmos — descida do gradiente, regressão ridge e mínimos quadrados exatos — dependendo da profundidade e do ruído, convergindo para estimadores bayesianos em grande largura. Garg, Tsipras, Liang & Valiant (NeurIPS 2022, arXiv:2208.01066) demonstraram aprendizagem em contexto de funções lineares, lineares esparsas, redes neurais e árvores de decisão. Dai et al. (ACL 2023 Findings, arXiv:2212.10559) mostraram que a atenção em transformers tem uma forma dual de descida do gradiente: o modelo pré-treinado atua como meta-otimizador produzindo meta-gradientes a partir de demonstrações.

O artigo de continuidade sobre meso-otimização (von Oswald et al., ICLR 2024, arXiv:2309.05858) aprofundou o quadro: o treinamento padrão de predição do próximo token dá origem a um algoritmo de aprendizagem subsidiário dentro da passagem direta. Análise multicamadas revelou que as primeiras camadas fazem “token binding” (construção de um meso-dataset de associações entrada-saída) enquanto camadas subsequentes realizam meso-otimização. Crucialmente, o algoritmo de otimização aprendido na passagem direta pode ser reaproveitado para tarefas supervisionadas few-shot — o mesmo “interpretador” roda diferentes “programas”.

Li, Ildiz, Papailiopoulos & Oymak (ICML 2023, arXiv:2301.07067) formalizaram isso como aprendizagem de algoritmo: o transformer constrói funções-hipótese no momento da inferência, com limites de generalização via estabilidade algorítmica. O viés indutivo depende da complexidade da tarefa e do número de tarefas de treinamento, não da complexidade do transformer — o transformer efetivamente seleciona um algoritmo apropriado à tarefa.

6. A meta-aprendizagem costura a ponte entre adaptação e aprendizagem contínua

MAML (Finn, Abbeel & Levine, ICML 2017, arXiv:1703.03400) fornece uma ponte natural. Sua inicialização meta-aprendida θ codifica capacidade de aprendizagem de propósito geral — um “ponto de partida congelado” a partir do qual passos de gradiente específicos à tarefa produzem adaptação rápida. A estrutura de loop interno-externo espelha o núcleo congelado + deltas específicos à tarefa do HCL, e a equivalência teórica entre MAML e aprendizagem em contexto (von Oswald et al. 2023) torna essa conexão rigorosa para modelos lineares.

O campo de meta-aprendizagem contínua, revisado por Son, Lee & Kim (IEEE TPAMI 2024, arXiv:2311.05241), define cinco arcabouços combinatórios unindo meta-aprendizagem e aprendizagem contínua. O mais relevante é Meta-Continual Learning (MCL), onde a otimização bi-nível no estilo MAML treina uma inicialização que permanece boa para todas as tarefas enquanto o loop interno se adapta a cada uma. Javed & White (NeurIPS 2019) usaram MAML para aprender representações robustas ao esquecimento catastrófico. MAML-en-LLM (KDD 2024, arXiv:2405.11446) aplica explicitamente a otimização bi-nível do MAML para melhorar a aprendizagem em contexto, alcançando melhorias de 2–4%.

O trabalho mais diretamente relevante para o HCL é Automating Continual Learning (ACL), de Kirsch, Harrison, Sohl-Dickstein & Schmidhuber (TMLR), que usa redes neurais auto-referenciais para meta-aprender seus próprios algoritmos de aprendizagem contínua em contexto. ACL codifica desiderata de CL em objetivos de meta-aprendizagem e resolve o “esquecimento catastrófico em contexto” — um sistema auto-referencial que descobre sua própria estratégia para evitar o esquecimento catastrófico, implementado e submetido a benchmarks.

7. Reversibilidade: a inversão elegante do miniKanren versus as aproximações neurais

A afirmação do HCL de que as atualizações de pesos devem ser “estruturadas e reversíveis, análogas à execução relacional/reversa no miniKanren” é o elo mais fraco do arcabouço. miniKanren (Friedman, Byrd & Kiselyov, The Reasoned Schemer, MIT Press 2005; tese de doutorado de Byrd na Indiana University, 2009) trata programas como relações matemáticas, eliminando a distinção entre entradas e saídas. Byrd, Holk & Friedman (2012) demonstraram geração de quines via interpretadores relacionais, e Byrd, Ballantyne, Rosenblatt & Might (ICFP 2017) mostraram um único interpretador relacional resolvendo sete desafios de programação, incluindo síntese de programas e prova de teoremas. O trabalho metaKanren (ICFP 2021 miniKanren Workshop) alcançou um interpretador relacional metacircular — miniKanren interpretando miniKanren, executável no sentido reverso para síntese de programas.

A reversibilidade neural opera em um nível fundamentalmente diferente. RevNets (Gomez, Ren, Urtasun & Grosse, NeurIPS 2017, arXiv:1707.04585) obtêm reconstrução de ativações via camadas de acoplamento: y₁ = x₁ + F(x₂), y₂ = x₂ + G(y₁), com inverso exato x₂ = y₂ − G(y₁), x₁ = y₁ − F(x₂). i-RevNet (Jacobsen, Smeulders & Oyallon, ICLR 2018) estende isso a redes totalmente invertíveis, provando que “nenhuma informação é descartada”. Fluxos normalizadores (NICE de Dinh et al. 2014; RealNVP de Dinh et al. 2016; Glow de Kingma & Dhariwal, NeurIPS 2018) fornecem transformações invertíveis com determinantes jacobianos tratáveis. Invertible Residual Networks (Behrmann et al., ICML 2019, arXiv:1811.00995) provaram que funções residuais com restrição de Lipschitz produzem redes invertíveis.

A conexão com a teoria da computação reversível é profunda. Landauer (1961) estabeleceu que operações irreversíveis devem dissipar energia; Bennett (1973) provou que qualquer computação pode ser tornada reversível ao custo de memória adicional. Mas reversibilidade neural é invertibilidade numérica de ativações, não reversibilidade lógica do raciocínio. RevNets reconstroem ativações para treinamento com memória eficiente; não conseguem “raciocinar para trás” sobre quais entradas produziriam saídas desejadas. A execução relacional do miniKanren trata de rodar interpretadores como sintetizadores — uma capacidade qualitativamente diferente que não tem análogo neural real hoje.

A aproximação neural mais próxima da reversibilidade lógica vem dos métodos ortogonais LoRA (O-LoRA, InfLoRA), onde atualizações específicas por tarefa ocupam subespaços separáveis e podem ser adicionadas ou removidas individualmente. O mecanismo merge/unmerge do LoRA — model.eval() funde W₀ + BA, model.train() desfaz a fusão — fornece uma reversibilidade aditiva simples. Mas isso é reversibilidade composicional de deltas, não reversibilidade lógica de computação.

8. Arcabouços formais e a ponte teórico-categórica

O caminho mais promissor para formalizar o HCL está na teoria das categorias. Fong, Spivak & Tuyéras (arXiv:1711.10455, 2019) definiram uma categoria NNet de redes neurais (objetos = dimensões, morfismos = arquiteturas) e mostraram que implementar uma rede neural como aprendiz supervisionado é funtorial: a backpropagation emerge como consequência da functorialidade da regra da cadeia. Isso fornece a linguagem matemática para compor sistemas de aprendizagem.

Gavranović et al. (ICML 2024, arXiv:2402.15332) propuseram que “deep learning categórico é uma teoria algébrica de todas as arquiteturas”, usando mônadas em 2-categorias de mapas paramétricos. Gavranović (2020, arXiv:2009.06837) mostrou que funtores (não apenas funções) podem ser aprendidos via descida do gradiente, estendendo o arcabouço categórico à meta-aprendizagem.

Para formalizar o HCL categoricamente, seria necessário:

Uma categoria Lisp cujos objetos são tipos e morfismos são programas Lisp, com eval como endofuntor
Uma categoria Neural cujos objetos são espaços de pesos e morfismos são mapas parametrizados
Um funtor F: Lisp → Neural mapeando o avaliador metacircular para o núcleo congelado, programas para deltas de pesos e inversão relacional para redes reversíveis
Transformações naturais expressando as condições de coerência entre auto-referência simbólica e neural

Nenhuma formalização desse tipo existe hoje. O survey de Shiebler, Gavranović & Wilson (ACT 2021, arXiv:2106.07032) cobre teoria das categorias em ML de modo geral, mas não aborda aprendizagem contínua. Isso representa um problema em aberto genuíno e uma potencial contribuição.

O Nested Learning do Google (Behrouz & Mirrokni, NeurIPS 2025) fornece um arcabouço complementar: modelos como problemas de otimização multinível aninhados, em que arquitetura e otimizador são fundamentalmente o mesmo conceito em diferentes níveis. Sua arquitetura HOPE é uma variante auto-modificável do Titans com um sistema de memória contínua, atualizando em frequências distintas por nível de memória. É o desenvolvimento independente mais próximo da visão auto-referencial multinível do HCL.

9. Onde a analogia se sustenta, onde quebra e o que há de genuinamente novo

Mapeamentos firmes. O padrão de núcleo congelado + deltas composicionais do LoRA se mapeia de forma limpa em eval/apply + programas. A aprendizagem em contexto como “rodar programas em um interpretador fixo” está agora empiricamente validada por múltiplos grupos (von Oswald et al. 2023; Akyürek et al. 2022; Dai et al. 2023). A aritmética de tarefas oferece composicionalidade genuína (ainda que aproximada) sobre “programas” no espaço de pesos. A analogia hypernetwork-como-eval captura a relação estrutural entre geradores de programas e executores de programas.

Mapeamentos moderados. Hypernetworks geram pesos para redes alvo separadas, mas carecem de verdadeira auto-referência. A inicialização do MAML serve como “núcleo congelado”, mas não foi projetada como interpretador. Self-Referential Weight Matrices (Irie et al. 2022) alcançam auto-modificação, mas via produtos externos, não via avaliação simbólica recursiva.

Mapeamentos fracos. A afirmação sobre reversibilidade confunde invertibilidade numérica (RevNets) com reversibilidade lógica (miniKanren). Deltas de pesos não têm estrutura sintática, fluxo de controle, variáveis ou semântica composicional — são objetos numéricos opacos, não programas. O hiato contínuo-discreto é fundamental: o poder do Lisp vem da manipulação simbólica exata, enquanto redes neurais operam em espaços contínuos aproximados. A aritmética de tarefas funciona apenas em uma pequena vizinhança dos pesos pré-treinados (α < 1), degradando-se com modificações maiores.

Avaliação do trabalho anterior. O vocabulário específico — homoicônico, avaliador metacircular, eval/apply — aplicado à aprendizagem contínua parece inédito. No entanto, as ideias estruturais subjacentes foram amplamente exploradas no programa de pesquisa de Schmidhuber (1987–2024), incluindo matrizes de pesos auto-referenciais, meta-meta-aprendizagem e redes que modificam suas próprias regras de aprendizagem. O artigo ACL (Kirsch et al.) já implementa redes auto-referenciais que meta-aprendem algoritmos de aprendizagem contínua. O Nested Learning do Google desenvolve independentemente a interpretação de otimização multinível.

Elementos genuinamente novos. A contribuição do HCL seria mais forte como: (1) um vocabulário unificador ligando comunidades de teoria de LP e de aprendizagem contínua, (2) a percepção específica de que núcleos congelados devem ser projetados como interpretadores em vez de herdados do pré-treinamento, (3) fundamentação categórica formal conectando o ponto fixo semântico do Lisp à dinâmica neural de aprendizagem, e (4) algoritmos concretos derivados da analogia que superem os métodos existentes — nenhum dos quais existe ainda.

10. Infraestrutura experimental em PyTorch

O ecossistema experimental para validar o HCL é maduro. Avalanche (github.com/ContinualAI/avalanche, JMLR 2023) fornece benchmarks (Split-MNIST, Split-CIFAR-10/100, Permuted-MNIST), estratégias de treinamento (EWC, GEM, PackNet, métodos de replay) e métricas de avaliação (esquecimento, transferência retroativa/prospectiva). A base de código de van de Ven (github.com/GMvandeVen/continual-learning) suporta comparação sistemática entre cenários Task-IL, Domain-IL e Class-IL.

Para o componente núcleo-congelado + deltas, InfLoRA (github.com/liangyanshuo/InfLoRA, CVPR 2024) e O-LoRA (github.com/cmnfriend/O-LoRA, EMNLP 2023) implementam LoRA ortogonal para aprendizagem contínua com backbones ViT e LLM. Online-LoRA (github.com/christina200/online-lora-official, WACV 2025) acrescenta detecção automática de mudança de distribuição. O repositório task_vectors (github.com/mlfoundations/task_vectors) implementa aritmética de tarefas sobre modelos CLIP.

Para experimentos com hypernetworks, hypnettorch (github.com/chrhenning/hypnettorch) fornece um arcabouço geral de hypernetwork e hypercl (github.com/chrhenning/hypercl) implementa a hypernetwork de aprendizagem contínua de von Oswald et al. com benchmarks Split-MNIST/CIFAR. Para componentes reversíveis, FrEIA (github.com/vislearn/FrEIA) e nflows (github.com/bayesiains/nflows) fornecem blocos de arquitetura invertíveis.

Um experimento-protótipo do HCL combinaria: (1) um backbone ViT congelado como núcleo metacircular, (2) adaptadores LoRA por tarefa como deltas de peso composicionais com restrições de ortogonalidade, (3) aritmética de tarefas para verificação de reconstrução (θ_task = θ_core + Δ_task) e (4) comparação contra EWC, Progressive Nets e LoRA vanilla no Split-CIFAR-100 usando as métricas padrão ACC/BWT/FWT. O teste específico do HCL: se projetar o núcleo congelado explicitamente para “capacidade interpretativa” (via meta-treinamento sobre distribuições diversas de tarefa antes do congelamento) produz aprendizagem contínua melhor que um backbone pré-treinado padrão.

11. Benchmarks e padrões de avaliação

A avaliação-padrão em aprendizagem contínua segue a taxonomia de Van de Ven & Tolias (2019): Task-Incremental (identidade da tarefa disponível no teste), Domain-Incremental (a distribuição de entrada muda, mesma estrutura) e Class-Incremental (o mais desafiador — discriminar entre todas as classes vistas sem identidade de tarefa). As métricas de Lopez-Paz & Ranzato (2017) seguem padrão: ACC = (1/T)Σᵢ R_{T,i}; BWT = (1/(T-1))Σᵢ (R_{T,i} − R_{i,i}); FWT = (1/(T-1))Σᵢ (R_{i-1,i} − bᵢ).

Benchmarks recentes atacam as limitações de divisões sintéticas de tarefas. CLEAR (Lin et al., NeurIPS 2022, arXiv:2201.06289) fornece evolução temporal natural a partir de imagens do YFCC100M (2004–2014). CORe50 (Lomonaco & Maltoni 2017) oferece 50 objetos em 11 sessões. CoIN (Chen et al. 2024) compara ajuste de instrução contínuo para LLMs multimodais. Para avaliação específica de LLMs, o survey abrangente de Shi et al. (ACM Computing Surveys 2025, arXiv:2404.16789) cobre pré-treinamento contínuo, pré-treinamento adaptativo a domínio e ajuste de instrução contínuo, com listas curadas de artigos em github.com/Wang-ML-Lab/llm-continual-learning-survey.

Resultados state-of-the-art no Split-CIFAR-100 com ViTs pré-treinados: BiLoRA alcança 87,46% de acurácia final (2025), InfLoRA atinge resultados fortes com limites de capacidade, contra 91,92% do treinamento conjunto. No Permuted-MNIST, o EWC mantém ~90%+ em 3 tarefas, mas degenera após ~18. O GEM mostra esquecimento mínimo com memória episódica. A distância entre os melhores métodos de aprendizagem contínua e o treinamento conjunto encurtou substancialmente com backbones de foundation models.

Conclusão: uma ponte conceitual que precisa de engenharia e formalização

O HCL identifica uma correspondência estrutural genuína entre o modelo computacional auto-referencial do Lisp e a arquitetura emergente da aprendizagem contínua neural com núcleo congelado. A evidência mais forte vem de três linhas convergentes: (1) a aprendizagem contínua baseada em LoRA já implementa o padrão núcleo congelado + deltas composicionais com forte resultado empírico, (2) a pesquisa sobre aprendizagem em contexto prova que pesos de transformer congelados implementam algoritmos de aprendizagem adaptativa — meso-otimizadores — em sua passagem direta, e (3) matrizes de pesos auto-referenciais demonstram que redes neurais podem modificar seu próprio substrato computacional, aproximando-se da homoiconicidade.

O principal risco do arcabouço é permanecer uma metáfora produtiva em vez de se tornar uma teoria produtiva. Três desenvolvimentos transformariam o HCL de analogia em arquitetura. Primeiro, uma formalização categórica mapeando uma mônada livre ao estilo Lisp para uma categoria neural de mapas paramétricos, com transformações naturais expressando a coerência entre auto-referência simbólica e neural. Segundo, algoritmos concretos em que o núcleo congelado seja explicitamente meta-treinado para capacidade interpretativa em vez de herdado do pré-treinamento padrão — testando se núcleos “projetados-como-interpretador” superam núcleos “projetados-como-representação”. Terceiro, deltas de peso estruturados com garantias formais de composicionalidade que vão além da aritmética aproximada de tarefas. As ferramentas existem (Avalanche, hypnettorch, InfLoRA, FrEIA); o que falta é a síntese. A pergunta em aberto central é se o enquadramento Lisp gera previsões que os arcabouços existentes — teoria de estabilidade-plasticidade, regularização pela informação de Fisher, aritmética de tarefas em espaço tangente — não geram.