Aprendizaje Continuo Homoicónico: uniendo el núcleo autorreferencial del Lisp con la plasticidad neuronal — Pensaduras

El marco propuesto de Aprendizaje Continuo Homoicónico (HCL) traza una analogía estructuralmente convincente —pero imperfecta— entre el evaluador metacircular del Lisp y el aprendizaje continuo neuronal. El mapeo es más ajustado para arquitecturas de núcleo congelado basadas en LoRA y para el aprendizaje en contexto (donde los transformers demostrablemente implementan descenso de gradiente en su pase directo), moderadamente fuerte para las hypernetworks como generadoras de pesos, y más débil en las afirmaciones sobre reversibilidad. Aunque el vocabulario específico Lisp→neuronal no ha aparecido en publicaciones previas, los mecanismos subyacentes —matrices de pesos autorreferenciales, núcleos congelados con deltas composicionales y algoritmos de aprendizaje continuo meta-aprendidos— están bien establecidos en el programa de investigación de 30 años de Schmidhuber. La contribución genuina del marco reside en unificar estos hilos bajo una lente principiada de teoría de lenguajes de programación, pero necesita fundamentación categórica formal y algoritmos concretos que superen los métodos existentes para no quedarse en una metáfora sugerente.

1. El evaluador metacircular como punto fijo computacional

El ancla teórica del HCL es el evaluador metacircular del capítulo 4 de Structure and Interpretation of Computer Programs, de Abelson & Sussman (MIT Press, 1996). El ciclo eval/apply define un punto fijo semántico: un intérprete Lisp escrito en Lisp, en el que eval despacha expresiones a reglas de evaluación y apply ejecuta procedimientos sobre argumentos. Como dice SICP: “las expresiones a evaluar en entornos se reducen a procedimientos que se aplican a argumentos, que a su vez se reducen a nuevas expresiones a evaluar en nuevos entornos”. Todo el evaluador cabe en aproximadamente una página de código y, aun así, define la semántica completa de Scheme.

El concepto se remonta al artículo de McCarthy de 1960 en Communications of the ACM, donde la S-función universal apply cumplía “el papel teórico de una máquina de Turing universal y el papel práctico de un intérprete”. Reynolds (1972) acuñó el término “metacircular” y clasificó sistemáticamente intérpretes definicionales. La propiedad clave para el HCL es la homoiconicidad —código y datos comparten la misma representación (S-expressions), permitiendo que los programas se inspeccionen y modifiquen a sí mismos—. La programación genética de Koza (1992) explotó esto directamente: programas representados como árboles de S-expressions son sometidos a cruce y mutación como datos, haciendo literal la idea de código-modificando-código.

El análogo neuronal de esta propiedad fue articulado explícitamente por Irie, Schlag, Csordás y Schmidhuber (ICML 2022, arXiv:2202.05780): “La matriz de pesos de una red neuronal es su programa.” Su Self-Referential Weight Matrix (SRWM) usa productos externos y la regla de actualización delta para modificarse durante la ejecución, incluidas las partes responsables de la modificación —la arquitectura neuronal existente más cercana a un evaluador metacircular—. La “self-referential weight matrix” original de Schmidhuber de 1993 (ICANN 1993) estableció el concepto, y Kirsch y Schmidhuber (2022) formalizaron arquitecturas autorreferenciales que controlan todas sus propias variables, demostrándolas estrictamente más expresivas que las arquitecturas con memoria sin meta-optimización.

2. Olvido catastrófico y el panorama del aprendizaje continuo

El olvido catastrófico —la tendencia de las redes neuronales a sobrescribir el conocimiento previamente aprendido cuando se entrenan en nuevas tareas— fue identificado por McCloskey y Cohen (1989) y sigue siendo el reto central del aprendizaje continuo. El campo ha desarrollado seis enfoques principales, cada uno mapeándose de forma distinta sobre la arquitectura HCL.

Métodos basados en regularización restringen las actualizaciones de pesos para preservar el conocimiento previo. Elastic Weight Consolidation (Kirkpatrick et al., PNAS 2017, arXiv:1612.00796) añade una penalización cuadrática ponderada por la Matriz de Información de Fisher: L(θ) = L_new(θ) + Σᵢ (λ/2) Fᵢ(θᵢ − θ*ᵢ)². EWC trata todos los pesos como parte de un único programa mutable —la antítesis del principio de núcleo congelado del HCL—. Sus limitaciones están bien documentadas: el número de términos de regularización crece linealmente con las tareas, la aproximación de Laplace subestima la importancia de los parámetros (Huszár 2018), y el rendimiento diverge tras unas 18 tareas en Permuted MNIST.

Métodos basados en arquitectura se alinean más con el HCL. Progressive Neural Networks (Rusu et al. 2016, arXiv:1606.04671) congelan columnas previas y añaden nuevas con conexiones laterales —inmunes al olvido por construcción, pero con crecimiento de parámetros O(k²)—. PackNet (Mallya y Lazebnik, CVPR 2018) poda y congela subconjuntos de pesos por tarea, usando máscaras binarias como “deltas” sobre una red compartida. Dynamically Expandable Networks (Yoon et al., ICLR 2018) reentrenan, expanden y dividen neuronas selectivamente, logrando rendimiento de modelo batch con el 12–60% de los parámetros.

Métodos basados en replay almacenan o regeneran ejemplos pasados. GEM (Lopez-Paz y Ranzato, NeurIPS 2017) formalizó las métricas clave del campo: Precisión Media (ACC), Transferencia Hacia Atrás (BWT, negativa = olvido) y Transferencia Hacia Adelante (FWT). iCaRL (Rebuffi et al., CVPR 2017) combina almacenamiento de ejemplares con destilación de conocimiento. Dark Experience Replay (Buzzega et al., NeurIPS 2020) almacena y destila logits junto a los ejemplos.

El paradigma existente más alineado con el HCL es el aprendizaje continuo basado en LoRA. LoRA (Hu et al., ICLR 2022, arXiv:2106.09685) congela pesos preentrenados W₀ y aprende actualizaciones de bajo rango ΔW = BA con rango r ≪ min(d,k). Esto implementa directamente el núcleo congelado + deltas composicionales del HCL: cada tarea recibe su propio (Aₜ, Bₜ), y cambiar de tarea consiste en intercambiar pequeños módulos adaptadores. Biderman et al. (2024, arXiv:2405.09673) mostraron que “LoRA aprende menos y olvida menos” —la restricción de bajo rango actúa como regularización implícita frente al olvido—.

3. La explosión del aprendizaje continuo basado en LoRA (2023–2025)

El periodo 2023–2025 vio un desarrollo acelerado de variantes LoRA para aprendizaje continuo, todas implementando variaciones de la arquitectura de núcleo congelado del HCL:

O-LoRA (Wang et al., EMNLP 2023 Findings, arXiv:2310.14152) aprende tareas en subespacios ortogonales de bajo rango, eliminando la interferencia sin replay
InfLoRA (Liang y Li, CVPR 2024) diseña matrices B que proyectan en subespacios ortogonales a las direcciones de gradiente de tareas anteriores, con capacidad acotada por T ≤ ⌊d/r⌋
BiLoRA (Zhu et al., CVPR 2025) consigue tasas de colisión cuadráticamente menores mediante separación bilineal de tareas por frecuencia, alcanzando un 87,46% en CIFAR-100 frente al 91,92% del entrenamiento conjunto
TreeLoRA (ICML 2025) usa árboles jerárquicos de similitud de gradiente para la asignación de LoRA capa a capa
LiLoRA (arXiv:2508.06202, 2025) comparte la matriz A entre tareas y aplica una descomposición adicional de bajo rango sobre B —una composición jerárquica de deltas—
KeepLoRA (arXiv:2601.19659, 2026) proyecta las actualizaciones de gradiente en subespacios residuales ortogonales tanto al subespacio principal preentrenado como a las direcciones de tareas anteriores

Estos métodos validan la afirmación arquitectónica central del HCL: un modelo preentrenado congelado con deltas de pesos de bajo rango composicionales, almacenables, intercambiables y reversibles por tarea constituye una arquitectura eficaz para aprendizaje continuo. Las variantes ortogonales (O-LoRA, InfLoRA, BiLoRA) añaden la propiedad crítica de que las actualizaciones específicas de tarea no interfieren entre sí, acercándose al ideal de conocimiento de tarea no destructivo y reconstruible.

La aritmética de tareas (Ilharco et al., ICLR 2023, arXiv:2212.04089) aporta el complemento algebraico: vectores de tarea τₜ = θₜ − θ₀ pueden sumarse (multitarea), negarse (desaprender) y componerse por analogía. Chitale et al. (NeurIPS 2023 Workshop, arXiv:2311.02428) aplicaron aritmética de tareas en espacio LoRA para aprendizaje continuo, implementando directamente la “reconstrucción a partir de núcleo + deltas almacenados” del HCL. MagMax (Marczak et al., ECCV 2024) mostró que la simple selección de pesos por magnitud máxima durante un fine-tuning secuencial supera a muchos métodos dedicados de CL.

4. Hypernetworks como intérpretes neuronales que generan programas-peso

Las hypernetworks (Ha, Dai y Le, ICLR 2017, arXiv:1609.09106) instancian un paralelo estructural directo con eval/apply: una pequeña red (la hypernetwork/eval) toma una descripción de tarea y genera pesos (programas) para una red objetivo (apply). La red objetivo ejecuta entonces esos pesos sobre entradas para producir salidas.

Von Oswald, Henning, Grewe y Sacramento (ICLR 2020, arXiv:1906.00695) aplicaron esto al aprendizaje continuo con resultados sorprendentes. Su hypernetwork condicionada por tarea genera los pesos objetivo completos a partir de embeddings de tarea: θₜ = h(eₜ; φ). En lugar de ensayar datos, el sistema ensaya configuraciones de pesos —un regularizador obliga a h(eᵢ; φ) a permanecer cerca de realizaciones de pesos previamente computadas—. Esto logra un régimen compresivo en el que los parámetros de la hypernetwork pueden ser menores que los de la red objetivo y aun así conservar memorias para muchas tareas. La librería hypnettorch (github.com/chrhenning/hypnettorch) y el repositorio hypercl (github.com/chrhenning/hypercl) ofrecen implementaciones en PyTorch.

Extensiones recientes incluyen hypernetworks parciales para CL (Hemati et al., PMLR 2023), HyperPEFT para aprendizaje continuo basado en ViT (Information Sciences, 2024) y la provocadora reformulación de la atención como hypernetwork (ICLR 2025): las interacciones clave-query especifican un código latente de baja dimensión que parametriza operaciones de la red de valores, habilitando generalización composicional en razonamiento abstracto.

La analogía con la evaluación metacircular se sostiene en varios sentidos. Ambos sistemas separan el “intérprete” (hypernetwork/eval) de los “programas” interpretados (pesos generados/expresiones). Ambos logran generalización gracias a un núcleo computacional compartido. Y ambos exhiben una forma de homoiconicidad: los pesos generados son simultáneamente datos (salida de la hypernetwork) y programas (parámetros ejecutables de la red objetivo).

Dónde se rompe: las hypernetworks no se interpretan verdaderamente a sí mismas. El evaluador metacircular es especial porque intérprete e interpretado son el mismo lenguaje. La SRWM de Schmidhuber (1993, modernizada en Irie et al. 2022) es la más cercana al permitir que una matriz de pesos se modifique, incluidas las partes responsables de la modificación. Pero incluso allí el entrenamiento inicial depende de descenso de gradiente externo.

5. El aprendizaje en contexto aporta la evidencia más fuerte para la tesis del “intérprete congelado”

El respaldo más convincente a la metáfora central del HCL proviene de la literatura sobre aprendizaje en contexto, que demuestra que los pesos congelados de un transformer implementan algoritmos de aprendizaje adaptativo en su pase directo.

Von Oswald, Niklasson, Randazzo et al. (ICML 2023, arXiv:2212.07677) probaron por construcción que una sola capa lineal de self-attention implementa un paso de descenso de gradiente sobre una pérdida de regresión. Empíricamente, los transformers de self-attention entrenados convergen a esa construcción teórica —se convierten en meso-optimizadores que aprenden modelos por descenso de gradiente dentro de su pase directo—. Los pesos congelados son el bucle externo (meta-aprendizaje); el cómputo del pase directo es el bucle interno (adaptación específica de la tarea). Esta es exactamente la estructura del HCL: un núcleo metacircular congelado ejecutando programas variables.

Akyürek, Schuurmans, Andreas, Ma y Zhou (ICLR 2023, arXiv:2211.15661) mostraron que los transformers implementan y transitan entre distintos algoritmos —descenso de gradiente, regresión ridge y mínimos cuadrados exactos— dependiendo de la profundidad y del ruido, convergiendo a estimadores bayesianos con gran anchura. Garg, Tsipras, Liang y Valiant (NeurIPS 2022, arXiv:2208.01066) demostraron aprendizaje en contexto de funciones lineales, lineales dispersas, redes neuronales y árboles de decisión. Dai et al. (ACL 2023 Findings, arXiv:2212.10559) mostraron que la atención del transformer tiene una forma dual de descenso de gradiente: el modelo preentrenado actúa como meta-optimizador que produce meta-gradientes a partir de las demostraciones.

El artículo de continuación sobre meso-optimización (von Oswald et al., ICLR 2024, arXiv:2309.05858) profundizó la imagen: el entrenamiento estándar de predicción del siguiente token da lugar a un algoritmo de aprendizaje subsidiario dentro del pase directo. Un análisis multicapa reveló que las primeras capas realizan “token binding” (construyendo un meso-dataset de asociaciones entrada-salida) mientras que las capas posteriores realizan meso-optimización. Crucialmente, el algoritmo de optimización aprendido en el pase directo puede reutilizarse para tareas supervisadas few-shot —el mismo “intérprete” ejecuta diferentes “programas”—.

Li, Ildiz, Papailiopoulos y Oymak (ICML 2023, arXiv:2301.07067) formalizaron esto como aprendizaje de algoritmo: el transformer construye funciones-hipótesis en el momento de la inferencia, con cotas de generalización mediante estabilidad algorítmica. El sesgo inductivo depende de la complejidad de la tarea y del número de tareas de entrenamiento, no de la complejidad del transformer —el transformer selecciona efectivamente un algoritmo apropiado para la tarea—.

6. El meta-aprendizaje tiende el puente entre adaptación y aprendizaje continuo

MAML (Finn, Abbeel y Levine, ICML 2017, arXiv:1703.03400) ofrece un puente natural. Su inicialización meta-aprendida θ codifica capacidad de aprendizaje de propósito general —un “punto de partida congelado” desde el cual pasos de gradiente específicos de la tarea producen adaptación rápida—. La estructura de bucle interno-externo refleja el núcleo congelado + deltas específicos de tarea del HCL, y la equivalencia teórica entre MAML y aprendizaje en contexto (von Oswald et al. 2023) hace rigurosa esta conexión para modelos lineales.

El campo del meta-aprendizaje continuo, revisado por Son, Lee y Kim (IEEE TPAMI 2024, arXiv:2311.05241), define cinco marcos combinatorios que unen meta-aprendizaje y aprendizaje continuo. El más relevante es Meta-Continual Learning (MCL), en el que una optimización bi-nivel al estilo MAML entrena una inicialización que sigue siendo buena para todas las tareas mientras el bucle interno se adapta a cada una. Javed y White (NeurIPS 2019) usaron MAML para aprender representaciones robustas al olvido catastrófico. MAML-en-LLM (KDD 2024, arXiv:2405.11446) aplica explícitamente la optimización bi-nivel de MAML para mejorar el aprendizaje en contexto, logrando mejoras del 2–4%.

El trabajo más directamente relevante para el HCL es Automating Continual Learning (ACL), de Kirsch, Harrison, Sohl-Dickstein y Schmidhuber (TMLR), que utiliza redes neuronales autorreferenciales para meta-aprender sus propios algoritmos de aprendizaje continuo en contexto. ACL codifica los desiderata de CL en objetivos de meta-aprendizaje y resuelve el “olvido catastrófico en contexto” —un sistema autorreferencial que descubre su propia estrategia para evitar el olvido catastrófico, implementado y sometido a benchmarks—.

7. Reversibilidad: la inversión elegante de miniKanren frente a las aproximaciones neuronales

La afirmación del HCL de que las actualizaciones de pesos deberían ser “estructuradas y reversibles, análogas a la ejecución relacional/hacia atrás en miniKanren” es el eslabón más débil del marco. miniKanren (Friedman, Byrd y Kiselyov, The Reasoned Schemer, MIT Press 2005; tesis doctoral de Byrd en Indiana University, 2009) trata los programas como relaciones matemáticas, eliminando la distinción entre entradas y salidas. Byrd, Holk y Friedman (2012) demostraron generación de quines mediante intérpretes relacionales, y Byrd, Ballantyne, Rosenblatt y Might (ICFP 2017) mostraron un único intérprete relacional resolviendo siete retos de programación, incluyendo síntesis de programas y prueba de teoremas. El trabajo metaKanren (ICFP 2021 miniKanren Workshop) logró un intérprete relacional metacircular —miniKanren interpretando miniKanren, ejecutable hacia atrás para síntesis de programas—.

La reversibilidad neuronal opera en un nivel fundamentalmente distinto. RevNets (Gomez, Ren, Urtasun y Grosse, NeurIPS 2017, arXiv:1707.04585) consiguen la reconstrucción de activaciones mediante capas de acoplamiento: y₁ = x₁ + F(x₂), y₂ = x₂ + G(y₁), con inverso exacto x₂ = y₂ − G(y₁), x₁ = y₁ − F(x₂). i-RevNet (Jacobsen, Smeulders y Oyallon, ICLR 2018) extiende esto a redes totalmente invertibles, probando que “no se descarta información”. Los flujos normalizadores (NICE de Dinh et al. 2014; RealNVP de Dinh et al. 2016; Glow de Kingma y Dhariwal, NeurIPS 2018) ofrecen transformaciones invertibles con determinantes jacobianos tratables. Las Invertible Residual Networks (Behrmann et al., ICML 2019, arXiv:1811.00995) probaron que las funciones residuales con restricción de Lipschitz producen redes invertibles.

La conexión con la teoría de la computación reversible es profunda. Landauer (1961) estableció que las operaciones irreversibles deben disipar energía; Bennett (1973) probó que cualquier cómputo puede hacerse reversible a costa de memoria adicional. Pero la reversibilidad neuronal es invertibilidad numérica de activaciones, no reversibilidad lógica del razonamiento. Las RevNets reconstruyen activaciones para entrenar con memoria eficiente; no pueden “razonar hacia atrás” sobre qué entradas producirían las salidas deseadas. La ejecución relacional de miniKanren consiste en correr intérpretes como sintetizadores —una capacidad cualitativamente distinta que hoy no tiene análogo neuronal real—.

La aproximación neuronal más cercana a la reversibilidad lógica proviene de los métodos LoRA ortogonales (O-LoRA, InfLoRA), donde las actualizaciones específicas de tarea ocupan subespacios separables y pueden añadirse o eliminarse individualmente. El mecanismo merge/unmerge de LoRA —model.eval() fusiona W₀ + BA, model.train() deshace la fusión— proporciona una reversibilidad aditiva sencilla. Pero es reversibilidad composicional de deltas, no reversibilidad lógica de cómputo.

8. Marcos formales y el puente teórico-categórico

El camino más prometedor para formalizar el HCL está en la teoría de categorías. Fong, Spivak y Tuyéras (arXiv:1711.10455, 2019) definieron una categoría NNet de redes neuronales (objetos = dimensiones, morfismos = arquitecturas) y mostraron que implementar una red neuronal como aprendiz supervisado es funtorial: la backpropagation emerge como consecuencia de la functorialidad de la regla de la cadena. Esto proporciona el lenguaje matemático para componer sistemas de aprendizaje.

Gavranović et al. (ICML 2024, arXiv:2402.15332) propusieron que “el deep learning categórico es una teoría algebraica de todas las arquitecturas”, usando mónadas en 2-categorías de mapas paramétricos. Gavranović (2020, arXiv:2009.06837) mostró que los funtores (no solo las funciones) pueden aprenderse mediante descenso de gradiente, extendiendo el marco categórico al meta-aprendizaje.

Para formalizar el HCL categóricamente, habría que construir:

Una categoría Lisp cuyos objetos sean tipos y morfismos sean programas Lisp, con eval como endofuntor
Una categoría Neural cuyos objetos sean espacios de pesos y morfismos sean mapas parametrizados
Un funtor F: Lisp → Neural que mapee el evaluador metacircular al núcleo congelado, los programas a deltas de pesos y la inversión relacional a redes reversibles
Transformaciones naturales que expresen las condiciones de coherencia entre autorreferencia simbólica y neuronal

Hoy no existe tal formalización. La revisión de Shiebler, Gavranović y Wilson (ACT 2021, arXiv:2106.07032) abarca la teoría de categorías en ML en general, pero no aborda el aprendizaje continuo. Esto representa un problema abierto genuino y una potencial contribución.

El Nested Learning de Google (Behrouz y Mirrokni, NeurIPS 2025) ofrece un marco complementario: modelos como problemas de optimización multinivel anidada en los que arquitectura y optimizador son, fundamentalmente, el mismo concepto a distintos niveles. Su arquitectura HOPE es una variante automodificable de Titans con un sistema de memoria continua, actualizándose a distintas frecuencias entre niveles de memoria. Es el desarrollo independiente más cercano a la visión autorreferencial multinivel del HCL.

9. Dónde se sostiene la analogía, dónde se rompe y qué es genuinamente novedoso

Mapeos firmes. El patrón núcleo congelado + deltas composicionales de LoRA se mapea limpiamente sobre eval/apply + programas. El aprendizaje en contexto como “ejecutar programas sobre un intérprete fijo” está ahora empíricamente validado por múltiples grupos (von Oswald et al. 2023; Akyürek et al. 2022; Dai et al. 2023). La aritmética de tareas aporta composicionalidad genuina (aunque aproximada) sobre “programas” en el espacio de pesos. La analogía hypernetwork-como-eval captura la relación estructural entre generadores y ejecutores de programas.

Mapeos moderados. Las hypernetworks generan pesos para redes objetivo separadas, pero carecen de verdadera autorreferencia. La inicialización de MAML funciona como “núcleo congelado”, pero no fue diseñada como intérprete. Las Self-Referential Weight Matrices (Irie et al. 2022) logran auto-modificación, pero vía productos externos, no vía evaluación simbólica recursiva.

Mapeos débiles. La afirmación sobre reversibilidad confunde la invertibilidad numérica (RevNets) con la reversibilidad lógica (miniKanren). Los deltas de pesos carecen de estructura sintáctica, flujo de control, variables y semántica composicional —son objetos numéricos opacos, no programas—. La brecha continuo-discreto es fundamental: el poder del Lisp viene de la manipulación simbólica exacta, mientras que las redes neuronales operan en espacios continuos aproximados. La aritmética de tareas solo funciona en una pequeña vecindad de los pesos preentrenados (α < 1), degradándose con modificaciones mayores.

Evaluación del trabajo previo. El vocabulario específico —homoicónico, evaluador metacircular, eval/apply— aplicado al aprendizaje continuo parece inédito. Sin embargo, las ideas estructurales subyacentes están ampliamente exploradas en el programa de investigación de Schmidhuber (1987–2024), incluyendo matrices de pesos autorreferenciales, meta-meta-aprendizaje y redes que modifican sus propias reglas de aprendizaje. El artículo ACL (Kirsch et al.) ya implementa redes autorreferenciales que meta-aprenden algoritmos de aprendizaje continuo. El Nested Learning de Google desarrolla independientemente la interpretación de optimización multinivel.

Elementos genuinamente novedosos. La contribución del HCL sería más fuerte como: (1) un vocabulario unificador que tienda puentes entre las comunidades de teoría de LP y de aprendizaje continuo, (2) la idea específica de que los núcleos congelados deberían ser diseñados como intérpretes en lugar de heredarse del preentrenamiento, (3) una fundamentación categórica formal que conecte el punto fijo semántico del Lisp con la dinámica neuronal de aprendizaje, y (4) algoritmos concretos derivados de la analogía que superen los métodos existentes —ninguno de los cuales existe todavía—.

10. Infraestructura experimental en PyTorch

El ecosistema experimental para validar el HCL es maduro. Avalanche (github.com/ContinualAI/avalanche, JMLR 2023) proporciona benchmarks (Split-MNIST, Split-CIFAR-10/100, Permuted-MNIST), estrategias de entrenamiento (EWC, GEM, PackNet, métodos de replay) y métricas de evaluación (olvido, transferencia hacia atrás/adelante). La base de código de van de Ven (github.com/GMvandeVen/continual-learning) permite comparar sistemáticamente escenarios Task-IL, Domain-IL y Class-IL.

Para el componente núcleo congelado + deltas, InfLoRA (github.com/liangyanshuo/InfLoRA, CVPR 2024) y O-LoRA (github.com/cmnfriend/O-LoRA, EMNLP 2023) implementan LoRA ortogonal para aprendizaje continuo con backbones ViT y LLM. Online-LoRA (github.com/christina200/online-lora-official, WACV 2025) añade detección automática de cambios de distribución. El repositorio task_vectors (github.com/mlfoundations/task_vectors) implementa aritmética de tareas sobre modelos CLIP.

Para experimentos con hypernetworks, hypnettorch (github.com/chrhenning/hypnettorch) proporciona un marco general de hypernetwork y hypercl (github.com/chrhenning/hypercl) implementa la hypernetwork de aprendizaje continuo de von Oswald et al. con benchmarks Split-MNIST/CIFAR. Para componentes reversibles, FrEIA (github.com/vislearn/FrEIA) y nflows (github.com/bayesiains/nflows) ofrecen bloques de construcción de arquitecturas invertibles.

Un experimento-prototipo del HCL combinaría: (1) un backbone ViT congelado como núcleo metacircular, (2) adaptadores LoRA por tarea como deltas de pesos composicionales con restricciones de ortogonalidad, (3) aritmética de tareas para verificación de reconstrucción (θ_task = θ_core + Δ_task) y (4) comparación contra EWC, Progressive Nets y LoRA vainilla en Split-CIFAR-100 usando las métricas estándar ACC/BWT/FWT. La prueba específica del HCL: si diseñar el núcleo congelado explícitamente para “capacidad interpretativa” (mediante meta-entrenamiento sobre distribuciones diversas de tareas antes de congelarlo) produce mejor aprendizaje continuo que un backbone preentrenado estándar.

11. Benchmarks y estándares de evaluación

La evaluación estándar del aprendizaje continuo sigue la taxonomía de Van de Ven y Tolias (2019): Task-Incremental (identidad de la tarea disponible en test), Domain-Incremental (la distribución de entrada cambia, la estructura no) y Class-Incremental (el más difícil —discriminar entre todas las clases vistas sin identidad de tarea—). Las métricas de Lopez-Paz y Ranzato (2017) siguen siendo estándar: ACC = (1/T)Σᵢ R_{T,i}; BWT = (1/(T-1))Σᵢ (R_{T,i} − R_{i,i}); FWT = (1/(T-1))Σᵢ (R_{i-1,i} − bᵢ).

Los benchmarks recientes abordan las limitaciones de los splits sintéticos de tareas. CLEAR (Lin et al., NeurIPS 2022, arXiv:2201.06289) ofrece evolución temporal natural a partir de imágenes de YFCC100M (2004–2014). CORe50 (Lomonaco y Maltoni 2017) ofrece 50 objetos en 11 sesiones. CoIN (Chen et al. 2024) evalúa el ajuste continuo de instrucciones para LLMs multimodales. Para evaluación específica de LLMs, la revisión exhaustiva de Shi et al. (ACM Computing Surveys 2025, arXiv:2404.16789) cubre preentrenamiento continuo, preentrenamiento adaptativo al dominio y ajuste continuo de instrucciones, con listas curadas de artículos en github.com/Wang-ML-Lab/llm-continual-learning-survey.

Resultados state-of-the-art en Split-CIFAR-100 con ViTs preentrenados: BiLoRA alcanza un 87,46% de precisión final (2025), InfLoRA logra resultados fuertes con límites de capacidad, frente al 91,92% del entrenamiento conjunto. En Permuted-MNIST, EWC mantiene ~90%+ en 3 tareas pero diverge tras ~18. GEM muestra un olvido mínimo con memoria episódica. La distancia entre los mejores métodos de aprendizaje continuo y el entrenamiento conjunto se ha reducido sustancialmente con backbones de foundation models.

Conclusión: un puente conceptual que necesita ingeniería y formalización

El HCL identifica una correspondencia estructural genuina entre el modelo computacional autorreferencial del Lisp y la arquitectura emergente del aprendizaje continuo neuronal con núcleo congelado. La evidencia más fuerte proviene de tres líneas convergentes: (1) el aprendizaje continuo basado en LoRA ya implementa el patrón núcleo congelado + deltas composicionales con resultados empíricos sólidos, (2) la investigación sobre aprendizaje en contexto demuestra que los pesos congelados de un transformer implementan algoritmos de aprendizaje adaptativo —meso-optimizadores— en su pase directo, y (3) las matrices de pesos autorreferenciales demuestran que las redes neuronales pueden modificar su propio sustrato computacional, acercándose a la homoiconicidad.

El principal riesgo del marco es quedarse en una metáfora productiva en lugar de convertirse en una teoría productiva. Tres desarrollos transformarían el HCL de analogía en arquitectura. Primero, una formalización categórica que mapee una mónada libre al estilo Lisp hacia una categoría neuronal de mapas paramétricos, con transformaciones naturales que expresen la coherencia entre autorreferencia simbólica y neuronal. Segundo, algoritmos concretos en los que el núcleo congelado sea explícitamente meta-entrenado para capacidad interpretativa en lugar de heredarse del preentrenamiento estándar —probando si los núcleos “diseñados-como-intérprete” superan a los “diseñados-como-representación”—. Tercero, deltas de pesos estructurados con garantías formales de composicionalidad que vayan más allá de la aritmética aproximada de tareas. Las herramientas existen (Avalanche, hypnettorch, InfLoRA, FrEIA); lo que falta es la síntesis. La pregunta abierta central es si el encuadre Lisp genera predicciones que los marcos existentes —teoría de estabilidad-plasticidad, regularización por información de Fisher, aritmética de tareas en espacio tangente— no generan.