En los últimos dos años, casi todos los debates sobre la IA se han centrado en la potencia informática: GPU insuficientes, capacidad informática insuficiente y clústeres de tamaño insuficiente.Parece como si acumular más potencia informática fuera a resolver todos los problemas.
Pero este informe enfatiza una y otra vez un punto crucial: Lo que realmente frena la IA nunca es la incapacidad de calcular, sino la incapacidad de mover datos de manera eficiente.
Una estadística aclara el problema: La lectura de datos de DRAM consume cientos de veces más energía que la de SRAM.Mientras tanto, la brecha de rendimiento entre los procesadores y la memoria se está ampliando casi un 50% cada año.
Gran parte de la potencia informática que estamos construyendo frenéticamente simplemente está esperando datos. En ese momento me di cuenta de algo sorprendente: Es posible que hayamos estado buscando el cuello de botella equivocado para la IA todo el tiempo.
Si el problema no es la computación en sí, sino la separación entre computación y memoria, entonces la verdadera respuesta puede no ser GPU más potentes. es dejar La propia memoria participa en la informática.. Ésa es la verdadera historia que este informe pretende contar.
El verdadero cuello de botella de la potencia informática de la IA está pasando de la computación a la memoria, y la solución es trasladar la computación a la memoria.
El cálculo de la IA depende en gran medida de operaciones MAC (acumulación múltiple) masivas y requiere un uso extremadamente intensivo de datos. Sin embargo, la arquitectura clásica de von Neumann tiene un defecto fatal:
Conclusión: La IA no deja de calcular: no logra mover datos de manera asequible y lo suficientemente rápida.
La separación de la informática y la memoria obliga a un constante intercambio de datos, lo que provoca dos problemas críticos:
Esto es exactamente lo que el informe denomina Cuello de botella de von Neumann.
Está surgiendo una clara tendencia en la industria: Los chips están evolucionando de dos maneras:
Mientras tanto, ha surgido una dirección revolucionaria: Computación en memoria (IMC).
Su idea central: Realice operaciones lógicas, cálculos aritméticos y multiplicaciones de matrices (el núcleo de la IA) directamente dentro de la memoria.
Cambio fundamental: Memoria = Almacenamiento → Memoria = Compute Engine
El informe describe múltiples rutas de implementación:
1. SRAM / eDRAM (Ruta Tradicional)
Computación en caché, caché neuronal
Ventajas: maduro, alta velocidad.
Límites: área grande, escalabilidad limitada
2. Memoria emergente (dirección principal)
Incluyendo:
MRAM, PCM, ReRAM, FeRAM
Objetivo común: convertir matrices de memoria en motores matriciales de acumulación múltiple con computación in situ y computación analógica (por ejemplo, suma de corriente para multiplicación de vectores).
Esencia: matriz de memoria = acelerador de IA
Pero persisten desafíos reales: precisión y ruido, variación del dispositivo, variación de peso (especialmente en ReRAM) y problemas de retención. El camino es viable pero extremadamente desafiante en ingeniería.
El informe destaca que el hardware por sí solo no es suficiente: los algoritmos también deben evolucionar.
Conclusión clave: La optimización de la eficiencia de la IA requiere un diseño conjunto de arquitectura, dispositivos y algoritmos.
El cuello de botella de la IA está pasando de “no tener suficiente potencia informática” a “incapaz de mover datos lo suficientemente rápido”. La respuesta para los chips de próxima generación no son GPU más potentes, sino Memoria que puede calcular por sí misma..