cpu: e nuove archietture logiche nell’Era dell’IA

La Fine del Monopolio della CPU: Storia e Rivoluzione delle Architetture Logiche nell’Era dell’Intelligenza Artificiale

La fine delle CPU

La transizione dalle architetture general-purpose a acceleratori domain-specific non rappresenta semplicemente ottimizzazione ingegneristica, ma una strategia di accumulo capitalistica. Mentre le CPU commoditizzate permettevano margini limitati e competizione relativamente aperta,gli acceleratori specializzati – attraverso ecosistemi software proprietari, lock-in tecnico e brevetti stratificati – creano barriere all’ingresso che consentono estrazione di rendita superiore.

Il caso NVIDIA è paradigmatico: l’85% di market share non deriva da superiorità tecnica assoluta, ma dall’ecosistema CUDA – un esempio di enclosure digitale dove la conoscenza tecnica accumulata collettivamente (nelle università, nei laboratori pubblici) viene catturata e proprietarizzata attraverso interfacce software.

CPU: Concentrazione Infrastrutturale e Dipendenza Sistemica

La specializzazione accelera la concentrazione verticale del potere computazionale. Mentre l’era CPU vedeva relativa distribuzione (multiple fonderie, ISA aperti come x86 licenziato), l’era degli acceleratori vede consolidamento estremo:

Produzione concentrata (TSMC, Samsung per nodi avanzati)
Design concentrato (NVIDIA, Google, pochi altri)
Ecosistemi software proprietari che creano dipendenze strutturali

Questa concentrazione trasforma il compute da risorsa relativamente distribuibile a infrastruttura critica controllata da oligopoli, con implicazioni geopolitiche che trascendono la pura economia di mercato.

Il collasso del Dennard Scaling e il rallentamento della Legge di Moore non sono semplicemente limiti fisici, ma crisi di valorizzazione nel capitalismo tecnologico. Quando il progresso attraverso miniaturizzazione si arresta, il capitale deve trovare nuove frontiere di accumulazione – da qui la corsa alla specializzazione.

L’Eclissi delle CPU e Paradigma dell’Architettura Stored-Program

L’industria dei semiconduttori sta attraversando una trasformazione epocale che ridefinisce le fondamenta stesse del computing. Dopo oltre mezzo secolo di dominio incontrastato dell’architettura stored-program (impropriamente attribuita a von Neumann) e della CPU come processore universale, assistiamo oggi all’emergere di architetture specializzate che sfidano questo monopolio: GPU (Graphics Processing Units), TPU (Tensor Processing Units), NPU (Neural Processing Units) e LPU (Language Processing Units). Questa rivoluzione non è meramente tecnica, ma rappresenta una risposta strutturale ai limiti fisici e architetturali che hanno vincolato il progresso computazionale negli ultimi decenni – e, come vedremo, un nuovo regime di accumulazione nel capitalismo tecnologico.

Le Fondamenta Teoriche dell’architettura logica delle CPU: Von Neumann, Moore e Dennard

CPU e L’Architettura Stored-Program: Eckert, Mauchly

L’architettura stored-program che domina il computing moderno ha origini complesse e politicamente contestate. Gli inventori effettivi furono J. Presper Eckert e John Mauchly presso la Moore School of Electrical Engineering dell’Università della Pennsylvania, che svilupparono questi concetti durante e dopo il lavoro sull’ENIAC (Electronic Numerical Integrator and Computer), il primo computer digitale al mondo.

Come documentato storicamente: “l’attribuzione dell’invenzione dell’architettura a von Neumann è controversa, non da ultimo perché Eckert e Mauchly avevano fatto molto del lavoro di design richiesto e affermano di aver avuto l’idea per i programmi stored molto prima di discutere le idee con von Neumann.”

John von Neumann, matematico e fisico consulente per il progetto, scrisse nel 1945 il “First Draft of a Report on the EDVAC” – un documento che articolò, chiarificò e diffuse sistematicamente i principi dell’architettura sviluppata da Eckert e Mauchly. Questo documento, circolato ampiamente, consolidò quello che sarebbe impropriamente diventato noto come “architettura von Neumann” – un esempio paradigmatico di come il lavoro intellettuale collettivo venga spesso attribuito a singole figure che occupano posizioni di maggiore prestigio accademico.

L’architettura si basa su componenti distinti: un’unità aritmetica centrale, un’unità di controllo, memoria unificata per dati e istruzioni (il concetto rivoluzionario di “stored-program”), e meccanismi di input/output. È questa memoria unificata – dove programmi e dati risiedono nello stesso spazio di indirizzamento – che costituisce sia il potere che il limite fondamentale del design.

Il Bottleneck delle cpu

Tuttavia, come identificato criticamente da John Backus nella sua ACM Turing Award Lecture del 1977, questa architettura – ironicamente nota come “architettura von Neumann” nonostante l’attribuzione controversa – contiene un difetto strutturale fondamentale: il “von Neumann bottleneck” (il termine stesso riflette l’attribuzione errata ormai consolidata nel linguaggio tecnico). Come Backus osservò:

“Surely there must be a less primitive way of making big changes in the store than by pushing vast numbers of words back and forth through the von Neumann bottleneck. Not only is this tube a literal bottleneck for the data traffic of a problem, but, more importantly, it is an intellectual bottleneck that has kept us tied to word-at-a-time thinking.”

Il bottleneck emerge dalla separazione fisica tra processore e memoria, connessi da un singolo bus condiviso. Questo costringe il sistema a serializzare l’accesso a istruzioni e dati, creando un limite al throughput indipendentemente dalla velocità del processore stesso. Come evidenziato in un report di Bernstein Research (2016): “la velocità dell’architettura è limitata alla velocità con cui la CPU può recuperare istruzioni e dati dalla memoria.”

CPU: La Legge di Moore e il Dennard Scaling

Per oltre cinquant’anni, l’industria ha contrastato questi limiti architetturali attraverso il progresso tecnologico. La Legge di Moore, formulata da Gordon Moore nel 1965, prevedeva il raddoppio del numero di transistor su un chip integrato approssimativamente ogni due anni. Questa legge non era una legge fisica, ma piuttosto un’osservazione empirica che divenne una roadmap autoavverante per l’industria.

Parallelamente, il Dennard Scaling, teorizzato da Robert Dennard nel 1974, stabiliva che al ridursi delle dimensioni dei transistor, la densità di potenza rimaneva costante, permettendo frequenze più elevate e minore consumo energetico. Come documentato da ricercatori IEEE: “Moore’s Law forniva la spinta commerciale per raddoppiare il numero di dispositivi in una cadenza approssimativa di due anni, mentre le leggi di scaling di Dennard fornivano la fisica per farlo.”

Tuttavia, all’inizio degli anni 2000, entrambi questi trend hanno iniziato a degradarsi. Il Dennard Scaling si è interrotto a causa dei problemi di dispersione termica e leakage, risultando in quella che è stata definita la “heat wall” – il muro termico che ha fermato l’aumento delle frequenze di clock intorno al nodo a 65nm. Come osservato nel paper “45-year CPU evolution” di Daniel Etiemble (LRI-CNRS): “La limitazione della frequenza della CPU è correlata al ‘heat wall’. Secondo l’equazione della dissipazione di potenza dinamica CMOS, la dissipazione di potenza è proporzionale alla frequenza di clock.”

L’Evoluzione delle Architetture CPU: Da CISC a RISC

CISC vs RISC

Negli anni ’80, l’architettura dei processori si trovava a un bivio fondamentale. I processori CISC (Complex Instruction Set Computer), rappresentati dall’architettura x86 di Intel e dalla famiglia Motorola 68000, utilizzavano set di istruzioni complessi con l’obiettivo di ridurre il numero di istruzioni necessarie per completare un task.

Tuttavia, David Patterson dell’Università di California, Berkeley, e John Hennessy di Stanford University proposero un approccio radicalmente diverso. Nel 1980, Patterson e il collega David Ditzel pubblicarono “The Case for the Reduced Instruction Set Computer”, mentre Hennessy avviava il progetto MIPS (Microprocessor without Interlocked Pipeline Stages) a Stanford.

L’approccio RISC, come articolato da Patterson e Hennessy, si basava su principi controintuitivi:

Set di istruzioni ridotto e semplificato
Istruzioni di lunghezza fissa
Architettura load/store con operazioni registro-registro
Pipelining profondo per aumentare il throughput

ì Nel 1982, il team di Patterson a Berkeley costruì e dimostrò il processore RISC-I, che con 44.000 transistor superava un design CISC convenzionale che utilizzava 100.000 transistor. Come osservato nella documentazione ACM: “nonostante lo scetticismo iniziale di molti architetti di computer, il successo degli sforzi imprenditoriali MIPS e SPARC, i costi di produzione inferiori dei design RISC, nonché ulteriori progressi nella ricerca, portarono a una più ampia accettazione del RISC.”

Patterson e Hennessy codificarono le loro intuizioni condivise nel libro fondamentale “Computer Architecture: A Quantitative Approach” (1990), ora alla settima edizione, che ha influenzato generazioni di ingegneri introducendo un framework quantitativo e sistematico per la valutazione delle architetture integrate. Per questo lavoro, i due ricercatori hanno ricevuto il ACM A.M. Turing Award 2017, il “Premio Nobel dell’informatica”.

Come sottolineato da Bill Gates nell’annuncio del premio: “i contributi di Patterson e Hennessy si sono rivelati fondamentali per le basi stesse su cui è fiorita un’intera industria.”

Il Dominio dei processori x86 e il Duopolio CPU Intel-AMD

Nonostante il successo tecnico del RISC, l’architettura x86 di Intel ha mantenuto il dominio del mercato desktop e server grazie a fattori non puramente tecnici: compatibilità software, effetti di rete, e barriere all’ingresso create da brevetti e complessità di implementazione. Come documentato da Yatharth Sood in un’analisi del 2020: “questo mercato dinamico prodotto da strategia e circostanza ha portato alla creazione di uno spazio meno innovativo.”

L’architettura x86 rappresenta un duopolio tra Intel e AMD, con barriere significative all’ingresso. Come evidenziato dall’analisi: “abbiamo competizione limitatadall’entrare in questo spazio a causa degli investimenti che sarebbero richiesti e tecnologia proprietaria che può essere utilizzata solo sotto licenza.”

Internamente, anche i processori x86 moderni traducono le istruzioni CISC in micro-operazioni simili a RISC, riconoscendo implicitamente la superiorità dell’approccio. Questa trasformazione ibrida aggiunge ulteriore complessità e overhead energetico.

CPU: La Transizione Multi-Core e l’Avvento del Parallelismo

CPU: Dal Free Lunch al Dark Silicon

Come documentato da Antonio González in “Trends in Processor Architecture” (IEEE), fino alla metà degli anni 2000, l’industria ha goduto di quello che è stato definito il “free lunch” dello scaling dei monoprocessori: “per la maggior parte delle applicazioni, il modo migliore e più economico per aumentare le prestazioni era aspettare la prossima generazione di processori.”

Tuttavia, il collasso del Dennard Scaling e l’arresto della crescita delle frequenze hanno forzato una transizione verso architetture multi-core. Come osservato da Yale Patt, ricercatore dell’Università del Texas: “abbiamo già visto la fine del Dennard Scaling e la sua influenza sul design dei microprocessori.”

Questa transizione ha introdotto nuove complessità: mentre il numero di core aumentava, emergeva il fenomeno del “dark silicon” – porzioni del chip che devono rimanere inattive per vincoli termici. Come evidenziato in ricerche UCSD: “con il continuo scaling delle dimensioni delle feature, una frazione crescente del die deve essere ‘sottoutilizzata’ o ‘dark’ a causa dei vincoli di potenza.”

L’Era delle GPU: NVIDIA e la Rivoluzione CUDA

Dalle Graphics all’AI: L’Evoluzione della GPU

Le Graphics Processing Units nacquero come acceleratori specializzati per il rendering grafico. Tuttavia, la loro architettura massivamente parallela – con migliaia di core semplici ottimizzati per operazioni matematiche su vettori – le rendeva idealmente adatte per carichi di lavoro ben oltre la grafica.

Il momento di svolta arrivò nel 2006, quando NVIDIA introdusse CUDA (Compute Unified Device Architecture), una piattaforma che estendeva il ruolo delle GPU dal rendering grafico al computing general-purpose. Come documentato: “NVIDIA riconobbe la necessità di un modello di programmazione più semplice per il computing general-purpose su GPU e lanciò CUDA nel 2006.”

CUDA rappresentava un cambio di paradigma fondamentale: permetteva agli sviluppatori di programmare le GPU utilizzando linguaggi familiari come C, C++ e Fortran, abbassando significativamente la barriera d’ingresso. Come evidenziato dal CEO di NVIDIA Jensen Huang: “il mondo ha un enorme investimento in software non-AI. CUDA-X e molte librerie e framework open-source sono dove avviene molta della magia.”

L’Architettura Tesla e i Tensor Cores

L’architettura Tesla di NVIDIA (2006) introdusse il modello unified shader, permettendo a tutti i core della GPU di eseguire computazioni general-purpose in modo efficiente. La prima GPU a supportare CUDA fu la GeForce 8800 GTX, con 128 unified shader che fornivano potenza di computing parallelo senza precedenti.

L’evoluzione successiva fu cruciale per l’AI. Nel 2017, NVIDIA presentò l’architettura Volta e i Tesla V100, che rappresentavano “un cambiamento sismico nel GPU computing con l’introduzione delle prime GPU AI dedicate per datacenter HPC.” I Tensor Cores, introdotti con Volta, erano unità hardware specializzate progettate per accelerare operazioni tensoriali a precisione mista, cruciali per il deep learning.

Come documentato: “il flagship Tesla V100 GPU forniva fino a 125 teraFLOPS di performance di deep learning, segnando un passo rivoluzionario nell’evoluzione dell’hardware AI.” I Tensor Cores permettevano training a precisione mista con calcoli FP16 mantenendo l’accuratezza FP32, consentendo velocità di training senza precedenti.

Il Monopolio CUDA: Ecosistema come Barriera

Il vero potere di NVIDIA non risiede solo nell’hardware, ma nell’ecosistema software costruito intorno a CUDA. Come analizzato da Aidan Pak: “la radice del monopolio GPU di NVIDIA deriva dalla sua piattaforma di computing parallelo, CUDA, che permette alle GPU NVIDIA di raggiungere tassi di utilizzo compute più elevati rispetto alle architetture competitive.”

NVIDIA ha sviluppato librerie specializzate essenziali:

cuDNN per deep learning
cuBLAS per algebra lineare di base
TensorRT per ottimizzazione dell’inferenza

Questo ecosistema crea un lock-in effettivo: la maggior parte degli ingegneri AI impara CUDA all’università, e il passaggio a piattaforme alternative richiede la riscrittura di intere codebase. Al 2024, NVIDIA detiene oltre l’85% del mercato dei chip AI per datacenter, con margini lordi “a livello software” che dimostrano il potere dell’ecosistema proprietario – un esempio perfetto di rendita tecnologica dove il controllo dell’interfaccia genera più valore della produzione hardware stessa.

Il Bottleneck della Memoria nelle GPU

Nonostante la potenza computazionale, le GPU affrontano limiti significativi legati alla gerarchia di memoria. Come evidenziato nella ricerca: “GPUs generalmente usano pipeline GPGPU esistenti come CUDA e OpenCL adattate per precisioni inferiori.” Il trasferimento dati tra DRAM/HBM (High Bandwidth Memory) e unità di calcolo introduce centinaia di nanosecondi di latenza per accesso, diventando un bottleneck critico per workload di inferenza con bassa intensità aritmetica.

La transizione da GDDR a HBM a HBM3e ha portato la bandwidth a livelli di TB/s, ma il problema fondamentale della separazione memoria-compute persiste, radicato nell’architettura von Neumann sottostante.

Machine learning e infrastruttura computazionale: dalla CPU agli acceleratori (GPU, TPU, NPU, LPU) tra potere, lock-in e geopolitica del silicio. — Il machine learning non è “solo software”: è la pressione materiale che ridisegna architetture, supply chain e gerarchie di potere.

Google TPU: La Rivoluzione Systolic Array

CPU: La Crisi Computazionale del 2013

Nel 2013, Google si trovò di fronte a una crisi esistenziale computazionale. Se ogni richiesta di ricerca iniziasse a utilizzare reti neurali profonde per tre minuti di riconoscimento vocale, i datacenter Google avrebbero dovuto raddoppiare. Come ricordato dal team: “Google realizzò che le richieste computazionali in rapida crescita delle reti neurali avrebbero potuto richiedere il raddoppio del numero di datacenter che gestisce.”

Questa urgenza portò a una decisione straordinaria per un’azienda software: progettare silicio custom. L’obiettivo: creare un ASIC (Application-Specific Integrated Circuit) progettato per un solo compito – eseguire reti neurali TensorFlow.

Il progetto procedette con velocità straordinaria: dalle prime discussioni alla fine del 2013 alle prime TPU distribuite nei datacenter all’inizio del 2015 – solo 15 mesi, un ciclo drammaticamente più breve rispetto ai 3-5 anni standard per chip di produzione. Questa velocità fu possibile proprio perché il design era radicalmente focalizzato: inferenza neurale e nient’altro.

Architettura Systolic Array

Il segreto delle prestazioni della TPU risiede nell’architettura systolic array, un concetto originariamente delineato da H.T. Kung e Charles E. Leiserson nel loro paper del 1978 “Systolic Arrays (for VLSI)”. Come descritto nel paper: “In un sistema systolic, la funzione di un processore è analoga a quella del cuore. Ogni processore pompa regolarmente dati in entrata e in uscita, ogni volta eseguendo alcuni calcoli brevi in modo che un flusso regolare di dati sia mantenuto nella rete.”

A differenza delle CPU e GPU che devono continuamente spostare dati avanti e indietro tra memoria e unità di calcolo, nell’array systolic della TPU i dati fluiscono attraverso il chip come sangue attraverso un cuore. Come spiegato: “in un TPU’s systolic array, i dati fluiscono attraverso il chip. Ogni pezzo di dati viene utilizzato da più celle di calcolo mentre passa attraverso, minimizzando drasticamente gli accessi alla memoria.”

Performance e Architettura CISC per AI

La TPU v1 utilizzava un approccio controintuitivo: un instruction set CISC specializzato per inferenza neurale. Come spiegato: “processori RISC tipici forniscono istruzioni per calcoli semplici come moltiplicare o sommare numeri. La TPU è più simile a processori CISC, che hanno istruzioni più complesse e variegate.”

I risultati furono straordinari. Come riportato da Google: “la TPU forniva performance 15-30X superiori e 30-80X superiore performance-per-watt rispetto a CPU e GPU contemporanee.” Questi vantaggi hanno permesso a molti servizi di Google di eseguire reti neurali state-of-the-art su scala e a costi accessibili.

Evoluzione: Da v1 a Trillium e Ironwood

La TPU v1 era limitata all’inferenza. La TPU v2 (2017) introdusse capacità di training con supporto per operazioni floating-point, memoria HBM ad alta bandwidth (600 GB/s), e NVLink 2.0 per comunicazione multi-GPU. Google dichiarò che i TPU v2 erano disposti in moduli a quattro chip con performance di 180 teraFLOPS, assemblandoli poi in pod da 256 chip con performance di 11,5 petaFLOPS.

Le generazioni successive hanno visto miglioramenti esponenziali:

TPU v4: Introduzione di SparseCores per operazioni sparse
TPU v5e: Fino a 393 trilioni di operazioni int8 al secondo per chip
Trillium (TPU v6): Efficienza energetica migliorata del 67% rispetto a v5e
Ironwood (TPU v7): Primo TPU con supporto nativo FP8, 4,6 petaFLOPS di compute denso FP8 per chip, 192GB di memoria HBM3e con bandwidth di 7,4 TB/s

Come documentato nel dettaglio tecnico: “ogni chip Ironwood fornisce 4,6 petaFLOPS di compute denso FP8 – superando leggermente il B200 di NVIDIA a 4,5 petaFLOPS.”

Il Problema dell’Ecosistema

Nonostante le performance superiori, le TPU affrontano una sfida critica: l’ecosistema. Come analizzato: “il principale problema per l’adozione delle TPU è l’ecosistema. Il CUDA di Nvidia è inciso nelle menti della maggior parte degli ingegneri AI. Google ha sviluppato il suo ecosistema internamente ma non esternamente, poiché ha utilizzato le TPU solo per i suoi workload interni fino a tempi recenti.”

Le TPU utilizzano una combinazione di JAX e TensorFlow, mentre l’industria si orienta verso CUDA e PyTorch. Questa frammentazione limita l’adozione esterna, confinando le TPU principalmente ai servizi interni di Google e ad alcuni early adopters sulla Google Cloud Platform.

Neural Processing Units (NPU): L’AI al Edge

Definizione e Architettura delle NPU

Le Neural Processing Units (NPU), note anche come AI accelerator o deep learning processor, sono acceleratori hardware specializzati progettati per accelerare applicazioni di intelligenza artificiale e machine learning, incluse reti neurali artificiali e computer vision. Come definito da IBM: “una NPU è un microprocessore computer specializzato progettato per imitare la funzione di elaborazione del cervello umano.”

A differenza di CPU general-purpose o GPU ottimizzate per parallelismo grafico, le NPU sono progettate specificamente per operazioni neurali: calcoli scalari, vettoriali e tensoriali che costituiscono i layer delle reti neurali. Come documentato: “le NPU utilizzano un’architettura informatica progettata per simulare i neuroni del cervello umano per fornire alta efficienza e alte prestazioni.”

L’architettura tipica di una NPU, come evidenziato nella letteratura accademica di ScienceDirect, consiste in:

Array massiccio di Processing Elements (PE) per operazioni parallele
Gerarchia di memoria strutturata
Supporto per precision ridotte (INT8, FP16) ottimizzate per inferenza
Tecniche di data-reuse e computation skipping

Come osservato: “poiché i DNN richiedono grandi quantità di dati sia per training che inferenza, la bandwidth di memoria diventa cruciale nei design NPU. La maggior parte delle NPU utilizza tecniche di data-reuse e skipping di computazioni inutili per risolvere la large bandwidth di memoria off-/on-chip.”

NPU nei Consumer Devices

A differenza di GPU e TPU che dominano i datacenter, le NPU hanno trovato la loro nicchia primaria nei dispositivi consumer e edge: smartphones, laptop, dispositivi IoT. Come documentato da Synopsys nella loro panoramica evolutiva: “i primi acceleratori di reti neurali iniziarono ad apparire nel 2014 circa quando VGG16, un modello di rete neurale che migliorava AlexNet, era un’architettura CNN ampiamente utilizzata per task di classificazione visiva.”

Samsung Electronics lanciò il processore applicativo mobile premium Exynos 9 (9820) con NPU integrata, vantando circa 7 volte la potenza computazionale del modello precedente. Come evidenziato: “mentre le operazioni AI venivano precedentemente effettuate tramite connessione server, l’Exynos 9 (9820) permette che le operazioni AI avvengano all’interno di un dispositivo mobile per maggiore sicurezza.”

Intel ha integrato NPU nei processori Core Ultra, caratterizzati da Neural Compute Engines con blocchi di accelerazione hardware per operazioni AI come Matrix Multiplication e Convolution. La loro architettura scalabile multi-tile permette fino a 4.000 MAC (Multiply-Accumulate) totali con 4MB di memoria near-compute.

Apple ha integrato il Neural Engine nei chip della serie M e nei processori iPhone, permettendo elaborazione AI on-device con estrema efficienza energetica. Come osservato: “le NPU sono utilizzate in dispositivi mobili come Apple iPhone, motori AI AMD in Versal, Huawei e Google Pixel smartphones.”

Evoluzione delle Architetture NPU

Come documentato da Synopsys nell’evoluzione delle NPU: “i progressi multipli nelle architetture CNN negli ultimi otto anni hanno migliorato performance, efficienza, accuratezza e bandwidth ma al costo di complessità hardware aggiuntiva. L’hardware progettato per massimizzare AlexNet, VGG16 o altri modelli ImageNet vincenti precoci, sarebbe inadeguato oggi per eseguire efficientemente i modelli di reti neurali più recenti.”

Le NPU moderne devono supportare:

Convolutional Neural Networks (CNN) per computer vision
Transformer Networks per natural language processing
Recurrent Neural Networks (RNN) per dati sequenziali
Depthwise separable convolutions introdotte da MobileNet
Funzioni di attivazione multiple (ReLU, GELU, Swish, etc.)

Come evidenziato: “la rete neurale transformer è un nuovo tipo di architettura di deep learning che originariamente ha guadagnato trazione con la sua capacità di implementare natural language processing. A differenza delle RNN, che processano i dati serialmente e quindi soffrono di limiti di bandwidth nell’hardware, i transformer permettono maggiore parallelismo.”

Performance e Confronto

Test hanno mostrato che alcune performance NPU possono essere oltre 100 volte migliori di GPU comparabili con lo stesso consumo energetico, grazie all’ottimizzazione domain-specific. Come osservato da IBM: “capace di migliorare operazioni generali (ma più adatta per certi tipi di task generali), quando combinata con CPU e GPU, le NPU offrono diversi vantaggi preziosi rispetto ai sistemi tradizionali.”

La sfida rimane il bilanciamento tra specializzazione e flessibilità: “la sfida per una NPU è essere ottimizzata per accelerare le reti neurali math-intensive, area-efficient e tuttavia programmabile abbastanza per essere future-proof quando una nuova tecnica o algoritmo di rete neurale viene pubblicato.”

Language Processing Units (LPU): Groq e l’Architettura Deterministica

Genesi: Jonathan Ross e il Post-TPU

La storia delle Language Processing Units (LPU) inizia con Jonathan Ross, uno degli architetti originali del Google TPU. Nel 2016, Ross lasciò Google per fondare Groq, portando con sé l’esperienza acquisita nel design di acceleratori AI ma con una visione radicalmente diversa.

Come documentato: “Groq è stata fondata nel 2016 da un gruppo di ex-ingegneri Google, guidati da Jonathan Ross, uno dei designer della Tensor Processing Unit (TPU), e Douglas Wightman, imprenditore ed ex-ingegnere di Google X.”

L’insight fondamentale di Ross era che training e inferenza rappresentano workload profondamente diversi con requisiti architetturali divergenti. Come analizzato in dettagli: “il carico di lavoro computazionale di un modello AI cambia drasticamente a seconda che stia imparando (training) o pensando (inferenza). Il training di un modello è un task ad alta bandwidth, parallelo. L’inferenza, invece, è sequenziale: non puoi predire la parola n+1 se non hai la parola n.”

Il Problema del Von Neumann Bottleneck nell’Inferenza LLM

I Large Language Models operano in modo fondamentalmente sequenziale durante l’inferenza: generano token uno alla volta in un processo autoregressivo. Come spiegato: “nei LLM, il processing non è parallelo ma seriale: non puoi predire la parola numero n+1 se non hai la parola numero n. Ecco perché unità parallele come le GPU non sono le unità più performanti con i LLM.”

Le GPU, originariamente progettate per rendering grafico con operazioni parallele indipendenti, soffrono di inefficienze strutturali nell’inferenza sequenziale. Quando un modello genera testo token-by-token, la GPU deve continuamente:

Recuperare pesi dalla DRAM/HBM (centinaia di nanosecondi di latenza)
Caricare i pesi nelle unità di calcolo
Eseguire la computazione
Ripetere per ogni layer, per ogni token

Come evidenziato criticamente: “sia DRAM che HBM introducono latenza significativa su ogni fetch di peso – centinaia di nanosecondi per accesso. Questo funziona per training ad alto batch dove la località temporale è prevedibile e l’intensità aritmetica è alta, ma l’inferenza presenta esecuzione layer sequenziale con intensità aritmetica molto più bassa, esponendo la penalità di latenza incorsa da DRAM e HBM.”

Architettura Tensor Streaming Processor (TSP)

La risposta di Groq è il Tensor Streaming Processor (TSP), poi rebrandizzato come LPU, basato su quattro principi rivoluzionari:

1. Software-First: Invertire il Paradigma

A differenza dei processori tradizionali dove il compilatore è subalterno all’hardware, Groq ha invertito il rapporto. L’LPU è deliberatamente “stupido”: niente branch predictor, niente cache controller, niente esecuzione out-of-order. È un array massiccio di unità aritmetiche che fa esattamente ciò che viene detto, quando viene detto. Il compilatore assume controllo totale dell’esecuzione.

2. SRAM al Centro: Eliminare la Latenza Memoria

Invece di DRAM o HBM, l’LPU integra centinaia di megabyte di SRAM on-chip come storage primario dei pesi. Risultato: latenza di accesso drasticamente ridotta. Leggere dalla DRAM consuma circa 200× più energia di una operazione multiply-accumulate – eliminare questi accessi cambia radicalmente l’efficienza.

3. Determinismo: Schedualazione Statica Totale

L’LPU elimina tutte le fonti di non-determinismo (interrupt, cache miss, context switch). Il compilatore può schedulare staticamente ogni istruzione e predire esattamente quando i dati arriveranno. Questo permette ottimizzazioni impossibili con architetture tradizionali.

4. Architettura Assembly Line Programmabile

L’LPU usa “conveyor belt” di dati che muovono istruzioni tra unità funzionali. Ogni unità riceve istruzioni che specificano dove prendere input, quale funzione eseguire, dove mettere output – tutto software-controlled, senza sincronizzazione hardware.

Performance: Oltre i 1.600 Token al Secondo

I risultati sono straordinari. Groq ha dimostrato generazione testo superiore a 1.600 token al secondo – ordini di granditudine più veloce delle implementazioni GPU standard. Demo pubbliche hanno mostrato modelli rispondere con blocchi istantanei di testo, generati più velocemente di quanto l’occhio umano possa leggere – niente più “stuttering” tipico di ChatGPT.

Per modelli massivi come Kimi K2 (trilione di parametri), l’architettura LPU permette generazione token in real-time grazie al tensor parallelism ottimizzato. L’LPU Inference Engine può auto-compilare LLM oltre 50 miliardi di parametri con latenza near-instant.

Il segreto: utilizzo quasi 100% della capacità di compute, contro i tassi spesso bassi delle GPU durante inferenza. La metrica critica non è “costo per chip” ma “costo per token generato” – e qui l’efficienza energetica dell’LPU cambia l’economia dell’inferenza AI.

Plesiosynchronous Multi-Chip Architecture

Per scaling oltre un singolo chip, Groq utilizza un protocollo plesiosincrono chip-to-chip che cancella il natural clock drift e allinea centinaia di LPU ad agire come un singolo core. Come spiegato: “il compilatore SW può quindi predire esattamente quando i dati arriveranno, quindi gli sviluppatori possono ragionare sul timing. Sync software periodico si aggiusta per il drift basato su cristallo, permettendo non solo scheduling del compute ma anche scheduling della rete.”

Un nodo è formato da 8 dispositivi TSP racchiusi in uno chassis, con ogni dispositivo che ha 11 pin: 7 pin connettono ogni TSP agli altri 7 TSP nel nodo, mentre i rimanenti 4 pin formano un global link. I 32 global link totali formano insieme un router virtuale high-radix a 32 porte.

Trade-offs e Limiti

L’architettura LPU comporta compromessi significativi:

Alto costo iniziale: Serve centinaia di chip per un singolo modello large, con CapEx iniziale elevato rispetto a server GPU tradizionali
Specializzazione estrema: Eccelle per inferenza sequenziale ma fatica con pattern computazionali dinamici, esecuzione condizionale, matrici sparse
Ecosistema limitato: Come TPU, affronta sfide di adozione fuori dall’ecosistema proprietario

Tuttavia, l’efficienza per token generato – la metrica che conta per provider di inferenza – è drammaticamente superiore. L’energia consumata per token è significativamente inferiore grazie all’utilizzo quasi totale della capacità compute.

L’Acquisizione NVIDIA (2025)

In dicembre 2025, NVIDIA ha annunciato un accordo per acquisire asset da Groq per circa $20 miliardi – un record per NVIDIA. Come documentato: “Groq ha descritto questo come un accordo di licenza non esclusivo. Come parte dell’accordo, il fondatore di Groq Ross e il presidente Groq Sunny Madra si uniranno a NVIDIA.”

Questa acquisizione segnala un riconoscimento profondo: che il determinismo è il destino per la velocità AI futura, e che la potenza bruta è priva di significato senza la velocità e l’architettura deterministica che Groq ha pioneered per usarla efficacemente.

Analisi Critica: Economia Politica delle Architetture Specializzate

Concentrazione di Potere e Lock-In Tecnologico

La rivoluzione delle architetture specializzate non è processo neutrale guidato esclusivamente dall’innovazione tecnica, ma campo di battaglia per il controllo dell’infrastruttura computazionale. La transizione da CPU general-purpose a acceleratori domain-specific ha paradossalmente aumentato la concentrazione di potere industriale.

NVIDIA detiene oltre l’85% del mercato datacenter AI non attraverso superiorità tecnica assoluta, ma attraverso l’ecosistema CUDA – esempio paradigmatico di lock-in proprietario. Migrare da CUDA richiede riscrittura massiccia di codebase, retraining di personale, rinuncia a decenni di ottimizzazioni. Google, pur possedendo tecnologia TPU tecnicamente superiore in molti benchmark, non può scalzare questo monopolio proprio a causa dell’inerzia ecosistemica.

La specializzazione trasforma il compute AI da commodity generale a servizio differenziato con pricing power significativo. I margini lordi “a livello software” di NVIDIA dimostrano come l’hardware specializzato permetta estrazione di rendita superiore. Questa dinamica crea dipendenza infrastrutturale: le aziende che costruiscono servizi AI dipendono da pochi fornitori di acceleratori, creando barriere all’ingresso che favoriscono hyperscaler e incumbent.

Open Source: Resistenza Necessaria ma Insufficiente?

Progetti come RISC-V rappresentano tentativi critici di costruire “commons tecnologici” contro la proprietarizzazione. Ma la dialettica è complessa: un ISA aperto è condizione necessaria ma non sufficiente quando ecosistema software e capacità produttiva rimangono concentrati.

SPARC fu open-sourced ma fallì; RISC-V guadagna trazione principalmente per embedded/IoT, non per i lucrativi mercati datacenter AI. L’apertura a livello architetturale non garantisce democratizzazione quando gli strati superiori dello stack rimangono proprietari – compilatori ottimizzati, librerie, tool chain richiedono investimenti che solo pochi attori possono sostenere.

Sostenibilità Energetica: Dal Dennard al Dark Silicon

La transizione verso acceleratori fu parzialmente motivata da vincoli energetici reali – il collasso del Dennard Scaling rese insostenibile il continuo scaling della frequenza CPU. Tuttavia, gli acceleratori AI moderni consumano centinaia di watt per chip (TPU v7: 600W, NVIDIA H100: 700W), creando nuove sfide di cooling e sostenibilità.

Il dark silicon – porzioni crescenti del die che devono rimanere inattive per vincoli termici – rappresenta un limite fisico fondamentale che nemmeno la specializzazione può superare a lungo termine. La concentrazione di compute in datacenter hyperscale centralizzati aggrava l’impatto ambientale, nonostante le efficiency gains per operazione.

Geopolitica: Semiconduttori come Arma Strategica

La specializzazione ha intensificato la dimensione geopolitica dei semiconduttori. I controlli all’esportazione USA su GPU avanzate NVIDIA verso la Cina dimostrano come acceleratori AI siano ora asset strategici, non meramente commerciali.

La capacità di training di modelli AI avanzati richiede accesso a cluster di migliaia di acceleratori, creando dipendenze geopolitiche che trascendono le supply chain tradizionali. La concentrazione della produzione avanzata in TSMC (Taiwan) per GPU/TPU cutting-edge e Samsung per NPU crea single points of failure geopolitici che governi cercano di mitigare attraverso reshoring e subsidi industriali – ma la complessità tecnologica rende la concentrazione quasi inevitabile.

Il Paradosso della Specializzazione e la Crisi della Generalità delle CPU

La rivoluzione delle architetture specializzate presenta un paradosso fondamentale che riflette contraddizioni più profonde nel capitalismo tecnologico: la specializzazione aumenta l’efficienza per workload target ma riduce la flessibilità, aumenta la frammentazione, e soprattutto concentra il controllo infrastrutturale.

Come osservato da ricercatori: “per general purpose computing, non c’è davvero nulla di più potente dell’architettura von Neumann [stored-program].” Ma questa generalità – che storicamente ha permesso relativa democratizzazione dell’innovazione software – diventa economicamente insostenibile nell’era post-Dennard. Il capitale tecnologico deve trovare nuove frontiere di valorizzazione quando il puro scaling miniaturizzato si arresta.

Ritornare al Framework: Tre Dinamiche Conclusive

1. Dalla Commoditizzazione alla Rentierizzazione

La transizione CPU → Acceleratori specializzati inverte la traiettoria storica di commoditizzazione dei semiconduttori. Mentre i processori x86, pur in regime di duopolio, vedevano margini compressi dalla relativa intercambiabilità, gli acceleratori AI permettono margini “a livello software” (NVIDIA) attraverso lock-in ecosistemico.

Questo rappresenta una nuova fase di accumulazione dove il valore non deriva primariamente dalla produzione hardware, ma dal controllo degli strati software (CUDA, TensorFlow, JAX) che mediano l’accesso all’hardware. È una forma di rendita tecnologica: chi controlla l’interfaccia controlla il flusso di valore, indipendentemente dalla superiorità tecnica assoluta.

2. Concentrazione come Necessità Sistemica

La complessità crescente dello stack tecnologico – dalla progettazione chip alle fonderie avanzate (EUV lithography) agli ecosistemi software – rende la concentrazione non meramente un outcome di mercato ma una necessità sistemica. Solo pochi attori possono sostenere gli investimenti multimiliardari richiesti.

Questa concentrazione crea:

Dipendenze infrastrutturali critiche: interi settori economici dipendono da fornitori singoli (TSMC per produzione avanzata, NVIDIA per training AI)
Asimmetrie geopolitiche: il controllo dei semiconduttori avanzati diventa leva di potere statuale (controlli esportazione USA → Cina)
Barriere insuperabili per innovazione distribuita o dal basso

3. La Dialettica Open Source: Resistenza Insufficiente?

Progetti come RISC-V rappresentano tentativi critici di costruire “commons tecnologici” che resistano alla proprietarizzazione. Ma la dialettica è complessa: un ISA aperto è condizione necessaria ma non sufficiente quando l’ecosistema software (compilatori ottimizzati, librerie, tool chain) e la capacità produttiva rimangono concentrati.

Come abbiamo visto, SPARC fu open-source ma fallì; RISC-V guadagna trazione ma principalmente per embedded/IoT, non per i lucrativi mercati datacenter AI. L’apertura a livello architetturale non garantisce democratizzazione quando gli strati superiori dello stack rimangono proprietari.

Eterogeneità e Oltre l’architettura logica CPU di Von Neumann

Assistiamo all’emergere di sistemi eterogenei che combinano CPU, GPU, TPU/NPU, e potenzialmente LPU. Come documentato da imec: “mettere gerarchie di memoria complesse, architetture multicore e acceleratori compute domain-specific (xPU) su un singolo system-on-chip è diventato un modo per superare i muri di scaling.”

Questa eterogeneità introduce complessità di orchestrazione, memory coherence, e programmazione che potrebbero limitare i guadagni teorici. Approcci più radicali come analog in-memory computing (IBM phase-change memory, Mythic AI) tentano di superare il bottleneck von Neumann integrando memoria e computazione – ma affrontano sfide di maturità tecnologica e precision limitata.

Il Ruolo dell’Open Source e Standard Aperti

RISC-V e progetti come OpenCAPI per memory coherence rappresentano sforzi critici per democratizzare l’innovazione architetturale e ridurre il lock-in proprietario. Come evidenziato: “RISC-V dall’Università di California, Berkeley è la quinta versione della famiglia di architetture CPU Berkeley RISC ed è attualmente generando grande attenzione. È generalmente accettato che questo interesse sia dovuto al fatto che l’instruction set architecture (ISA) di RISC-V è Open Source, permettendo il suo uso senza restrizioni.”

Tuttavia, la storia dimostra che standard aperti non garantiscono automaticamente successo di mercato – richiedono ecosistemi software maturi, tool chain completi, e massa critica di adozione industriale.

L’emergere di architetture domain-specific per AI solleva la questione: vedremo specializzazioni analoghe per altri domini computazionali? Database processing units? Blockchain accelerators? Quantum-classical hybrid processors?

Come osservato criticamente da Yale Patt: “non c’è vuoto quando si tratta di hype dei microprocessori. Dark silicon, quantum computer, approximate computing si sono tutti precipitati a riempire il vuoto.”

La sfida fondamentale rimane: bilanciare specializzazione per efficiency con flessibilità per evolvibilità. Come articolato da ricercatori: “la sfida per una NPU è essere ottimizzata per accelerare le reti neurali math-intensive, area-efficient e tuttavia programmabile abbastanza per essere future-proof quando una nuova tecnica o algoritmo di rete neurale viene pubblicato.”

Non solo CPU Una Nuova Divisione del Lavoro Computazionale

Ciò che emerge è una divisione del lavoro computazionale sempre più sofisticata:

CPU: Control flow, orchestrazione, carichi irregolari
GPU: Training AI, compute-intensive parallelism, grafica
TPU: Training large-scale, operazioni tensoriali dense
NPU: Inferenza edge, efficienza energetica estrema
LPU: Inferenza ultra-bassa latenza, generation sequenziale

Questa divisione riflette il riconoscimento che “one size fits all” è diventato economicamente insostenibile nell’era post-Dennard. Come evidenziato: “l’approccio tradizionale non è la scelta migliore per alcune applicazioni perché non affronta bottleneck chiave che esistono in questi workload.”

La questione aperta è se questa frammentazione architetturale creerà un ecosistema più ricco e innovativo, o se consoliderà ulteriormente il potere nelle mani di pochi incumbent capaci di mantenere ecosistemi attraverso multiple architetture specializzate.

strutture di potere incorporate nelle architetture computazionali:

Mappatura del controllo proprietario: Analisi sistematica di brevetti, licenze, e dipendenze ecosistemiche negli acceleratori AI
Economie politiche alternative: Studio di casi come RISC-V, progetti open hardware, iniziative di “sovereign compute”
Sostenibilità materiale: Valutazione lifecycle completa (estrazione materiali → consumo energetico → rifiuti elettronici) delle architetture specializzate
Governance democratica: Proposte per regolazione di infrastrutture computazionali critiche come public utilities

Il Campo di Battaglia dell’Infrastruttura Cognitiva

La rivoluzione delle architetture non è inevitabile progresso tecnico, ma campo di battaglia dove si decide chi controllerà l’infrastruttura cognitiva del XXI secolo. L’apparente “neutralità” delle scelte architetturali nasconde scelte politiche profonde: chi può innovare, chi dipende da chi, quali futures computazionali sono possibili.

La concentrazione estrema che abbiamo documentato – NVIDIA 85% mercato datacenter AI, produzione avanzata in due fonderie, ecosistemi proprietari che catturano decenni di ricerca pubblica – non è inevitabile. È il risultato di scelte: scelte di policy (brevetti, acquisizioni non bloccate), scelte di investimento (pubblico in ricerca di base, privato in proprietarizzazione), scelte architetturali (standard aperti vs closed).

Come abbiamo visto attraverso Eckert e Mauchly – i veri inventori dell’architettura stored-program che persero il credito a favore di von Neumann – la storia della tecnologia è anche storia di appropriazione del lavoro intellettuale collettivo. L’architettura che oggi chiamiamo “von Neumann” fu sviluppata da team, diffusa attraverso documenti, implementata in progetti universitari finanziati pubblicamente. Ma fu privatizzata attraverso brevetti, ecosistemi proprietari, e concentrazione produttiva.

Questa dinamica si ripete oggi con acceleratori AI costruiti su decenni di ricerca pubblica in neural networks, linear algebra, e computer architecture – ma catturati attraverso CUDA, TPU proprietarie, barriere ecosistemiche che escludono innovazione dal basso.

Decodificare queste dinamiche è prerequisito per resistere e, possibilmente, reclamare spazi di autonomia tecnologica. La tecnologia non è neutrale. Le architetture incorporano scelte politiche. Il nostro compito è renderle visibili – e contestabili.

Decode. Resist. Reclaim.

Leggi l’altro

Fonti (link esterni)

Keyword SEO: machine learning