DeepSeek: il modello di intelligenza artificiale che ha sorpreso il mondo

DeepSeek è il nome che sta facendo tremare il settore dell’intelligenza artificiale. Si tratta di un’azienda cinese, fondata nel 2023, che ha messo a segno risultati talmente sorprendenti da scatenare reazioni a catena nei mercati finanziari americani, suscitare l’attenzione di big del calibro di Meta, OpenAI e persino di alcuni politici di primo piano negli Stati Uniti. La sua straordinaria ascesa ha fatto notizia per diversi motivi: non solo la tecnologia di DeepSeek è riuscita a superare in performance i modelli più affermati come ChatGPT, ma lo ha fatto con costi e risorse computazionali apparentemente molto inferiori rispetto alla concorrenza.
In poco tempo, DeepSeek è diventata il tema principale di discussione sia in Cina che in Occidente, trasformandosi in un simbolo di come l’innovazione tecnologica possa fiorire anche in contesti dove vigono forti restrizioni di esportazione di hardware. Ma in che modo un’azienda così giovane ha potuto raggiungere risultati tanto eccezionali? E perché le sue implicazioni sono così rilevanti per il futuro dell’AI a livello globale?
Ascesa di DeepSeek
DeepSeek nasce nella città cinese di Zhejiang, frutto di un percorso intrapreso da un gruppo di ingegneri e ricercatori legati a un fondo di investimento chiamato HighFlyer. Il fondatore, Liang Wenfeng, aveva intuito l’enorme potenziale dello sviluppo di modelli di intelligenza artificiale focalizzati su architetture innovative e algoritmi capaci di ottimizzare le risorse a disposizione. Nonostante la giovane età (l’azienda è stata costituita nel 2023, dunque meno di due anni fa), DeepSeek ha sorpreso osservatori e addetti ai lavori presentando in rapida successione due modelli: DeepSeek-V3 e DeepSeek-R1.
Nel giro di poche settimane dall’uscita, il chatbot di DeepSeek è balzato in vetta alle classifiche di download su App Store, sorpassando anche ChatGPT. La sua crescita repentina non ha lasciato indifferenti i grandi nomi della Silicon Valley. Sam Altman, CEO di OpenAI, si è congratulato apertamente con il team cinese; Mark Zuckerberg, a capo di Meta, ha creato una task force interna per capire come DeepSeek abbia potuto conquistare il mercato in maniera tanto rapida. Donald Trump, ex Presidente degli Stati Uniti, ha definito questa impresa «un campanello d’allarme» per l’industria tecnologica americana.
Al di là delle parole, la vera onda d’urto si è avvertita in Borsa: diverse big tech americane, tra cui Nvidia, Google, Amazon, Microsoft e persino OpenAI, hanno subìto pesanti ribassi. Il caso più evidente è quello di Nvidia, la più importante azienda produttrice di GPU al mondo, che ha visto andare in fumo centinaia di miliardi di dollari di capitalizzazione in un solo giorno di contrattazioni.
La sfida all’industria occidentale
Per anni, si è creduto che la corsa all’intelligenza artificiale generativa fosse un affare riservato a poche aziende giganti, in grado di investire miliardi di dollari in potenza di calcolo, infrastrutture e team di ricerca. OpenAI, Google, Meta e Amazon sono stati a lungo percepiti come i principali protagonisti del settore, con budget astronomici e progetti segreti. L’avvento di DeepSeek ha messo in discussione questa convinzione, mostrando che è possibile raggiungere risultati comparabili a quelli dei big player con investimenti molto più contenuti.
DeepSeek ha dichiarato di essere riuscita a «clonare» o superare le capacità dei modelli più avanzati, pur sostenendo costi ridotti anche del 95 percento rispetto alle spese che in passato sono state necessarie per addestrare tecnologie concorrenti. Secondo quanto riportato, il costo di sviluppo del modello DeepSeek-V3 è stato di circa 5,6 milioni di dollari, una cifra davvero irrisoria se la si confronta con i cento milioni (o più) spesi da OpenAI per GPT-4. Questo scarto di ordini di grandezza ha acceso un dibattito infuocato sul vero prezzo dell’innovazione nell’AI.
Gli esperti che restano scettici si chiedono se DeepSeek stia davvero rivelando tutti i costi reali: le stime ufficiali, infatti, spesso non comprendono stipendi dei ricercatori, costi di elettricità, manutenzione di server, licenze software e altre voci che, sommate, possono generare una spesa annuale ben più elevata. Tuttavia, anche se DeepSeek avesse investito centinaia di milioni di dollari all’anno, sarebbe comunque molto meno di quanto speso dai colossi americani. Il risultato netto è lo stesso: DeepSeek è riuscita a raggiungere un livello di performance comparable ai migliori modelli americani, almeno secondo i benchmark disponibili.
Una rivoluzione nel modello di calcolo
La vera innovazione di DeepSeek risiede nella sua attenzione all’ottimizzazione. Anziché puntare semplicemente all’accumulo di risorse computazionali, la società cinese sembra aver introdotto alcune tecniche avanzate per ridurre l’utilizzo di GPU durante l’addestramento dei modelli. Tra queste, spiccano approcci di Mixture of Experts (MoE) e Chain-of-Thought Reasoning, entrambi già esplorati in parte da realtà come Google e OpenAI, ma ottimizzati da DeepSeek in maniera particolarmente efficace.
Il concetto di MoE consiste nel dividere il modello di base in «esperti» specializzati in specifici compiti o tipologie di input, attivando soltanto le sezioni necessarie per elaborare un certo dato. In questo modo, si evita di far lavorare l’intera rete neurale su ogni singolo pezzo di informazione, riducendo drasticamente i costi computazionali. D’altra parte, Chain-of-Thought Reasoning consente al modello di «ragionare» passo-passo, simulando un processo di riflessione che lo porta gradualmente alla risposta. Questa tecnica migliora l’accuratezza e la comprensione contestuale, evitando errori comuni nelle reti neurali tradizionali.
Anche l’uso di dati sintetici è un elemento chiave. DeepSeek ha affermato di aver addestrato i propri modelli con dati generati artificialmente, in modo da ridurre la necessità di raccogliere e processare enormi dataset umani. Questa metodologia, se ben eseguita, elimina molti problemi di privacy e possibili violazioni di copyright, riducendo i costi di generazione e labeling dei dati. In un contesto in cui l’attenzione alle questioni etiche e legali legate all’AI è in costante crescita, si tratta di un approccio che potrebbe diventare sempre più popolare.
Articolo suggerito: DeepSeek vs ChatGPT: Differenze, Innovazioni, Analisi e Confronto
Strategia di DeepSeek
La strategia di DeepSeek si è mossa in due direzioni precise: da una parte, un modello open source (almeno in parte) disponibile alla comunità; dall’altra, la volontà di mostrare che il paradigma per lo sviluppo dell’AI non è necessariamente legato a enormi investimenti nel cloud computing e in hardware costosi. Su quest’ultimo punto, il percorso di DeepSeek è stato facilitato dall’aver accumulato in anticipo un numero consistente di GPU Nvidia A100, uno dei chip più richiesti per l’addestramento di reti neurali, prima che il governo statunitense imponesse restrizioni più severe all’export di tali componenti verso la Cina.
La combinazione di una ricerca architetturale raffinata e di un’astuta gestione delle risorse hardware ha consentito a DeepSeek di presentarsi come l’anti-OpenAI, capace di dimostrare che un’azienda piccola ma ben organizzata può raggiungere livelli di eccellenza in un settore considerato a lungo «blindato» dalla concorrenza americana. È un risultato che galvanizza l’intera scena tecnologica cinese, dimostrando il potenziale di un Paese che, nonostante le sanzioni e i limiti all’accesso alla tecnologia occidentale, è ben deciso a giocare un ruolo di primo piano nello sviluppo globale dell’intelligenza artificiale.
Tra gli elementi distintivi della strategia di DeepSeek, spiccano:
- Ricerca approfondita su architetture neuronali più leggere, in grado di sfruttare al meglio la potenza delle GPU disponibili.
- Uso di tecniche di compressione e gestione della memoria innovative, che riducono il carico computazionale e i consumi di energia.
- Focus sull’open innovation, ossia la condivisione di parte del proprio codice per favorire l’adozione di standard comuni e attirare sviluppatori indipendenti e ricercatori da tutto il mondo.
Tutto ciò ha contribuito a creare attorno a DeepSeek un’atmosfera di entusiasmo e curiosità, con un impatto diretto sul panorama competitivo dell’AI.

L’impatto delle limitazioni sulle GPU
Le restrizioni americane all’esportazione di GPU ad alte prestazioni verso la Cina sono state concepite per rallentare lo sviluppo tecnologico del Paese asiatico. Ma nel caso di DeepSeek, la necessità di aggirare queste limitazioni ha agito da incentivo per trovare strategie di ottimizzazione dei modelli. Piuttosto che reagire con soluzioni di forza bruta, la startup cinese si è concentrata sullo sviluppo di metodologie di addestramento efficienti, sviluppando routine in grado di richiedere meno risorse computazionali pur mantenendo (e persino migliorando) le prestazioni finali.
In alcuni report interni, DeepSeek ha confermato di avere accesso a migliaia di GPU Nvidia A100 e H800, quest’ultime versioni limitate nelle performance rispetto ai modelli venduti negli Stati Uniti proprio a causa dei blocchi imposti. Nonostante questa situazione, è riuscita a spingersi molto avanti nella realizzazione di un modello linguistico con centinaia di miliardi di parametri, non distante dalla scala di GPT-4 di OpenAI.
Il paradosso della faccenda è che la stessa Nvidia, uno dei colossi colpiti dal crollo in Borsa, ha fornito a DeepSeek una parte significativa dell’hardware necessario. Inoltre, uno dei ricercatori chiave di DeepSeek, Zi-Zheng Pen, ha lavorato come tirocinante proprio presso Nvidia. Questo intreccio di relazioni enfatizza il carattere globale e interconnesso dell’ecosistema dell’AI, in cui barriere e restrizioni sono spesso solo un ostacolo parziale rispetto alla grande fame di innovazione di startup e ricercatori.
Un colpo a Wall Street
La comparsa di DeepSeek ha inciso pesantemente sulla percezione che gli investitori hanno del mercato. Fino a poco tempo fa, si dava quasi per scontato che qualsiasi azienda volesse competere con i leader del settore AI dovesse acquistare una quantità smisurata di GPU, incanalando miliardi di dollari di capitale in infrastrutture cloud. Nvidia, con il suo ruolo dominante sul mercato, ne aveva tratto vantaggi spettacolari, tanto da diventare per un periodo una delle poche società a superare i mille miliardi di dollari di capitalizzazione.
L’improvvisa rivelazione che DeepSeek ha ottenuto risultati di fascia alta su molti benchmark — con un investimento iniziale dichiarato di poco superiore ai 5 milioni di dollari — ha generato un contraccolpo emotivo e speculativo a Wall Street. Gli analisti si sono domandati: «Se esiste un modo per sviluppare una tecnologia AI avanzata senza acquistare GPU all’infinito, allora la posizione di Nvidia potrebbe non essere così inattaccabile». La conseguenza è stata un sell-off massiccio del titolo Nvidia e, in parte, di altre aziende strettamente legate al successo dell’AI, come Meta, Google e Microsoft.
È vero che DeepSeek è ancora in una fase iniziale e la sostenibilità del suo modello di business non è stata ancora messa alla prova su larga scala. Eppure, anche solo l’idea che un approccio più efficiente all’intelligenza artificiale possa ridimensionare la dipendenza dall’hardware di fascia alta ha gettato un’ombra di incertezza su un settore che, fino a ieri, appariva in continua e inarrestabile espansione.
Articolo Suggerito: L’IA Generativa nel 2025: Evoluzione e Nuove Applicazioni
Verso il futuro dell’AI
Il caso DeepSeek solleva numerose domande su come evolverà la corsa all’intelligenza artificiale. Se da un lato le grandi realtà come OpenAI, Google e Meta continueranno probabilmente a investire cifre enormi in progetti di ricerca segreta e infrastrutture colossali, dall’altro è possibile che inizieranno a guardare con maggiore attenzione alle soluzioni di efficienza offerte da modelli in stile DeepSeek.
Questa rivoluzione si lega anche alla questione dell’open source. Molti analisti ritengono che uno degli elementi determinanti per il successo di DeepSeek sia stata la possibilità di sfruttare liberamente il codice di modelli open source già esistenti (tra cui alcune versioni di Llama di Meta). In aggiunta, DeepSeek ha reso a sua volta disponibili parti del proprio codice, permettendo a ricercatori e sviluppatori di tutto il mondo di studiare e modificare le sue soluzioni. Questo approccio collettivo potrebbe accelerare ulteriormente l’innovazione, riducendo i costi di ingresso e aprendo la strada a nuovi player.
Resta da chiarire, inoltre, il tema della regolamentazione. Gli Stati Uniti e l’Unione Europea sono sempre più interessati a porre limiti e regole ben definite allo sviluppo dell’intelligenza artificiale, per questioni che vanno dalla privacy alle responsabilità legali in caso di danni causati da sistemi AI. La Cina, dal canto suo, ha un approccio diverso, focalizzato in primis sul controllo dei contenuti sensibili dal punto di vista politico. DeepSeek, come ogni altra azienda cinese, deve quindi adeguarsi a meccanismi di censura e moderazione, che potrebbero limitarne l’uso su alcune tipologie di quesiti.
Di conseguenza, mentre in Occidente si discute di AI alignment e di contenimento dei rischi legati allo sviluppo di un’ipotetica AGI (Artificial General Intelligence), le aziende cinesi come DeepSeek potrebbero concentrarsi più sulla velocità e l’efficienza, mantenendo una certa competitività tecnologica nonostante i vincoli all’importazione di hardware avanzato.
Riflessioni finali
DeepSeek rappresenta un fenomeno affascinante, non solo per i suoi risultati tecnici ma anche per il modo in cui ha scardinato alcune certezze consolidate nel mercato dell’AI. Oggi sappiamo che l’inseguimento di modelli sempre più grandi e costosi non è l’unica strada possibile. L’ottimizzazione delle risorse, l’uso di dati sintetici e l’adozione di architetture neuronali modulari possono portare a una crescita sorprendentemente rapida, persino in contesti con limitazioni all’hardware di ultima generazione.
Se questa tendenza dovesse affermarsi, in futuro potremmo assistere alla nascita di molte altre startup capaci di sfidare i grandi nomi dell’intelligenza artificiale. Con l’AI che diviene sempre più “sostenibile” da un punto di vista economico, è probabile che si crei un ecosistema più vasto e variegato, dove la possibilità di creare innovazione non sia riservata a poche realtà con tasche profonde.
Tuttavia, emergono anche scenari potenzialmente rischiosi. L’accelerazione dell’innovazione e l’ampia condivisione di tool avanzati potrebbero rendere più semplice lo sviluppo di sistemi AI sofisticati per scopi dannosi. L’auspicio è che, parallelamente alla corsa tecnologica, si sviluppino linee guida e politiche internazionali in grado di minimizzare i pericoli. Inoltre, l’eventualità che un’azienda come DeepSeek arrivi a battere sul tempo colossi come OpenAI nella realizzazione di un’AGI introduce domande su chi avrà il controllo di questa potenziale “prossima rivoluzione” del digitale.
In ogni caso, per chiunque osservi il panorama dell’intelligenza artificiale, DeepSeek è un nome destinato a restare al centro del dibattito. Se davvero sarà in grado di sostenere le proprie ambizioni e continuare a evolvere con la stessa rapidità mostrata finora, il suo impatto potrebbe essere di vasta portata, trasformando il modo in cui immaginiamo la ricerca, la regolamentazione e il mercato dell’AI.
Nel frattempo, la lezione più grande che si può trarre dalla storia di DeepSeek è questa: l’innovazione non è soltanto una questione di potenza bruta e di budget multimiliardari. È anche la capacità di sfruttare in modo intelligente risorse limitate, di combinare soluzioni open source con nuove idee e di focalizzarsi su tecniche di compressione, parallelizzazione e ottimizzazione. In un’epoca in cui le tecnologie digitali stanno cambiando il mondo a velocità vertiginosa, la creatività e la determinazione di piccoli team di ricerca possono davvero ribaltare le gerarchie, superando persino i giganti più consolidati.