Esistono informazioni estraibili da misure epidemiologiche e molecolari fatte oggi su un certo tipo di virus, che possano predire con sufficiente affidabilità quali saranno le varianti virali che diverranno prevalenti fra qualche mese, diciamo tre mesi? Questo è un tipo di domanda che presuppone il riconoscimento in un ampio insieme di dati di strutture caratteristiche con valore predittivo (in inglese “pattern”), le quali non sono però a priori note sulla base di una teoria precedentemente sviluppata. Un classico rompicapo la cui soluzione può essere affrontata attraverso algoritmi di intelligenza artificiale che, esplorando i dati di partenza per correlazioni fra la loro struttura e gli esiti registrati mesi dopo la loro raccolta, portino alla scoperta di particolari caratteristiche virali ed epidemiologiche che mediamente favoriscono un certo mutante sugli altri (se ve ne sono).
Tre ricercatori del Mit di Boston si sono posti precisamente la domanda in questione ed hanno appunto cercato una soluzione basata sull’uso dell’intelligenza artificiale, pubblicando infine i propri risultati su PNAS Nexus. I ricercatori hanno studiato quali fattori potrebbero influenzare il successo di una certa variante virale sulla base di un’analisi di 9 milioni di sequenze genetiche Sars-CoV-2 raccolte dalla Global initiative on sharing avian influenza data (Gisaid) in 30 paesi, insieme ai dati sui tassi di vaccinazione, tassi di infezione e altri fattori, in funzione dell’evoluzione dell’abbondanza dei vari isolati virali nel tempo nei diversi paesi.
I dati sono stati utilizzati per costruire un modello di valutazione del rischio ottenuto mediante machine learning, in cui l’obiettivo di apprendimento consisteva nel riprodurre le frequenze per ciascuna variante virale a tre mesi di distanza rispetto alle sue frequenze usate come punto iniziale. Il modello ottenuto è in grado di identificare circa il 73% delle varianti in ciascun paese che causeranno almeno 1.000 casi per milione di persone a tre mesi di distanza, utilizzando come dati di ingresso un periodo di osservazione di una settimana dal primo rilevamento per ciascuna variante. Utilizzando un periodo di osservazione di due settimane dal primo rilevamento, la predizione è risultata ancora migliore, riuscendo a identificare correttamente circa l’80% delle varianti virali invasive a tre mesi di distanza.
Poiché è stato ottenuto un modello predittivo esplicito, è anche stato possibile andare a verificare quali fossero i parametri che più influenzavano le probabilità di successiva diffusione di una certa variante virale, in modo da valutare se quanto ritrovato dall’intelligenza artificiale avesse anche senso da un punto di vista epidemiologico e molecolare. Tra i più forti predittori di infettività e diffusione sono risultati la traiettoria precoce delle infezioni causate dalla variante, le mutazioni della proteina Spike della variante e il grado di novità delle mutazioni riscontrate rispetto a quelle delle varianti dominanti durante il periodo di osservazione.
Come si vede, si tratta di caratteristiche perfettamente sensate: la prima, di natura epidemiologica, incorpora il vantaggio diffusivo iniziale dovuto anche a eventi stocastici (per esempio, una larga aggregazione di persone non vaccinate o simili contesti), la seconda è sensibile sia all’immunità preesistente in una popolazione che all’efficienza di ingresso nella cellula del virus, e la terza tiene presente la differenza antigenica rispetto alle varianti che maggiormente hanno influenzato i sistemi immunitari degli ospiti umani nel periodo immediatamente precedente.
Come possiamo utilizzare questa informazione?
In linea di principio, si potrebbe ovviamente pensare innanzitutto ad “inseguire” le varianti predette come più invasive con vaccini opportuni – a patto, ovviamente, di riuscire a predire tali varianti da una stagione all’altra, e non in una finestra di soli tre mesi. Anche se questa può sembrare una buona idea, in realtà bisogna adoperare qualche cautela nella sua attuazione pratica: il vaccino, infatti, influenza proprio l’immunità preesistente della popolazione, che come abbiamo detto è una delle caratteristiche in grado di influenzare quali saranno le successive varianti invasive, e di conseguenza il tempo in cui la vaccinazione avviene – non troppo presto, per non favorire un diverso percorso evolutivo rispetto al predetto, ma non troppo tardi, per non rendere inutile l’immunizzazione – è fondamentale.
Vi è tuttavia una sicura utilità nella predizione illustrata: quella che consiste nel preparare il sistema sanitario a una successiva possibile crisi, agendo con precisione in anticipo sull’emersione di nuove varianti (che non è automatica o precisamente periodica). Sapere, cioè, se e quando sono attese nuove ondate di un certo patogeno (in questo caso SARS-CoV-2, ma il sistema può essere esteso), permette di ottimizzare l’allocazione nel tempo delle risorse sanitarie, senza dover rimanere in uno stato di perenne pressione o affidato al “giorno per giorno” (come oggi, per la maggior parte, accade); sempre patto, naturalmente, di voler seguire la scienza, e non semplicemente gli umori delle persone e degli elettori, che guidano oggi l’attenzione della politica ai problemi epidemiologici.