Enea sperimenta intelligenza artificiale per ottimizzare i data center


Innovazione: ENEA testa l’utilizzo dell’intelligenza artificiale per ottimizzare il funzionamento dei data center

Sviluppato uno strumento per la classificazione comune dell’Intelligenza Artificiale: è il Framework OCSE che consente ai fruitori di analizzare quelli che sono i rischi specifici tipici

Utilizzare l’intelligenza artificiale per evitare guasti nei data center migliorarne le prestazioni. È uno degli obiettivi del gruppo di ricerca ICT di ENEA che ha testato tecniche innovative sul proprio supercalcolatore CRESCO6. “Siamo partiti dalla raccolta dei dati sui consumi energetici, termici e computazionali del data center HPC di ENEA per individuare, attraverso strumenti avanzati di intelligenza artificiale, eventuali sovraccarichi di lavoro, sprechi, malfunzionamenti o ‘falle’ nel sistema di raffreddamento. Un surriscaldamento frequente e, di conseguenza, un sistema di raffreddamento poco efficace, potrebbero causare, ad esempio, il degrado dell’hardware, una ridotta affidabilità dei server nonché un dispendioso consumo energetico” spiega Marta Chinnici, ricercatrice di matematica con dottorato in computer science presso il Laboratorio ENEA Infrastrutture per il calcolo scientifico e ad alte prestazioni. “Grazie a questa metodologia innovativa siamo in grado di estrarre informazioni utili dai dati reali di consumo dell’infrastruttura di calcolo e di elaborare strategie di gestione che non sarebbero ottenibili con le tecniche classiche di data analysis” sottolinea la ricercatrice.

Nello specifico, con la metodologia ENEA vengono raccolti e messi in relazione i dati sugli effettivi carichi di lavoro del data center e sul consumo energetico a diversi livelli (nodo, server, rack e stanza). Questa mole di informazioni viene poi elaborata attraverso tecniche di apprendimento supervisionato che permettono di definire modelli previsionali[1]  in grado di predire il comportamento dei server in base alla temperatura e al carico computazionale e di mappare eventuali fenomeni di surriscaldamento (hotspot o punti caldi). “In questo modo, riusciamo a mettere in campo interventi mirati ed efficaci per garantire il corretto funzionamento delle singole componenti dell’infrastruttura di calcolo, a partire, ad esempio, dall’ottimizzazione del flusso d’aria di raffreddamento. Oppure, siamo in grado di individuare esattamente gli hotspot termici in modo da consentire al cluster di lavorare a temperature simili su tutti i nodi di calcolo, evitando rischi legati al surriscaldamento e consentendo di modulare le unità di raffreddamento su potenze più basse. Ma non solo: in collaborazione con il collega Davide De Chiara abbiamo definito modelli che mappano il comportamento degli utenti in termini di utilizzo e consumo delle risorse e poter predire, sulla base di dati storici, i carichi di lavoro e, quindi, il consumo futuro di processore, memoria e rete”, spiega Marta Chinnici.

Il tema della sostenibilità ambientale è ormai di primaria importanza anche nel campo delle tecnologie informatiche, un settore nel quale i consumi energetici crescono  a un tasso annuo del 9%. Al 2020 la domanda di elettricità annua imputabile al settore IT ammontava a circa 200-250 TWh (l’1% della domanda globale di energia) contribuendo allo 0,3% delle emissioni annue di carbonio. Ma secondo le stime dell’Agenzia internazionale dell’energia questi numeri sono destinati ad aumentare e al 2025 i data center consumeranno circa 1/5 dell’approvvigionamento mondiale.

Tuttavia, i prossimi supercomputer, gli exascale da un miliardo di miliardi di operazioni al secondo, dovranno possedere requisiti prestazionali e di consumo energetico stringenti ed elevati. “La comunità dei data center potrebbe sfruttare questo nostro approccio per migliorare le condizioni termiche in cui operano le infrastrutture informatiche, con azioni mirate su quei server che più frequentemente vanno incontro a un surriscaldamento, visto che i consumi energetici di un data center dipendono fortemente dalla temperatura del luogo dove si trova l’infrastruttura informatica, così come dalle prestazioni dei sistemi IT e di raffreddamento”, conclude la ricercatrice ENEA.

[1] Sviluppati sulle caratteristiche termiche basate sulle temperature effettive rilevate attraverso una sensoristica capillare posizionata sul singolo nodo di calcolo fino alla sala ospitante il data center.