banner
Casa / Blog / Prestazioni comparative di algoritmi di machine learning in radiomica e fattori impattanti
Blog

Prestazioni comparative di algoritmi di machine learning in radiomica e fattori impattanti

Jun 26, 2023Jun 26, 2023

Rapporti scientifici volume 13, numero articolo: 14069 (2023) Citare questo articolo

76 Accessi

1 Altmetrico

Dettagli sulle metriche

Non ci sono attualmente raccomandazioni su quali algoritmi di machine learning (ML) dovrebbero essere utilizzati nella radiomica. L'obiettivo era confrontare le prestazioni degli algoritmi ML in radiomica quando applicati a diverse domande cliniche per determinare se alcune strategie potessero fornire prestazioni migliori e più stabili indipendentemente dai set di dati. Questo studio confronta le prestazioni di nove algoritmi di selezione delle caratteristiche combinati con quattordici algoritmi di classificazione binaria su dieci set di dati. Questi set di dati includevano caratteristiche radiomiche e diagnosi clinica per classificazioni cliniche binarie, tra cui polmonite o sarcopenia COVID-19 alla TC, lesioni della testa e del collo, lesioni orbitali o uterine alla risonanza magnetica. Per ciascun set di dati è stata creata una suddivisione train-test. Ciascuna delle 126 (9 × 14) combinazioni di algoritmi di selezione delle caratteristiche e algoritmi di classificazione è stata addestrata e ottimizzata utilizzando una convalida incrociata dieci volte, quindi è stata calcolata l'AUC. Questa procedura è stata ripetuta tre volte per set di dati. Le migliori prestazioni complessive sono state ottenute con JMI e JMIM come algoritmi di selezione delle caratteristiche e modelli di foresta casuale e di regressione lineare come algoritmi di classificazione. La scelta dell'algoritmo di classificazione è stato il fattore che spiega la maggior parte della variazione della performance (10% della varianza totale). La scelta dell'algoritmo di selezione delle caratteristiche spiega solo il 2% della variazione, mentre la suddivisione del test del treno spiega il 9%.

La radiomica può essere definita come l’estrazione quantitativa di un elevato numero di caratteristiche da immagini mediche per la scoperta di nuovi biomarcatori di imaging predittivi, diagnostici o prognostici della malattia. La radiomica consente l’estrazione non invasiva di informazioni invisibili all’occhio umano da immagini mediche utilizzando tecniche di apprendimento automatico e ha mostrato risultati promettenti. Tuttavia, la mancanza di standard ostacola l’uso dei biomarcatori radiomici in ambito clinico1.

Uno studio radiomico è strutturato in cinque fasi: costituzione della coorte e acquisizione di immagini, segmentazione della regione di interesse (ROI), estrazione delle caratteristiche, modellazione e validazione esterna su un set di dati (idealmente) indipendente2.

La fase di modellazione stessa si basa su due passaggi distinti: selezione delle caratteristiche e previsione. Per ogni passaggio sono disponibili molti metodi e algoritmi diversi, il che porta a un gran numero di combinazioni possibili. Ad oggi, non è emersa alcuna strategia o raccomandazione su quale/i algoritmo/i debbano essere utilizzati preferenzialmente quando si esegue la radiomica. Alcuni team hanno quindi scelto di testare simultaneamente diversi algoritmi durante l'esecuzione degli studi, poiché si ritiene che gli algoritmi che hanno fornito i migliori risultati dipendano dallo scenario3. Tuttavia, testare un gran numero di strategie quando si esegue la radiomica su un dato set di dati aumenta il rischio di false scoperte. Pertanto, potrebbe essere auspicabile utilizzare un numero minore di modelli selezionati per aumentare le possibilità di risultati significativi.

Anche se ci sono alcune iniziative per emanare raccomandazioni come il Radiomics Quality Score2 o la Checklist for Artificial Intelligence in Medical Imaging (CLAIM)4, queste raccomandazioni non sono ben seguite. Ad esempio, dei 69 studi di machine learning sulla diagnosi o prognosi del Covid-19 esaminati da Roberts et al.5, solo 25 hanno ottenuto un RQS superiore a 6 su 36. Questi risultati sono supportati dalla revisione di Spadarella et al.6, che ha ottenuto un RQS mediano del 21% (7,5) per 44 studi di radiomica. Si tratta di un problema significativo, poiché scelte metodologiche inadeguate nelle diverse fasi degli studi potrebbero portare a risultati distorti. I bias potrebbero essere introdotti già nella fase di costituzione della coorte se la distribuzione del set di dati di addestramento è diversa da quella della popolazione target7. Può anche essere introdotto dalla variabilità dell'operatore durante l'annotazione del dataset. Joskowicz et al.8 hanno dimostrato su 3193 segmentazioni CT che la variabilità media della sovrapposizione del volume tra due osservatori era del 37%. Questa variabilità può impedire la riproducibilità di alcune caratteristiche radiomiche. Inoltre, gli algoritmi ML potrebbero adattarsi eccessivamente o fornire prestazioni non stimate. Gli esperimenti di Varoquaux et al.9 su set di dati di neuroimaging rivelano che una dimensione del campione di studio pari a cento porta a errori di ± 10% nell'accuratezza della previsione. Al contrario, lo studio10 di Roelofs et al. sulle competizioni di Kaggle ha dimostrato che l'overfitting può essere prevenuto mediante campioni di prova sufficientemente grandi. Roelofs considerava 10.000 esempi come il minimo per proteggersi dal sovradattamento.