Una metrica di valutazione nel campo dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML) è una misura quantitativa utilizzata per valutare le prestazioni di un modello di apprendimento automatico. Queste metriche sono importanti in quanto forniscono un metodo standardizzato per valutare l'efficacia, l'efficienza e l'accuratezza del modello nel fare previsioni o classificazioni basate sui dati di input. Le metriche di valutazione sono essenziali in varie fasi della pipeline di machine learning, dalla selezione e messa a punto del modello alla distribuzione e al monitoraggio. Aiutano i data scientist e gli ingegneri a comprendere il rendimento dei loro modelli e a prendere decisioni informate su miglioramenti e aggiustamenti.
Le metriche di valutazione possono essere ampiamente classificate in diversi tipi in base alla natura dell'attività di machine learning, come classificazione, regressione, clustering e classificazione. Ogni tipo di attività ha metriche specifiche più appropriate per valutare le prestazioni dei modelli progettati per risolvere tale attività.
Metriche di classificazione
I compiti di classificazione implicano la previsione di etichette o categorie distinte per determinati input. Le metriche di valutazione comuni per i modelli di classificazione includono:
1. Precisione: il rapporto tra le istanze previste correttamente e le istanze totali. È una metrica semplice e intuitiva ma potrebbe non essere adatta a set di dati sbilanciati.
2. Precisione: il rapporto tra le previsioni positive vere e il totale dei positivi previsti. La precisione è importante quando il costo dei falsi positivi è elevato.
3. Richiamo (sensibilità o tasso di veri positivi): il rapporto tra le previsioni positive vere e il totale dei positivi effettivi. Il richiamo è importante quando il costo dei falsi negativi è elevato.
4. Punteggio F1: La media armonica di precisione e richiamo, che fornisce un equilibrio tra i due. È particolarmente utile quando il set di dati è sbilanciato.
5. ROC-AUC (caratteristica operativa del ricevitore – area sotto curva): una metrica che valuta il compromesso tra tasso di veri positivi e tasso di falsi positivi tra diversi valori di soglia. L'AUC rappresenta la probabilità che un'istanza positiva scelta casualmente sia classificata più in alto di un'istanza negativa scelta casualmente.
Metriche di regressione
Le attività di regressione implicano la previsione di valori continui. Le metriche di valutazione comuni per i modelli di regressione includono:
1. Errore assoluto medio (MAE): La media delle differenze assolute tra i valori previsti e quelli effettivi. Fornisce una misura semplice dell’accuratezza della previsione.
2. Errore quadratico medio (MSE): la media delle differenze al quadrato tra i valori previsti e quelli effettivi. Penalizza gli errori più grandi più del MAE.
3. Errore quadratico medio della radice (RMSE): La radice quadrata dell'errore quadratico medio. Fornisce una misura dell'errore nelle stesse unità della variabile target.
4. R-quadrato (coefficiente di determinazione): Una misura statistica che rappresenta la proporzione della varianza nella variabile dipendente che è prevedibile dalle variabili indipendenti.
Metriche di clustering
Le attività di clustering implicano il raggruppamento di istanze simili senza etichette predefinite. Le metriche di valutazione comuni per i modelli di clustering includono:
1. Punteggio silhouette: misura quanto un oggetto è simile al proprio cluster rispetto ad altri cluster. Varia da -1 a 1, con valori più alti che indicano un migliore clustering.
where è la distanza media dagli altri punti nello stesso cluster e
è la distanza media dai punti nel cluster più vicino.
2. Indice Rand aggiustato (ARI): misura la somiglianza tra due cluster di dati, tenendo conto del caso. Varia da -1 a 1, con valori più alti che indicano un migliore accordo.
dove RI è l'indice Rand.
3. Indice Davies-Bouldin: misura il rapporto medio di somiglianza di ciascun cluster con il cluster ad esso più simile. Valori più bassi indicano un migliore clustering.
where e
sono le dispersioni dei cluster e
è la distanza tra i centroidi del cluster.
Metriche di classificazione
Le attività di classificazione implicano l'ordinamento delle istanze in base alla pertinenza o all'importanza. Le metriche di valutazione comuni per i modelli di classificazione includono:
1. Precisione media media (MAP): Misura la precisione media a diversi livelli di soglia, fornendo una misura della qualità a cifra singola tra i livelli di richiamo.
dove AP(q) è la precisione media per la query .
2. Guadagno cumulativo scontato normalizzato (NDCG): misura l'utilità di un documento in base alla sua posizione nell'elenco dei risultati, con i documenti di livello superiore che contribuiscono maggiormente al punteggio.
dove DCG è il guadagno cumulativo scontato e IDCG è il DCG ideale.
3. Precisione a k (P@k): misura la percentuale di istanze rilevanti nella parte superiore risultati.
Importanza delle metriche di valutazione
Le metriche di valutazione sono indispensabili per diversi motivi:
1. Selezione del modello: È possibile confrontare diversi modelli utilizzando parametri standardizzati per determinare quale offre le migliori prestazioni in una determinata attività.
2. Sintonia iperparametro: le metriche guidano l'ottimizzazione degli iperparametri per ottimizzare le prestazioni del modello.
3. Monitoraggio delle prestazioni: le metriche aiutano a monitorare le prestazioni dei modelli distribuiti per garantire che continuino a funzionare bene nel tempo.
4. Decisioni aziendali: Le metriche traducono le prestazioni tecniche in risultati rilevanti per il business, aiutando i processi decisionali.
Applicazione di esempio
Consideriamo un problema di classificazione binaria in cui viene utilizzato un modello per prevedere se un'e-mail è spam o meno. Il set di dati contiene 1000 email, di cui 100 etichettate come spam (classe positiva) e 900 come non spam (classe negativa). Il modello fa le seguenti previsioni:
– Veri Positivi (TP): 80 (e-mail di spam identificate correttamente come spam)
– Falsi positivi (FP): 10 (e-mail non spam erroneamente identificate come spam)
– Veri negativi (TN): 880 (e-mail non spam correttamente identificate come non spam)
– Falsi negativi (FN): 30 (e-mail di spam erroneamente identificate come non spam)
Utilizzando questi valori, possiamo calcolare diverse metriche di valutazione:
- Precisione:
- Precisione:
- Richiamo:
- Punteggio F1:
- ROC-AUC: calcolato utilizzando il tasso di veri positivi e il tasso di falsi positivi a varie soglie, ottenendo un valore AUC che fornisce una misura a cifra singola della capacità del modello di distinguere tra classi.
Queste metriche forniscono una comprensione completa delle prestazioni del modello, evidenziandone i punti di forza e le aree di miglioramento. Ad esempio, sebbene la precisione sia elevata, il richiamo indica che il modello non rileva una parte significativa delle e-mail di spam, il che potrebbe essere problematico in uno scenario reale.
Le metriche di valutazione sono fondamentali per il processo iterativo dell'apprendimento automatico, poiché consentono ai professionisti di perfezionare i modelli e ottenere i risultati desiderati in modo efficace.
Altre domande e risposte recenti riguardanti EITC/AI/GCML Google Cloud Machine Learning:
- Quali sono alcuni algoritmi AI/ML comuni da utilizzare sui dati elaborati?
- In che modo i modelli Keras sostituiscono gli stimatori TensorFlow?
- Come configurare uno specifico ambiente Python con Jupyter Notebook?
- Come utilizzare TensorFlow Serving?
- Che cos'è Classifier.export_saved_model e come utilizzarlo?
- Perché la regressione viene spesso utilizzata come predittore?
- I moltiplicatori di Lagrange e le tecniche di programmazione quadratica sono rilevanti per l'apprendimento automatico?
- È possibile applicare più di un modello durante il processo di apprendimento automatico?
- Il Machine Learning può adattare l'algoritmo da utilizzare a seconda dello scenario?
- Qual è il percorso più semplice per un principiante assoluto senza alcuna formazione di programmazione, per l'addestramento e l'implementazione di modelli di intelligenza artificiale di base su Google AI Platform utilizzando una versione di prova/livello gratuito e una console GUI in modo graduale?
Visualizza altre domande e risposte in EITC/AI/GCML Google Cloud Machine Learning