Le reti neurali convoluzionali (CNN) sono state progettate inizialmente allo scopo di riconoscere le immagini nel campo della visione artificiale. Queste reti sono un tipo specializzato di rete neurale artificiale che ha dimostrato di essere altamente efficace nell'analisi dei dati visivi. Lo sviluppo delle CNN è stato guidato dalla necessità di creare modelli in grado di classificare e categorizzare accuratamente le immagini, e il loro successo in questo dominio ha portato al loro uso diffuso in varie altre applicazioni come il rilevamento di oggetti, la segmentazione delle immagini e persino l'elaborazione del linguaggio naturale.
Le CNN si ispirano alla struttura e alla funzionalità della corteccia visiva nel cervello umano. Come la corteccia visiva, le CNN sono costituite da più strati di neuroni interconnessi che elaborano diversi aspetti dei dati di input. L’innovazione chiave delle CNN risiede nella loro capacità di apprendere ed estrarre automaticamente le funzionalità rilevanti dalle immagini, eliminando la necessità di ingegneria manuale delle funzionalità. Ciò si ottiene attraverso l'uso di livelli convoluzionali, che applicano filtri all'immagine di input per rilevare vari modelli e caratteristiche visive, come bordi, angoli e trame.
La prima svolta nelle CNN è arrivata con l'introduzione dell'architettura LeNet-5 di Yann LeCun et al. nel 1998. LeNet-5 è stato progettato specificamente per il riconoscimento delle cifre scritte a mano e ha ottenuto prestazioni notevoli sul set di dati MNIST, un set di dati di riferimento ampiamente utilizzato per valutare gli algoritmi di riconoscimento delle immagini. LeNet-5 ha dimostrato la potenza delle CNN nel catturare caratteristiche gerarchiche dalle immagini, consentendo una classificazione accurata anche in presenza di variazioni di scala, rotazione e traslazione.
Da allora, le CNN si sono evolute in modo significativo, con lo sviluppo di architetture più profonde e complesse. Un progresso notevole è stata l'introduzione dell'architettura AlexNet da parte di Alex Krizhevsky et al. nel 2012. AlexNet ha ottenuto una svolta nella classificazione delle immagini vincendo la ImageNet Large Scale Visual Recognition Challenge (ILSVRC) con un tasso di errore significativamente inferiore rispetto agli approcci precedenti. Questo successo ha aperto la strada all’adozione diffusa delle CNN nelle attività di riconoscimento delle immagini.
Le CNN sono state applicate con successo anche ad altri compiti di visione artificiale. Ad esempio, nel rilevamento degli oggetti, le CNN possono essere combinate con livelli aggiuntivi per localizzare e classificare gli oggetti all'interno di un'immagine. La famosa rete neurale convoluzionale basata su regione (R-CNN) introdotta da Ross Girshick et al. nel 2014 è un esempio di tale architettura. R-CNN ha ottenuto risultati all'avanguardia sui benchmark di rilevamento degli oggetti sfruttando la potenza delle CNN per l'estrazione delle caratteristiche e combinandola con metodi di proposta regionale.
Le reti neurali convoluzionali sono state progettate inizialmente per compiti di riconoscimento di immagini nel campo della visione artificiale. Hanno rivoluzionato il campo apprendendo automaticamente le funzionalità rilevanti dalle immagini, eliminando la necessità di progettare manualmente le funzionalità. Lo sviluppo delle CNN ha portato a progressi significativi nella classificazione delle immagini, nel rilevamento degli oggetti e in varie altre attività di visione artificiale.
Altre domande e risposte recenti riguardanti EITC/AI/ADL Advanced Deep Learning:
- Perché è necessario applicare ottimizzazioni nell'apprendimento automatico?
- Quando si verifica il sovraadattamento?
- Le reti neurali convoluzionali possono gestire i dati sequenziali incorporando le convoluzioni nel tempo, come utilizzato nei modelli Convolutional Sequence to Sequence?
- I Generative Adversarial Network (GAN) si basano sull'idea di un generatore e di un discriminatore?