L'architettura della rete neurale utilizzata nell'esempio è una rete neurale feedforward con tre livelli: un livello di input, un livello nascosto e un livello di output. Il livello di input è composto da 784 unità, che corrisponde al numero di pixel nell'immagine di input. Ogni unità nel livello di input rappresenta il valore di intensità di un pixel nell'immagine.
Il livello nascosto è composto da 128 unità, che sono completamente connesse al livello di input. Ogni unità nello strato nascosto calcola una somma ponderata degli input dallo strato di input e applica una funzione di attivazione per produrre un output. In questo esempio, la funzione di attivazione utilizzata nel livello nascosto è la funzione dell'unità lineare rettificata (ReLU). La funzione ReLU è definita come f(x) = max(0, x), dove x è la somma pesata degli input all'unità. La funzione ReLU introduce la non linearità nella rete, consentendole di apprendere schemi e relazioni complessi nei dati.
Il livello di output è costituito da 10 unità, ciascuna delle quali rappresenta una delle possibili classi nel problema di classificazione. Anche le unità nel livello di output sono completamente connesse alle unità nel livello nascosto. Analogamente al livello nascosto, ogni unità nel livello di output calcola una somma ponderata degli input dal livello nascosto e applica una funzione di attivazione. In questo esempio, la funzione di attivazione utilizzata nel livello di output è la funzione softmax. La funzione softmax converte la somma ponderata degli input in una distribuzione di probabilità sulle classi, dove la somma delle probabilità è uguale a 1. L'unità con la probabilità più alta rappresenta la classe prevista dell'immagine di input.
Per riassumere, l'architettura della rete neurale utilizzata nell'esempio è costituita da un livello di input con 784 unità, un livello nascosto con 128 unità utilizzando la funzione di attivazione ReLU e un livello di output con 10 unità utilizzando la funzione di attivazione softmax.
Altre domande e risposte recenti riguardanti Costruire una rete neurale per eseguire la classificazione:
- È necessario utilizzare una funzione di apprendimento asincrono per i modelli di machine learning in esecuzione in TensorFlow.js?
- Come viene compilato e addestrato il modello in TensorFlow.js e qual è il ruolo della funzione di perdita di entropia incrociata categoriale?
- Qual è il significato del tasso di apprendimento e del numero di epoche nel processo di apprendimento automatico?
- In che modo i dati di addestramento vengono suddivisi in set di addestramento e test in TensorFlow.js?
- Qual è lo scopo di TensorFlow.js nella creazione di una rete neurale per le attività di classificazione?