×
1 Scegli i certificati EITC/EITCA
2 Impara e sostieni gli esami online
3 Ottieni la certificazione delle tue competenze IT

Conferma le tue capacità e competenze IT nell'ambito del quadro di certificazione IT europeo da qualsiasi parte del mondo completamente online.

Accademia EITCA

Standard di attestazione delle competenze digitali da parte dell'Istituto europeo di certificazione informatica volto a sostenere lo sviluppo della società digitale

ACCEDI AL TUO ACCOUNT

CREA UN ACCOUNT HAI DIMENTICATO LA PASSWORD?

HAI DIMENTICATO LA PASSWORD?

AAH, aspetta, ora ricordo!

CREA UN ACCOUNT

HAI GIÀ UN ACCOUNT?
EUROPEE ACCADEMIA DI CERTIFICAZIONE DELLE TECNOLOGIE INFORMATICHE - ATTESTARE LE TUE COMPETENZE DIGITALI
  • ISCRIVITI
  • ACCEDI
  • INFO

Accademia EITCA

Accademia EITCA

L'Istituto europeo di certificazione delle tecnologie dell'informazione - EITCI ASBL

Fornitore di certificazione

Istituto EITCI ASBL

Bruxelles, Unione Europea

Quadro normativo europeo di certificazione IT (EITC) a supporto della professionalità IT e della società digitale

  • CERTIFICATI
    • ACCADEMIE EITCA
      • CATALOGO ACCADEMIE EITCA<
      • GRAFICA INFORMATICA EITCA/CG
      • EITCA/IS SICUREZZA DELLE INFORMAZIONI
      • INFORMAZIONI AZIENDALI EITCA/BI
      • COMPETENZE CHIAVE EITCA/KC
      • EITCA/EG E-GOVERNMENT
      • SVILUPPO WEB EITCA/WD
      • EITCA/AI ARTIFICIAL INTELLIGENCE
    • CERTIFICATI EITC
      • CATALOGO DEI CERTIFICATI EITC<
      • CERTIFICATI DI GRAFICA INFORMATICA
      • CERTIFICATI DI WEB DESIGN
      • CERTIFICATI DI PROGETTAZIONE 3D
      • CERTIFICATI IT PER L'UFFICIO
      • CERTIFICATO BLOCKCHAIN ​​DI BITCOIN
      • CERTIFICATO WORDPRESS
      • CERTIFICATO PIATTAFORMA CLOUDNUOVA
    • CERTIFICATI EITC
      • CERTIFICATI INTERNET
      • CERTIFICATI DI CRIPTOGRAFIA
      • CERTIFICATI IT COMMERCIALI
      • CERTIFICATI TELEWORK
      • CERTIFICATI DI PROGRAMMAZIONE
      • CERTIFICATO DIGITALE DI RITRATTO
      • CERTIFICATI DI SVILUPPO WEB
      • CERTIFICATI DI APPRENDIMENTO PROFONDONUOVA
    • CERTIFICATI PER
      • AMMINISTRAZIONE PUBBLICA DELL'UE
      • INSEGNANTI ED EDUCATORI
      • PROFESSIONISTI DELLA SICUREZZA IT
      • DESIGNER E ARTISTI GRAFICI
      • Uomini d'affari e dirigenti
      • SVILUPPI DELLA BLOCKCHAIN
      • SVILUPPATORI WEB
      • ESPERTI DI CLOUD AINUOVA
  • FEATURED
  • SUSSIDIO
  • COME FUNZIONA
  •   IT ID
  • CHI SIAMO
  • CONTATTI
  • IL MIO ORDINE
    Il tuo ordine attuale è vuoto.
EITCIINSTITUTE
CERTIFIED

Qual è la procedura più semplice e dettagliata per mettere in pratica l'addestramento di modelli di intelligenza artificiale distribuiti in Google Cloud?

by Accademia EITCA / Domenica, 11 maggio 2025 / Pubblicato in Intelligenza Artificiale, EITC/AI/GCML Google Cloud Machine Learning, Ulteriori passaggi nell'apprendimento automatico, Formazione distribuita nel cloud

L'addestramento distribuito è una tecnica avanzata di apprendimento automatico che consente l'utilizzo di più risorse di elaborazione per addestrare modelli di grandi dimensioni in modo più efficiente e su larga scala. Google Cloud Platform (GCP) offre un solido supporto per l'addestramento di modelli distribuiti, in particolare tramite la sua piattaforma di intelligenza artificiale (Vertex AI), Compute Engine e Kubernetes Engine, con supporto per framework popolari come TensorFlow e PyTorch. Di seguito è riportata una procedura completa e dettagliata per praticare l'addestramento di modelli di intelligenza artificiale distribuita in Google Cloud, garantendo una chiara comprensione sia dei passaggi pratici che dei concetti di base.

1. Comprensione dei paradigmi di addestramento distribuiti

La formazione distribuita generalmente rientra in due paradigmi principali:
- Parallelismo dei dati:Il set di dati è suddiviso tra più repliche del modello, ciascuna delle quali elabora un sottoinsieme di dati, con sincronizzazione periodica dei pesi.
- Parallelismo del modello:Il modello stesso è suddiviso in diversi nodi di elaborazione, adatti a modelli estremamente grandi che non possono essere inseriti nella memoria di un singolo dispositivo.

La maggior parte degli esercizi di formazione distribuita introduttivi nel cloud impiegano il parallelismo dei dati per la sua relativa semplicità e l'ampio supporto del framework.

2. Preparare l'ambiente

Prima di procedere assicurati di avere:
– Un account Google Cloud con fatturazione abilitata.
– Google Cloud SDK (gcloud CLI) installato e autenticato sul computer locale.
– Autorizzazioni per accedere e creare risorse nel tuo progetto Google Cloud.

3. Configurazione di Google Cloud Storage

L'addestramento distribuito richiede che i dati e gli artefatti del modello siano accessibili a tutti i nodi di addestramento. Cloud Storage fornisce un livello di archiviazione unificato e ad alte prestazioni.

Passi:
– Crea un bucket di Cloud Storage:

sh
  gsutil mb gs://your-bucket-name
  

– Carica il tuo set di dati e, facoltativamente, il codice del tuo modello:

sh
  gsutil cp local-data-path gs://your-bucket-name/data/
  gsutil cp local-model-code-path gs://your-bucket-name/code/
  

4. Scelta della giusta infrastruttura di elaborazione

Le principali opzioni GCP per la formazione distribuita sono:
- Vertex AI (precedentemente AI Platform): Servizio gestito per flussi di lavoro ML, che supporta la formazione distribuita con una configurazione minima.
- Istanze VM di Compute Engine: Consente ambienti personalizzati per un maggiore controllo.
- Motore Google Kubernetes (GKE): Orchestrazione di contenitori per flussi di lavoro complessi.

Vertex AI è consigliato alla maggior parte degli utenti per la sua natura gestita, la facilità d'uso e l'integrazione con altri servizi Google Cloud.

5. Preparazione del codice di formazione per la distribuzione

Framework come TensorFlow e PyTorch offrono API per la formazione distribuita:
- TensorFlow: API `tf.distribute.Strategy`. Per la formazione distribuita multi-worker, utilizzare `tf.distribute.MultiWorkerMirroredStrategy`.
- PyTorch: `torch.nn.parallel.DistributedDataParallel` e `torch.distributed.launch`.

Esempio per TensorFlow:

python
import tensorflow as tf

strategy = tf.distribute.MultiWorkerMirroredStrategy()

def build_and_compile_model():
    model = tf.keras.Sequential([...])
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    return model

with strategy.scope():
    model = build_and_compile_model()

model.fit(train_dataset, epochs=NUM_EPOCHS)

Devi anche assicurarti che il tuo codice possa leggere i dati da Cloud Storage, ad esempio utilizzando TensorFlow I/O o le librerie Python GCS.

6. Confezionamento della domanda di formazione

Per l'esecuzione su Google Cloud, il codice deve essere impacchettato con un file `setup.py` (se eseguito come pacchetto Python) o come contenitore Docker (per una maggiore portabilità). Per Vertex AI, un pacchetto Python è sufficiente per i processi standard.

Struttura delle directory:

your_training_app/
  - trainer/
      - __init__.py
      - task.py
  - setup.py

Esempio di `setup.py`:

python
from setuptools import find_packages
from setuptools import setup

setup(
    name='trainer',
    version='0.1',
    packages=find_packages(),
    install_requires=['tensorflow==2.11.0'],
    entry_points={
        'console_scripts': [
            'task = trainer.task:main',
        ],
    },
)

7. Configurazione dell'addestramento distribuito su Vertex AI

Vertex AI consente di specificare il numero e il tipo di istanze di worker e di server parametrici per i lavori distribuiti.

- Capo:Il principale responsabile dell'orchestrazione.
- Lavoratore/i: Lavoratori aggiuntivi.
- Server dei parametri: Nodi contenenti parametri del modello (per determinate strategie distribuite).

Invia un processo di formazione distribuito con il seguente comando:

sh
gcloud ai custom-jobs create \
  --region=us-central1 \
  --display-name=distributed-training-job \
  --python-package-uris=gs://your-bucket-name/code/trainer-0.1.tar.gz \
  --python-module=trainer.task \
  --worker-pool-spec=machine-type=n1-standard-4,replica-count=1,executor-image-uri=gcr.io/cloud-aiplatform/training/tf-cpu.2-11:latest \
  --worker-pool-spec=machine-type=n1-standard-4,replica-count=3,executor-image-uri=gcr.io/cloud-aiplatform/training/tf-cpu.2-11:latest

In questo modo viene avviato un lavoro distribuito con un capo e tre lavoratori.

8. Monitoraggio della formazione e recupero dei risultati

Vertex AI fornisce un'interfaccia web per monitorare lo stato dei lavori, visualizzare i log ed esaminare l'utilizzo delle risorse. Log e artefatti del modello possono essere salvati su Cloud Storage per un facile recupero.

– Monitora i registri:
– Vertex AI Console: accedi al tuo progetto e apri i dettagli del lavoro.
– Riga di comando: `gcloud ai custom-jobs describe JOB_ID`
– Recupera gli artefatti del modello:
– I modelli vengono in genere salvati in un bucket di Cloud Storage specificato nel codice, ad esempio `gs://nome-bucket/modelli/nome_modello/`.

9. Autoscaling e ottimizzazione degli iperparametri

L'addestramento distribuito può essere combinato con l'ottimizzazione degli iperparametri utilizzando il servizio di ottimizzazione degli iperparametri di Vertex AI. È sufficiente definire lo spazio di ricerca e Vertex AI avvia più processi distribuiti con parametri diversi.

Configurazione di esempio:

yaml
trainingInput:
  scaleTier: CUSTOM
  masterType: n1-standard-4
  workerType: n1-standard-4
  parameterServerType: n1-standard-4
  workerCount: 3
  parameterServerCount: 2
  hyperparameters:
    goal: MAXIMIZE
    maxTrials: 10
    maxParallelTrials: 2
    hyperparameterMetricTag: accuracy
    params:
      - parameterName: learning_rate
        type: DOUBLE
        minValue: 0.001
        maxValue: 0.1

10. Esempio di flusso di lavoro per un lavoro TensorFlow distribuito

Illustriamo i passaggi precedenti con un esempio pratico: addestramento distribuito di un modello di classificazione delle immagini utilizzando TensorFlow su Vertex AI.

A. Preparare il set di dati
– Supponiamo che un set di dati di immagini sia archiviato in `gs://your-bucket-name/data/`.

B. Scrivere codice di addestramento distribuito
– Utilizzare `tf.distribute.MultiWorkerMirroredStrategy`.
– Imposta la variabile d'ambiente `TF_CONFIG` di TensorFlow per il coordinamento multi-worker. Su Vertex AI, questa operazione viene gestita automaticamente.

C. Confezionare e caricare l'applicazione
– Compila il pacchetto:

sh
  python setup.py sdist
  

– Caricamento su Cloud Storage:

sh
  gsutil cp dist/trainer-0.1.tar.gz gs://your-bucket-name/code/
  

D. Invia il lavoro distribuito
– Utilizzare il comando `gcloud` come sopra oppure configurare tramite la console Vertex AI.

E. Monitorare e recuperare i risultati
– Controlla i progressi nella Vertex AI Console.
– Scarica il modello addestrato dalla posizione Cloud Storage specificata per la valutazione o la distribuzione.

11. Ulteriori considerazioni

- Networking: L'addestramento distribuito richiede la comunicazione tra i nodi. Vertex AI gestisce il networking, ma quando si utilizza un'infrastruttura personalizzata (ad esempio, GKE), è necessario configurare firewall e networking in modo appropriato.
- Supporto GPU/TPU: GCP supporta l'addestramento distribuito su nodi GPU e TPU. Specifica i tipi di macchina e le immagini appropriate per sfruttare questi acceleratori.
- Contenitori personalizzati: Per casi d'uso avanzati, impacchetta il tuo codice e le tue dipendenze come contenitori Docker e invia processi personalizzati a Vertex AI.
- Gestione delle Risorse: Monitorare i costi e l'utilizzo, poiché i lavori distribuiti possono comportare un consumo significativo di risorse.
- Fault Tolerance: I framework distribuiti spesso supportano checkpoint e ripristino. Assicurati che il tuo codice salvi i checkpoint su Cloud Storage.

12. Esempio di un lavoro PyTorch distribuito utilizzando GKE

Per un maggiore controllo o quando si lavora al di fuori di Vertex AI, GKE può essere utilizzato con strumenti nativi di Kubernetes come Kubeflow.

- Passaggio 1: containerizza la tua applicazione PyTorch.
- Passaggio 2: caricare l'immagine del contenitore su Google Container Registry (GCR).
- Passaggio 3: definire un manifesto Kubernetes per un processo PyTorch distribuito (utilizzando ad esempio Kubeflow PyTorchJob CRD).
- Passaggio 4: invia il processo al cluster GKE.
- Passaggio 5: monitoraggio tramite strumenti Kubernetes e GCP.

13. Migliori Pratiche

– Utilizza servizi gestiti come Vertex AI per semplicità, affidabilità e scalabilità.
– Preferire il parallelismo dei dati per la maggior parte dei casi d’uso pratici.
– Archivia set di dati e artefatti nel Cloud Storage per un accesso unificato.
– Monitorare le metriche e i registri dei lavori per identificare i colli di bottiglia.
– Utilizzare contenitori/immagini predefiniti per i framework supportati per evitare problemi di dipendenza.
– Ripulire le risorse inutilizzate per evitare costi inutili.

14. Errori comuni e risoluzione dei problemi

– Assicurarsi che tutti i nodi di formazione possano accedere al Cloud Storage e ai dati richiesti.
– Abbinare le versioni del software (ad esempio, TensorFlow, CUDA, cuDNN) su tutti i nodi.
– Prestare attenzione agli errori di memoria esaurita; adattare di conseguenza le dimensioni dei batch e le architetture dei modelli.
– Controlla le autorizzazioni IAM di Google Cloud per le API di archiviazione, elaborazione e AI Platform.

15. Documentazione e risorse di apprendimento

– [Documentazione di Vertex AI](https://cloud.google.com/vertex-ai/docs)
– [Guida a TensorFlow distribuito](https://www.tensorflow.org/guide/distributed_training)
– [Documentazione PyTorch distribuita](https://pytorch.org/tutorials/intermediate/dist_tuto.html)
– [Documentazione di Google Cloud Storage](https://cloud.google.com/storage/docs)
– [Kubeflow su GKE](https://www.kubeflow.org/docs/gke/)

Questa procedura strutturata fornisce una roadmap didattica per praticare l'addestramento di modelli distribuiti su Google Cloud, dalla configurazione all'esecuzione, al monitoraggio e oltre. Con una comprensione di base e un'attenta attenzione ai passaggi descritti, i professionisti possono sfruttare efficacemente l'infrastruttura di Google Cloud per accelerare e scalare i flussi di lavoro di machine learning.

Altre domande e risposte recenti riguardanti Formazione distribuita nel cloud:

  • Come addestrare e distribuire in modo pratico un semplice modello di intelligenza artificiale in Google Cloud AI Platform tramite l'interfaccia GUI della console GCP in un tutorial passo passo?
  • Qual è il primo modello su cui si può lavorare con alcuni suggerimenti pratici per iniziare?
  • Quali sono gli svantaggi della formazione distribuita?
  • Quali sono i passaggi coinvolti nell'utilizzo di Cloud Machine Learning Engine per la formazione distribuita?
  • Come puoi monitorare l'avanzamento di un job di formazione in Cloud Console?
  • Qual è lo scopo del file di configurazione in Cloud Machine Learning Engine?
  • Come funziona il parallelismo dei dati nell'addestramento distribuito?
  • Quali sono i vantaggi della formazione distribuita nell'apprendimento automatico?

Altre domande e risposte:

  • Settore: Intelligenza Artificiale
  • programma: EITC/AI/GCML Google Cloud Machine Learning (vai al programma di certificazione)
  • Lezione: Ulteriori passaggi nell'apprendimento automatico (vai alla lezione correlata)
  • Argomento: Formazione distribuita nel cloud (vai all'argomento correlato)
Etichettato sotto: Intelligenza Artificiale, Sistemi distribuiti, G.K.E., Google Cloud Storage, machine Learning, PyTorch, TensorFlow, Vertice AI
Casa » Intelligenza Artificiale/Formazione distribuita nel cloud/EITC/AI/GCML Google Cloud Machine Learning/Ulteriori passaggi nell'apprendimento automatico » Qual è la procedura più semplice e dettagliata per mettere in pratica l'addestramento di modelli di intelligenza artificiale distribuiti in Google Cloud?

Centro di certificazione

MENU UTENTE

  • Il Mio Account

CATEGORIA DI CERTIFICATI

  • Certificazione EITC (105)
  • Certificazione EITCA (9)

Che cosa stai cercando?

  • Introduzione
  • Come funziona?
  • Accademie EITCA
  • Sovvenzione EITCI DSJC
  • Catalogo completo dell'EITC
  • Il tuo ordine
  • In Evidenza
  •   IT ID
  • Recensioni EITCA (Publ. media)
  • Chi Siamo
  • Contatti

EITCA Academy fa parte del framework europeo di certificazione IT

Il quadro europeo di certificazione IT è stato istituito nel 2008 come standard europeo e indipendente dai fornitori per la certificazione online ampiamente accessibile delle abilità e delle competenze digitali in molte aree delle specializzazioni digitali professionali. Il quadro EITC è disciplinato dal Istituto europeo di certificazione IT (EITCI), un'autorità di certificazione senza scopo di lucro che sostiene la crescita della società dell'informazione e colma il divario di competenze digitali nell'UE.

Idoneità per l'Accademia EITCA 80% Sovvenzione EITCI DSJC

80% delle tasse EITCA Academy sovvenzionato in iscrizione da

    Ufficio di segreteria dell'Accademia EITCA

    Istituto europeo di certificazione informatica ASBL
    Bruxelles, Belgio, Unione Europea

    Operatore del framework di certificazione EITC/EITCA
    Standard europeo di certificazione IT applicabile
    accesso a contact form oppure chiama +32 25887351

    Segui EITCI su X
    Visita EITCA Academy su Facebook
    Interagisci con EITCA Academy su LinkedIn
    Guarda i video EITCI e EITCA su YouTube

    Finanziato dall'Unione Europea

    Finanziato dalla Fondo europeo di sviluppo regionale (FESR) e le Fondo sociale europeo (FSE) in una serie di progetti dal 2007, attualmente governati dal Istituto europeo di certificazione IT (EITCI) dal 2008

    Politica sulla sicurezza delle informazioni | Politica DSRRM e GDPR | Politica di protezione dei dati | Registro delle attività di trattamento | Politica HSE | Politica anticorruzione | Politica sulla schiavitù moderna

    Traduci automaticamente nella tua lingua

    Termini e condizioni | Politica sulla Privacy
    Accademia EITCA
    • Accademia EITCA sui social media
    Accademia EITCA


    © 2008-2025  Istituto Europeo di Certificazione IT
    Bruxelles, Belgio, Unione Europea

    TOP
    Chatta con l'assistenza
    Chatta con l'assistenza
    Domande, dubbi, problemi? Siamo qui per aiutarvi!
    Termina chat
    Connettendo ...
    Hai qualche domanda?
    Hai qualche domanda?
    :
    :
    :
    Invia
    Hai qualche domanda?
    :
    :
    Avvia chat
    La sessione di chat è terminata. Grazie!
    Valuta il supporto che hai ricevuto.
    Buone Vasca