×
1 Scegli i certificati EITC/EITCA
2 Impara e sostieni gli esami online
3 Ottieni la certificazione delle tue competenze IT

Conferma le tue capacità e competenze IT nell'ambito del quadro di certificazione IT europeo da qualsiasi parte del mondo completamente online.

Accademia EITCA

Standard di attestazione delle competenze digitali da parte dell'Istituto europeo di certificazione informatica volto a sostenere lo sviluppo della società digitale

ACCEDI AL TUO ACCOUNT

CREA UN ACCOUNT HAI DIMENTICATO LA PASSWORD?

HAI DIMENTICATO LA PASSWORD?

AAH, aspetta, ora ricordo!

CREA UN ACCOUNT

HAI GIÀ UN ACCOUNT?
EUROPEE ACCADEMIA DI CERTIFICAZIONE DELLE TECNOLOGIE INFORMATICHE - ATTESTARE LE TUE COMPETENZE DIGITALI
  • ISCRIVITI
  • ACCEDI
  • INFO

Accademia EITCA

Accademia EITCA

L'Istituto europeo di certificazione delle tecnologie dell'informazione - EITCI ASBL

Fornitore di certificazione

Istituto EITCI ASBL

Bruxelles, Unione Europea

Quadro normativo europeo di certificazione IT (EITC) a supporto della professionalità IT e della società digitale

  • CERTIFICATI
    • ACCADEMIE EITCA
      • CATALOGO ACCADEMIE EITCA<
      • GRAFICA INFORMATICA EITCA/CG
      • EITCA/IS SICUREZZA DELLE INFORMAZIONI
      • INFORMAZIONI AZIENDALI EITCA/BI
      • COMPETENZE CHIAVE EITCA/KC
      • EITCA/EG E-GOVERNMENT
      • SVILUPPO WEB EITCA/WD
      • EITCA/AI ARTIFICIAL INTELLIGENCE
    • CERTIFICATI EITC
      • CATALOGO DEI CERTIFICATI EITC<
      • CERTIFICATI DI GRAFICA INFORMATICA
      • CERTIFICATI DI WEB DESIGN
      • CERTIFICATI DI PROGETTAZIONE 3D
      • CERTIFICATI IT PER L'UFFICIO
      • CERTIFICATO BLOCKCHAIN ​​DI BITCOIN
      • CERTIFICATO WORDPRESS
      • CERTIFICATO PIATTAFORMA CLOUDNUOVA
    • CERTIFICATI EITC
      • CERTIFICATI INTERNET
      • CERTIFICATI DI CRIPTOGRAFIA
      • CERTIFICATI IT COMMERCIALI
      • CERTIFICATI TELEWORK
      • CERTIFICATI DI PROGRAMMAZIONE
      • CERTIFICATO DIGITALE DI RITRATTO
      • CERTIFICATI DI SVILUPPO WEB
      • CERTIFICATI DI APPRENDIMENTO PROFONDONUOVA
    • CERTIFICATI PER
      • AMMINISTRAZIONE PUBBLICA DELL'UE
      • INSEGNANTI ED EDUCATORI
      • PROFESSIONISTI DELLA SICUREZZA IT
      • DESIGNER E ARTISTI GRAFICI
      • Uomini d'affari e dirigenti
      • SVILUPPI DELLA BLOCKCHAIN
      • SVILUPPATORI WEB
      • ESPERTI DI CLOUD AINUOVA
  • FEATURED
  • SUSSIDIO
  • COME FUNZIONA
  •   IT ID
  • CHI SIAMO
  • CONTATTI
  • IL MIO ORDINE
    Il tuo ordine attuale è vuoto.
EITCIINSTITUTE
CERTIFIED

EITC/AI/ARL Apprendimento per rinforzo avanzato

by Accademia EITCA / Domenica, 07 febbraio 2021 / Pubblicato in

Stato attuale

Non iscritto
Iscriviti a questo programma per ottenere l'accesso

Prezzo

€85.00

Inizia ora

Iscriviti per questa certificazione

EITC/AI/ARL Advanced Reinforcement Learning è il programma europeo di certificazione IT sull'approccio di DeepMind all'apprendimento per rinforzo nell'intelligenza artificiale.

Il curriculum dell'EITC/AI/ARL Advanced Reinforcement Learning si concentra sugli aspetti teorici e sulle competenze pratiche nelle tecniche di apprendimento tramite rinforzo dal punto di vista di DeepMind, organizzate nella seguente struttura, che comprende materiali di autoapprendimento completi e strutturati del curriculum di certificazione EITCI supportati da contenuti didattici video open access referenziati come base per la preparazione al conseguimento di questa certificazione EITC superando un esame corrispondente.

L'apprendimento per rinforzo (RL) è un'area dell'apprendimento automatico che si occupa di come gli agenti intelligenti dovrebbero intraprendere azioni in un ambiente al fine di massimizzare la nozione di ricompensa cumulativa. L'apprendimento per rinforzo è uno dei tre paradigmi di apprendimento automatico di base, insieme all'apprendimento supervisionato e all'apprendimento non supervisionato.

L'apprendimento per rinforzo differisce dall'apprendimento supervisionato in quanto non è necessario presentare coppie di input/output etichettati e non è necessario correggere esplicitamente azioni subottimali. L'attenzione è invece sulla ricerca di un equilibrio tra esplorazione (di territori inesplorati) e sfruttamento (delle conoscenze attuali).

L'ambiente è tipicamente definito sotto forma di un processo decisionale markoviano (MDP), perché molti algoritmi di apprendimento per rinforzo per questo contesto utilizzano tecniche di programmazione dinamica. La principale differenza tra i metodi classici di programmazione dinamica e gli algoritmi di apprendimento per rinforzo è che questi ultimi non presuppongono la conoscenza di un modello matematico esatto dell'MDP e si rivolgono a MDP di grandi dimensioni in cui i metodi esatti diventano irrealizzabili.

A causa della sua generalità, l'apprendimento per rinforzo è studiato in molte discipline, come teoria dei giochi, teoria del controllo, ricerca operativa, teoria dell'informazione, ottimizzazione basata sulla simulazione, sistemi multi-agente, swarm intelligence e statistica. Nella letteratura sulla ricerca operativa e sul controllo, l'apprendimento per rinforzo è chiamato programmazione dinamica approssimata o programmazione neuro-dinamica. I problemi di interesse nell'apprendimento per rinforzo sono stati studiati anche nella teoria del controllo ottimale, che riguarda principalmente l'esistenza e la caratterizzazione di soluzioni ottimali e algoritmi per il loro calcolo esatto, e meno l'apprendimento o l'approssimazione, in particolare in assenza di un modello matematico dell'ambiente. In economia e teoria dei giochi, l'apprendimento per rinforzo può essere utilizzato per spiegare come può sorgere l'equilibrio sotto una razionalità limitata.

Il rinforzo di base è modellato come un processo decisionale Markoviano (MDP). In matematica, un processo decisionale Markoviano (MDP) è un processo di controllo stocastico a tempo discreto. Fornisce un quadro matematico per modellare il processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte sotto il controllo di un decisore. Gli MDP sono utili per studiare i problemi di ottimizzazione risolti tramite la programmazione dinamica. Gli MDP erano noti almeno negli anni '1950. Un nucleo centrale di ricerca sui processi decisionali di Markov è il risultato del libro di Ronald Howard del 1960, Dynamic Programming and Markov Processes. Sono utilizzati in molte discipline, tra cui robotica, controllo automatico, economia e produzione. Il nome degli MDP deriva dal matematico russo Andrey Markov in quanto sono un'estensione delle catene di Markov.

In ogni fase temporale, il processo si trova in uno stato S e il decisore può scegliere qualsiasi azione a disponibile nello stato S. Il processo risponde nella fase temporale successiva spostandosi in modo casuale in un nuovo stato S 'e dando il al decisore una ricompensa corrispondente Ra (S, S ').

La probabilità che il processo si sposti nel suo nuovo stato S 'è influenzata dall'azione scelta a. Nello specifico, è dato dalla funzione di transizione di stato Pa (S, S '). Pertanto, il successivo stato S 'dipende dallo stato corrente S e dall'azione del decisore a. Ma dati S e a, è condizionatamente indipendente da tutti gli stati e le azioni precedenti. In altre parole, le transizioni di stato di un MDP soddisfano la proprietà Markov.

I processi decisionali di Markov sono un'estensione delle catene di Markov; la differenza è l'aggiunta di azioni (consentire la scelta) e ricompense (dare motivazione). Al contrario, se esiste una sola azione per ogni stato (es. "Aspetta") e tutte le ricompense sono le stesse (es. "Zero"), un processo decisionale markoviano si riduce a una catena markoviana.

Un agente di apprendimento per rinforzo interagisce con il suo ambiente in fasi temporali discrete. Ad ogni istante t, l'agente riceve lo stato corrente S (t) e la ricompensa r (t). Quindi sceglie un'azione a (t) dall'insieme di azioni disponibili, che viene successivamente inviata all'ambiente. L'ambiente si sposta in un nuovo stato S (t + 1) e viene determinata la ricompensa r (t + 1) associata alla transizione. L'obiettivo di un agente di apprendimento per rinforzo è apprendere una politica che massimizzi la ricompensa cumulativa attesa.

Formulare il problema come MDP presuppone che l'agente osservi direttamente lo stato ambientale corrente. In questo caso si dice che il problema ha piena osservabilità. Se l'agente ha accesso solo a un sottoinsieme di stati, o se gli stati osservati sono corrotti dal rumore, si dice che l'agente ha un'osservabilità parziale e formalmente il problema deve essere formulato come un processo decisionale markoviano parzialmente osservabile. In entrambi i casi, l'insieme di azioni disponibili per l'agente può essere limitato. Ad esempio, lo stato del saldo di un conto potrebbe essere limitato a essere positivo; se il valore corrente dello stato è 3 e la transizione di stato tenta di ridurre il valore di 4, la transizione non sarà consentita.

Quando le prestazioni dell'agente vengono confrontate con quelle di un agente che agisce in modo ottimale, la differenza di prestazioni dà origine alla nozione di rimpianto. Per agire in modo quasi ottimale, l'agente deve ragionare sulle conseguenze a lungo termine delle sue azioni (ovvero massimizzare il reddito futuro), sebbene la ricompensa immediata associata a ciò potrebbe essere negativa.

Pertanto, l'apprendimento per rinforzo è particolarmente adatto a problemi che includono un compromesso di ricompensa a lungo termine rispetto a quello a breve termine. È stato applicato con successo a vari problemi, tra cui il controllo del robot, la programmazione degli ascensori, le telecomunicazioni, il backgammon, la dama e il Go (AlphaGo).

Due elementi rendono potente l'apprendimento per rinforzo: l'uso di campioni per ottimizzare le prestazioni e l'uso dell'approssimazione delle funzioni per gestire ambienti di grandi dimensioni. Grazie a queste due componenti chiave, l'apprendimento per rinforzo può essere utilizzato in ambienti di grandi dimensioni nelle seguenti situazioni:

  • È noto un modello dell'ambiente, ma non è disponibile una soluzione analitica.
  • Viene fornito solo un modello di simulazione dell'ambiente (oggetto dell'ottimizzazione basata sulla simulazione).
  • L'unico modo per raccogliere informazioni sull'ambiente è interagire con esso.

I primi due di questi problemi potrebbero essere considerati problemi di pianificazione (poiché è disponibile una qualche forma di modello), mentre l'ultimo potrebbe essere considerato un vero problema di apprendimento. Tuttavia, l'apprendimento per rinforzo converte entrambi i problemi di pianificazione in problemi di apprendimento automatico.

Il compromesso tra esplorazione e sfruttamento è stato studiato in modo più approfondito attraverso il problema dei banditi multi-armati e per gli MDP nello spazio degli stati finiti in Burnetas e Katehakis (1997).

L'apprendimento per rinforzo richiede meccanismi di esplorazione intelligenti; la selezione casuale di azioni, senza riferimento a una distribuzione di probabilità stimata, mostra prestazioni scadenti. Il caso dei processi decisionali (piccoli) finiti di Markov è relativamente ben compreso. Tuttavia, a causa della mancanza di algoritmi che si adattano bene al numero di stati (o scalano a problemi con spazi di stato infiniti), i metodi di esplorazione semplici sono i più pratici.

Anche se la questione dell'esplorazione viene ignorata e anche se lo stato fosse osservabile, resta il problema di utilizzare l'esperienza passata per scoprire quali azioni portano a ricompense cumulative più elevate.

Per conoscere nel dettaglio il curriculum di certificazione puoi espandere e analizzare la tabella sottostante.

Il curriculum di certificazione EITC/AI/ARL Advanced Reinforcement Learning fa riferimento a materiali didattici open-access in formato video. Il processo di apprendimento è suddiviso in una struttura passo-passo (programmi -> lezioni -> argomenti) che copre parti del curriculum pertinenti. I partecipanti possono accedere alle risposte e porre domande più pertinenti nella sezione Domande e risposte dell'interfaccia di e-learning nell'argomento del curriculum del programma EITC attualmente in fase di sviluppo. La consulenza diretta e illimitata con esperti del settore è accessibile anche tramite il sistema di messaggistica online integrato nella piattaforma, nonché tramite il modulo di contatto.
Per i dettagli sulla procedura di certificazione controllare Come Funziona?.

Risorse di riferimento del curriculum

Controllo del livello umano attraverso la pubblicazione Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

Corso ad accesso aperto sull'apprendimento per rinforzo profondo presso l'Università di Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/

RL applicato a K-armbed bandit problem da Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning

Scarica i materiali preparatori completi di autoapprendimento offline per il programma di apprendimento rinforzato avanzato EITC/AI/ARL in un file PDF

Icona PDF Materiali preparatori EITC/AI/ARL – versione standard

Icona PDF Materiali preparatori EITC/AI/ARL – versione estesa con domande di revisione

Curriculum del programma di certificazione

Introduzione 1 argomento
Al momento non hai accesso a questo contenuto
Contenuto del modulo
0% Completato 0/1
Introduzione all'apprendimento per rinforzo
Compromesso tra esplorazione e sfruttamento 1 argomento
Al momento non hai accesso a questo contenuto
Contenuto del modulo
0% Completato 0/1
Esplorazione e sfruttamento
Processi decisionali di Markov 1 argomento
Al momento non hai accesso a questo contenuto
Contenuto del modulo
0% Completato 0/1
Processi decisionali di Markov e programmazione dinamica
Previsione e controllo 1 argomento
Al momento non hai accesso a questo contenuto
Contenuto del modulo
0% Completato 0/1
Previsione e controllo senza modelli
Apprendimento per rinforzo profondo 5 Topics
Al momento non hai accesso a questo contenuto
Contenuto del modulo
0% Completato 0/5
Approssimazione di funzioni e apprendimento per rinforzo profondo
Gradienti politici e critiche degli attori
Progettazione e modelli
Argomenti avanzati nell'apprendimento per rinforzo profondo
Agenti di apprendimento per rinforzo profondo
Casi studio 5 Topics
Al momento non hai accesso a questo contenuto
Contenuto del modulo
0% Completato 0/5
Case study sui giochi classici
AlphaGo mastering Vai
AlphaZero padroneggia gli scacchi, Shōgi e Go
AlphaZero sconfigge lo Stockfish negli scacchi
AplhaStar padroneggia StartCraft II
EITC/AI/ARL Apprendimento per rinforzo avanzato
Al momento non hai accesso a questo contenuto
Casa » Il Mio Account

Centro di certificazione

Home del programma
Introduzione
Introduzione all'apprendimento per rinforzo
Compromesso tra esplorazione e sfruttamento
Esplorazione e sfruttamento
Processi decisionali di Markov
Processi decisionali di Markov e programmazione dinamica
Previsione e controllo
Previsione e controllo senza modelli
Apprendimento per rinforzo profondo
Approssimazione di funzioni e apprendimento per rinforzo profondo
Gradienti politici e critiche degli attori
Progettazione e modelli
Argomenti avanzati nell'apprendimento per rinforzo profondo
Agenti di apprendimento per rinforzo profondo
Casi studio
Case study sui giochi classici
AlphaGo mastering Vai
AlphaZero padroneggia gli scacchi, Shōgi e Go
AlphaZero sconfigge lo Stockfish negli scacchi
AplhaStar padroneggia StartCraft II
EITC/AI/ARL Apprendimento per rinforzo avanzato

MENU UTENTE

  • Il Mio Account

CATEGORIA DI CERTIFICATI

  • Certificazione EITC (105)
  • Certificazione EITCA (9)

Che cosa stai cercando?

  • Introduzione
  • Come funziona?
  • Accademie EITCA
  • Sovvenzione EITCI DSJC
  • Catalogo completo dell'EITC
  • Il Suo ordine
  • In Evidenza
  •   IT ID
  • Recensioni EITCA (Publ. media)
  • Chi siamo
  • Contatti

EITCA Academy fa parte del framework europeo di certificazione IT

Il quadro europeo di certificazione IT è stato istituito nel 2008 come standard europeo e indipendente dai fornitori per la certificazione online ampiamente accessibile delle abilità e delle competenze digitali in molte aree delle specializzazioni digitali professionali. Il quadro EITC è disciplinato dal Istituto europeo di certificazione IT (EITCI), un'autorità di certificazione senza scopo di lucro che sostiene la crescita della società dell'informazione e colma il divario di competenze digitali nell'UE.

Idoneità per l'Accademia EITCA 90% Sovvenzione EITCI DSJC

90% delle tasse EITCA Academy sovvenzionato in iscrizione da

    Ufficio di segreteria dell'Accademia EITCA

    Istituto europeo di certificazione informatica ASBL
    Bruxelles, Belgio, Unione Europea

    Operatore del framework di certificazione EITC/EITCA
    Standard europeo di certificazione IT applicabile
    accesso a form di contatto oppure chiama +32 25887351

    Segui EITCI su X
    Visita EITCA Academy su Facebook
    Interagisci con EITCA Academy su LinkedIn
    Guarda i video EITCI e EITCA su YouTube

    Finanziato dall'Unione Europea

    Finanziato dalla Fondo europeo di sviluppo regionale (FESR) e Fondo sociale europeo (FSE) in una serie di progetti dal 2007, attualmente governati dal Istituto europeo di certificazione IT (EITCI) dal 2008

    Politica sulla sicurezza delle informazioni | Politica DSRRM e GDPR | Politica di protezione dei dati | Registro delle attività di trattamento | Politica HSE | Politica anticorruzione | Politica sulla schiavitù moderna

    Traduci automaticamente nella tua lingua

    Termini e condizioni | Politica sulla Privacy
    Accademia EITCA
    • Accademia EITCA sui social media
    Accademia EITCA


    © 2008-2026  Istituto Europeo di Certificazione IT
    Bruxelles, Belgio, Unione Europea

    TOP
    CHATTA CON IL SUPPORTO
    Hai qualche domanda?
    Ti risponderemo qui e via email. La tua conversazione verrà tracciata tramite un token di supporto.