×
1 Vælg EITC/EITCA-certifikater
2 Lær og tag online eksamener
3 Få dine IT-kompetencer certificeret

Bekræft dine it-færdigheder og -kompetencer under den europæiske it-certificeringsramme fra hvor som helst i verden, helt online.

EITCA Academy

Standard for attestering af digitale færdigheder af European IT Certification Institute med det formål at understøtte udviklingen af ​​det digitale samfund

Log ind på din konto af enten dit brugernavn eller e-mail-adresse

OPRET EN KONTO Glemt din adgangskode?

FORGÅ DIN DETALJER?

AAH, vent, jeg HUSK NU!

OPRET EN KONTO

HAR DU ALLEREDE EN BRUGER?
EUROPÆISKE INFORMATIONSTEKNOLOGIER CERTIFICERINGSAKADEMI - AT TESTE DINE FAGLIGE DIGITALE FÆRDIGHEDER
  • TILMELD DIG
  • LOGIN
  • INFO

EITCA Academy

EITCA Academy

Det Europæiske Institut for Certifikation af Informationsteknologi - EITCI ASBL

Certificeringsmyndighed

EITCI Instituttet

Bruxelles, Den Europæiske Union

Regulerende europæisk it-certificering (EITC) -standard til støtte for it-professionalisme og det digitale samfund

  • CERTIFIKATER
    • EITCA-AKADEMIER
      • EITCA ACADEMIES-KATALOG<
      • EITCA/CG COMPUTER GRAFIK
      • EITCA/ER INFORMATIONSSIKKERHED
      • EITCA/BI FORRETNINGSINFORMATION
      • EITCA/KC Nøglekompetencer
      • EITCA/EG E-REGERING
      • EITCA/WD WEB UDVIKLING
      • EITCA/AI KUNSTIG INTELLIGENCE
    • EITC-CERTIFIKATER
      • EITC CERTIFIKATER KATALOG<
      • COMPUTERGRAFIKCERTIFIKATER
      • WEB-DESIGNCERTIFIKATER
      • 3D-DESIGNCERTIFIKATER
      • KONTOR DETS CERTIFIKATER
      • BITCOIN BLOCKCHAIN ​​CERTIFIKAT
      • WORDPRESS CERTIFIKAT
      • CLOUD PLATFORM CERTIFIKATNY
    • EITC-CERTIFIKATER
      • INTERNETCERTIFIKATER
      • KRYPTOGRAFICERTIFIKATER
      • FORRETNINGSDET CERTIFIKATER
      • TELEVERKSCERTIFIKATER
      • PROGRAMMERINGSCERTIFIKATER
      • DIGITAL PORTRETSCERTIFIKAT
      • WEBUDVIKLINGSCERTIFIKATER
      • DYPE LÆRINGSCERTIFIKATERNY
    • CERTIFIKATER FOR
      • EU OFFENTLIG ADMINISTRATION
      • LÆRERE OG UDDANNELSE
      • DET SIKKERHEDSFORLIGERE
      • GRAFIK DESIGNERE & KUNSTNERE
      • BUSINESSMEN OG MANAGERS
      • BLOCKCHAIN-UDVIKLERE
      • WEB-UDVIKLERE
      • CLOUD AI EKSPERTERNY
  • SPECIAL
  • TILSKUD
  • SÅDAN VIRKER DET
  •   IT ID
  • OM
  • KONTAKT
  • MIN BESTILLING
    Din nuværende ordre er tom.
EITCIINSTITUTE
CERTIFIED

EITC/AI/ARL Advanced Reinforced Learning

by admin / Søndag, 07 februar 2021 / Udgivet i Ikke kategoriseret
Nuværende status
Ikke tilmeldt
Pris
€110
Kom i gang
Tilmeld dig denne certificering

EITC/AI/ARL Advanced Reinforced Learning er det europæiske it-certificeringsprogram for DeepMinds tilgang til styrket læring inden for kunstig intelligens.

Læreplanen for EITC/AI/ARL Advanced Reinforced Learning fokuserer på teoretiske aspekter og praktiske færdigheder i forstærkede læringsteknikker fra DeepMind's perspektiv organiseret inden for følgende struktur og omfatter omfattende videodidaktisk indhold som reference for denne EITC-certificering.

Forstærkelsesindlæring (RL) er et område med maskinindlæring, der beskæftiger sig med, hvordan intelligente agenter burde tage handlinger i et miljø for at maksimere forestillingen om kumulativ belønning. Forstærkelsesindlæring er et af tre grundlæggende maskinindlæringsparadigmer sammen med overvåget læring og ikke-overvåget læring.

Forstærkningslæring adskiller sig fra overvåget læring ved ikke at have behov for mærket input/output-par præsenteres og ikke behov for suboptimale handlinger, der skal rettes eksplicit. I stedet er fokus på at finde en balance mellem udforskning (af ukendt territorium) og udnyttelse (af nuværende viden).

Miljøet er typisk angivet i form af en Markov-beslutningsproces (MDP), fordi mange forstærkningsindlæringsalgoritmer i denne sammenhæng bruger dynamiske programmeringsteknikker. Hovedforskellen mellem de klassiske dynamiske programmeringsmetoder og forstærkningsindlæringsalgoritmer er, at sidstnævnte ikke antager kendskab til en nøjagtig matematisk model af MDP, og de målretter mod store MDP'er, hvor nøjagtige metoder bliver umulige.

På grund af dets almindelighed studeres forstærkningslæring i mange discipliner, såsom spilteori, kontrolteori, operationsforskning, informationsteori, simuleringsbaseret optimering, multi-agent-systemer, sværmintelligens og statistik. I operationsforskning og kontrollitteratur kaldes forstærkningslæring omtrentlig dynamisk programmering eller neurodynamisk programmering. Problemerne med interesse for forstærkningslæring er også blevet undersøgt i teorien om optimal kontrol, som hovedsagelig vedrører eksistensen og karakteriseringen af ​​optimale løsninger og algoritmer til deres nøjagtige beregning og mindre med læring eller tilnærmelse, især i fravær af en matematisk model for miljøet. I økonomi og spilteori kan forstærkningslæring bruges til at forklare, hvordan ligevægt kan opstå under begrænset rationalitet.

Grundlæggende forstærkning modelleres som en Markov-beslutningsproces (MDP). I matematik er en Markov-beslutningsproces (MDP) en diskret stokastisk kontrolproces. Det giver en matematisk ramme til modellering af beslutningstagning i situationer, hvor resultaterne dels er tilfældige og dels under kontrol af en beslutningstager. MDP'er er nyttige til at studere optimeringsproblemer løst via dynamisk programmering. MDP'er var kendt mindst så tidligt som i 1950'erne. En grundlæggende undersøgelse af Markovs beslutningsprocesser var resultatet af Ronald Howards 1960-bog, Dynamic Programming og Markov Processes. De bruges i mange discipliner, herunder robotik, automatisk kontrol, økonomi og fremstilling. Navnet på MDP'er kommer fra den russiske matematiker Andrey Markov, da de er en udvidelse af Markov-kæder.

Ved hvert tidstrin er processen i en eller anden tilstand S, og beslutningstageren kan vælge enhver handling a, der er tilgængelig i tilstand S. Processen reagerer ved næste trin ved tilfældigt at flytte ind i en ny tilstand S 'og give beslutningstager en tilsvarende belønning Ra (S, S ').

Sandsynligheden for, at processen bevæger sig i sin nye tilstand S ', påvirkes af den valgte handling a. Specifikt er det givet af tilstandsovergangsfunktionen Pa (S, S '). Således afhænger den næste tilstand S 'af den aktuelle tilstand S og beslutningstagerens handling a. Men givet S og a er det betinget uafhængigt af alle tidligere stater og handlinger. Med andre ord tilfredsstiller statsovergange af en MDP Markov-ejendommen.

Markovs beslutningsprocesser er en udvidelse af Markov-kæder; forskellen er tilføjelsen af ​​handlinger (tillader valg) og belønninger (giver motivation). Omvendt, hvis der kun findes en handling for hver stat (f.eks. "Vent") og alle belønninger er de samme (f.eks. "Nul"), reduceres en Markov-beslutningsproces til en Markov-kæde.

En forstærkende læringsagent interagerer med sit miljø i diskrete tidstrin. Ved hver gang t modtager agenten den aktuelle tilstand S (t) og belønning r (t). Derefter vælger en handling a (t) fra det sæt tilgængelige handlinger, som derefter sendes til miljøet. Miljøet bevæger sig til en ny tilstand S (t + 1), og belønningen r (t + 1) tilknyttet overgangen bestemmes. Målet med en forstærkende læringsagent er at lære en politik, der maksimerer den forventede kumulative belønning.

Formuleringen af ​​problemet som en MDP forudsætter, at agenten direkte overholder den aktuelle miljøtilstand. I dette tilfælde siges det, at problemet har fuld observerbarhed. Hvis agenten kun har adgang til en delmængde af tilstande, eller hvis de observerede tilstande er ødelagt af støj, siges det, at agenten har delvis observerbarhed, og formelt skal problemet formuleres som en delvist observerbar Markov-beslutningsproces. I begge tilfælde kan det handlingssæt, der er tilgængeligt for agenten, begrænses. F.eks. Kan tilstanden for en kontosaldo være begrænset til at være positiv; hvis tilstandens aktuelle værdi er 3, og tilstandsovergangen forsøger at reducere værdien med 4, er overgangen ikke tilladt.

Når agentens ydeevne sammenlignes med en agent, der fungerer optimalt, giver forskellen i ydeevne begrebet beklagelse. For at kunne handle næsten optimalt skal agenten begrunde de langsigtede konsekvenser af sine handlinger (dvs. maksimere fremtidig indkomst), skønt den øjeblikkelige belønning, der er forbundet med dette, kan være negativ.

Således er forstærkningslæring særdeles velegnet til problemer, der inkluderer en langsigtet kontra kortvarig belønning. Det er blevet anvendt med succes til forskellige problemer, herunder robotstyring, elevatorplanlægning, telekommunikation, backgammon, brikker og Go (AlphaGo).

To elementer gør forstærkningslæring kraftig: brugen af ​​prøver til at optimere ydeevnen og brugen af ​​funktionstilnærmelse til at håndtere store miljøer. Takket være disse to nøglekomponenter kan forstærkningslæring bruges i store miljøer i følgende situationer:

  • En miljømodel er kendt, men en analytisk løsning er ikke tilgængelig.
  • Kun en simulationsmodel af miljøet er givet (emnet for simuleringsbaseret optimering).
  • Den eneste måde at indsamle oplysninger om miljøet på er at interagere med det.

De to første af disse problemer kunne betragtes som planlægningsproblemer (da en eller anden form for model er tilgængelig), mens den sidste kunne betragtes som et ægte læringsproblem. Imidlertid konverterer forstærkningslæring begge planlægningsproblemer til maskinlæringsproblemer.

Efterforskning mod udnyttelse af kompromis er blevet undersøgt mest grundigt gennem det flerarmede banditproblem og for endelige statsrums-MDP'er i Burnetas og Katehakis (1997).

Forstærkningslæring kræver kloge efterforskningsmekanismer; tilfældig valg af handlinger uden henvisning til en estimeret sandsynlighedsfordeling viser dårlig ydeevne. Sagen om (små) endelige Markov-beslutningsprocesser forstås relativt godt. På grund af manglen på algoritmer, der skalerer godt med antallet af tilstande (eller skalerer til problemer med uendelige tilstandsrum), er enkle udforskningsmetoder imidlertid de mest praktiske.

Selvom spørgsmålet om efterforskning ignoreres, og selvom staten var observerbar, er problemet stadig at bruge tidligere erfaringer til at finde ud af, hvilke handlinger der fører til højere kumulative belønninger.

For at gøre dig nærmere bekendt med certificeringspensum kan du udvide og analysere nedenstående tabel.

EITC/AI/ARL Advanced Reinforced Learning Certification Curriculum refererer til didaktisk materiale med åben adgang i en videoform. Læreprocessen er opdelt i en trin-for-trin struktur (programmer -> lektioner -> emner), der dækker relevante læseplansdele. Der tilbydes også ubegrænset rådgivning med domæneeksperter.
Tjek for detaljer om certificeringsproceduren Sådan fungerer det.

Ressourcer til læseplanreferencer

Kontrol på menneskeligt niveau gennem offentliggørelse af dyb forstærkningslæring
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

Åben adgangskursus om dyb forstærkningslæring ved UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/

RL anvendt på K-armbed bandit problem fra Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning

Certificeringsprogram Curriculum

Udvid alle
Introduktion 1 emne
Udvid
Lektionsindhold
0% Komplet 0/1 trin
Introduktion til forstærkningslæring
Afvejning mellem efterforskning og udnyttelse 1 emne
Udvid
Lektionsindhold
0% Komplet 0/1 trin
Efterforskning og udnyttelse
Markov beslutningsprocesser 1 emne
Udvid
Lektionsindhold
0% Komplet 0/1 trin
Markov beslutningsprocesser og dynamisk programmering
Forudsigelse og kontrol 1 emne
Udvid
Lektionsindhold
0% Komplet 0/1 trin
Modelfri forudsigelse og kontrol
Dyb forstærkning læring 5 emner
Udvid
Lektionsindhold
0% Komplet 0/5 trin
Funktionstilnærmelse og dyb forstærkningslæring
Politikgradienter og skuespillerkritikere
Planlægning og modeller
Avancerede emner inden for dyb forstærkningslæring
Dyb forstærkning læringsagenter
Casestudier 5 emner
Udvid
Lektionsindhold
0% Komplet 0/5 trin
Klassisk spil casestudie
AlphaGo mastering af Go
AlphaZero mestrer skak, Shōgi og Go
AlphaZero besejrer Stockfish i skak
AplhaStar mestrer StartCraft II
EITC/AI/ARL Advanced Reinforcement Learning
  • Tweet

Om admin

Forside » Min profil

Certificeringscenter

Program Hjem Udvid alle
Introduktion
1 emne
Introduktion til forstærkningslæring
Afvejning mellem efterforskning og udnyttelse
1 emne
Efterforskning og udnyttelse
Markov beslutningsprocesser
1 emne
Markov beslutningsprocesser og dynamisk programmering
Forudsigelse og kontrol
1 emne
Modelfri forudsigelse og kontrol
Dyb forstærkning læring
5 emner
Funktionstilnærmelse og dyb forstærkningslæring
Politikgradienter og skuespillerkritikere
Planlægning og modeller
Avancerede emner inden for dyb forstærkningslæring
Dyb forstærkning læringsagenter
Casestudier
5 emner
Klassisk spil casestudie
AlphaGo mastering af Go
AlphaZero mestrer skak, Shōgi og Go
AlphaZero besejrer Stockfish i skak
AplhaStar mestrer StartCraft II
EITC/AI/ARL Advanced Reinforcement Learning

BRUGERMENU

  • Mine reservationer

CERTIFIKATKATEGORI

  • EITC-certificering (105)
  • EITCA-certificering (9)

Hvad leder du efter?

  • Introduktion
  • Hvordan det virker?
  • EITCA akademier
  • EITCI DSJC-tilskud
  • Fuldt EITC-katalog
  • Din ordre
  • Udvalgt
  •   IT ID
  • Om
  • Kontakt

    EITCA Akademiets administrative kontor

    Europæisk IT-certificeringsinstitut
    Bruxelles, Belgien, Den Europæiske Union

    EITC/EITCA Certification Authority
    Gældende europæisk it-certificeringsstandard
    Adgang kontaktformular eller opkald + 32 25887351

    10 dage siden #EITC/WD/WPF WordPress Fundamentals-certifikat (en del af #EITCA/WD) attesterer ekspertise i #WordPress CMS, i... https://t.co/A2jjXPeKgj
    Følg @EITCI

    Oversæt automatisk til dit sprog

    Vilkår & Betingelser | Privatlivspolitik
    Følg @EITCI
    EITCA Academy
    • EITCA Academy på sociale medier
    EITCA Academy


    © 2008-2023  Europæisk IT-certificeringsinstitut
    Bruxelles, Belgien, Den Europæiske Union

    TOP
    Chat med support
    Chat med support
    Spørgsmål, tvivl, problemer? Vi er her for at hjælpe dig!
    Afslut chat
    Tilslutning ...
    Har du et spørgsmål? Spørg os!
    Har du et spørgsmål? Spørg os!
    :
    :
    :
    Send
    Har du et spørgsmål? Spørg os!
    :
    :
    Start chat
    Chat-sessionen er afsluttet. Tak skal du have!
    Bedøm den support, du har modtaget.
    god Bad