Hvorfor er evalueringen 80% for træning og 20% for evaluering, men ikke det modsatte?

by Nguyen Xuan Tung / Torsdag 17 August 2023 / Udgivet i Kunstig intelligens, EITC/AI/GCML Google Cloud Machine Learning, Første trin i maskinindlæring, De 7 trin i maskinlæring

Tildelingen af 80 % vægtning til træning og 20 % vægtning til evaluering i forbindelse med maskinlæring er en strategisk beslutning baseret på flere faktorer. Denne fordeling har til formål at finde en balance mellem optimering af læreprocessen og sikring af præcis evaluering af modellens ydeevne. I dette svar vil vi dykke ned i årsagerne bag dette valg og undersøge den didaktiske værdi, det giver.

For at forstå rationalet bag 80 % træning og 20 % evalueringsfordeling er det afgørende at forstå de syv trin i maskinlæring. Disse trin, som omfatter dataindsamling, dataforberedelse, modeltræning, modelevaluering, modeljustering, modelimplementering og modelovervågning, danner en omfattende ramme for opbygning af maskinlæringsmodeller.

Det indledende trin, dataindsamling, involverer indsamling af relevante data for at træne modellen. Disse data bliver derefter forbehandlet og forberedt i dataforberedelsesfasen. Når dataene er klar, begynder modeltræningsfasen, hvor modellen eksponeres for træningsdatasættet for at lære mønstre og sammenhænge. Modellens ydeevne evalueres derefter ved hjælp af et separat datasæt i modelevalueringsfasen.

Beslutningen om at allokere 80 % vægt til træning og 20 % vægtning til evaluering stammer fra det faktum, at træning er den primære fase, hvor modellen lærer af dataene. Under træning justerer modellen sine interne parametre for at minimere forskellen mellem dens forudsagte output og de faktiske output i træningsdatasættet. Denne proces involverer iterativ opdatering af modellens parametre ved hjælp af optimeringsalgoritmer såsom gradientnedstigning.

Ved at tildele træning en højere vægt, prioriterer vi modellens evne til at lære af dataene og fange komplekse mønstre. Træningsfasen er, hvor modellen tilegner sig sin viden og generaliserer fra træningsdatasættet for at lave forudsigelser på usete data. Jo flere træningsdata modellen udsættes for, jo bedre kan den lære og generalisere. Dedikering af en væsentlig del af evalueringsprocessen til træning sikrer derfor, at modellen har tilstrækkelig eksponering for træningsdataene til effektiv læring.

På den anden side spiller evalueringsfasen en afgørende rolle i vurderingen af modellens præstation på usete data. Evalueringsdatasættet, som er adskilt fra træningsdatasættet, fungerer som en proxy for scenarier i den virkelige verden. Det giver os mulighed for at måle, hvor godt modellen kan generalisere sin læring til nye og usete tilfælde. Evaluering af modellens ydeevne er afgørende for at måle dens nøjagtighed, præcision, genkaldelse eller andre relevante målinger, afhængigt af det specifikke problemdomæne.

De 20 % vægtning, der gives til evaluering, sikrer, at modellen testes grundigt på usete data og giver en realistisk vurdering af dens muligheder. Denne evalueringsfase hjælper med at afdække eventuelle potentielle problemer såsom overfitting, underfitting eller bias i modellens forudsigelser. Det muliggør også finjustering af hyperparametre og modelarkitektur for at forbedre ydeevnen.

For at illustrere dette koncept, lad os overveje et praktisk eksempel. Antag, at vi træner en maskinlæringsmodel til at klassificere billeder af katte og hunde. I løbet af træningsfasen lærer modellen at skelne mellem egenskaberne hos katte og hunde ved at analysere et stort datasæt af mærkede billeder. Jo flere billeder modellen kan træne på, jo bedre bliver den til at skelne mellem de to klasser.

Når uddannelsen er afsluttet, evalueres modellen ved hjælp af et separat datasæt, der indeholder billeder, den aldrig har set før. Denne evalueringsfase tester modellens evne til at generalisere dens læring og præcist klassificere nye, usete billeder. Ved at allokere 20 % vægtning til evaluering sikrer vi, at modellens ydeevne vurderes grundigt på usete data, hvilket giver et pålideligt mål for dens effektivitet.

Fordelingen af 80 % vægtning til træning og 20 % vægtning til evaluering i machine learning er et strategisk valg, der sigter mod at optimere læringsprocessen og samtidig sikre præcis vurdering af modellens præstation. Ved at dedikere en væsentlig del af evalueringsprocessen til træning, prioriterer vi modellens evne til at lære af dataene og fange komplekse mønstre. Samtidig tester evalueringsfasen grundigt modellen på usete data, hvilket giver en realistisk vurdering af dens muligheder.

Andre seneste spørgsmål og svar vedr EITC/AI/GCML Google Cloud Machine Learning:

Se flere spørgsmål og svar i EITC/AI/GCML Google Cloud Machine Learning

Flere spørgsmål og svar:

Mark: Kunstig intelligens
program: EITC/AI/GCML Google Cloud Machine Learning (gå til certificeringsprogrammet)
Lektie: Første trin i maskinindlæring (gå til relateret lektion)
Emne: De 7 trin i maskinlæring (gå til relateret emne)

Tagged under: Kunstig intelligens, Dataforberedelse, Maskinelæring, Modelvurdering, Model træning, Optimeringsalgoritmer

EITCA Academy

Hvorfor er evalueringen 80% for træning og 20% for evaluering, men ikke det modsatte?

Andre seneste spørgsmål og svar vedr EITC/AI/GCML Google Cloud Machine Learning:

Flere spørgsmål og svar:

EITCA Academy er en del af den europæiske IT-certificeringsramme

Berettigelse til EITCA Academy 80% EITCI DSJC Subsidie support

EITCA Academy

Log ind på din konto af enten dit brugernavn eller e-mail-adresse

FORGÅ DIN DETALJER?

OPRET EN KONTO

Hvorfor er evalueringen 80% for træning og 20% ​​for evaluering, men ikke det modsatte?

Andre seneste spørgsmål og svar vedr EITC/AI/GCML Google Cloud Machine Learning:

Flere spørgsmål og svar:

Berettigelse til EITCA Academy 80% EITCI DSJC Subsidie ​​support

Hvorfor er evalueringen 80% for træning og 20% for evaluering, men ikke det modsatte?

Berettigelse til EITCA Academy 80% EITCI DSJC Subsidie support