Regularisering i forbindelse med maskinlæring er en vigtig teknik, der bruges til at forbedre generaliseringsydelsen af modeller, især når man beskæftiger sig med højdimensionelle data eller komplekse modeller, der er tilbøjelige til at overtilpasse. Overfitting opstår, når en model lærer ikke kun de underliggende mønstre i træningsdataene, men også støjen, hvilket resulterer i dårlig ydeevne på usete data. Regularisering introducerer yderligere information eller begrænsninger til en model for at forhindre overtilpasning ved at straffe alt for komplekse modeller.
Den grundlæggende idé bag regularisering er at inkorporere et strafbegreb i den tabsfunktion, som modellen forsøger at minimere. Dette strafudtryk afskrækker modellen fra at tilpasse støjen i træningsdataene ved at pålægge kompleksitet en omkostning, typisk målt ved størrelsen af modelparametrene. Ved at gøre det hjælper regularisering med at opnå en balance mellem at tilpasse træningsdataene godt og opretholde modellens evne til at generalisere til nye data.
Der er flere typer af regulariseringsteknikker, der almindeligvis anvendes i maskinlæring, hvor de mest udbredte er L1-regularisering, L2-regularisering og frafald. Hver af disse teknikker har sine egne karakteristika og anvendelser.
1. L1-regularisering (lasso-regression): L1-regularisering tilføjer en straf svarende til den absolutte værdi af koefficienternes størrelse til tabsfunktionen. Matematisk kan det repræsenteres som:
hvor er den oprindelige tabsfunktion,
er regulariseringsparameteren, og
er modellens parametre. Effekten af L1-regularisering er, at den har tendens til at producere sparsomme modeller, hvilket betyder, at den driver nogle af koefficienterne til nul, hvilket effektivt udfører funktionsvalg. Dette kan være særligt nyttigt, når man har at gøre med højdimensionelle data, hvor mange funktioner kan være irrelevante.
2. L2-regularisering (Ridge-regression): L2-regularisering tilføjer en straf svarende til kvadratet af størrelsen af koefficienter til tabsfunktionen. Det er matematisk udtrykt som:
L2-regularisering fraråder store koefficienter ved at straffe deres kvadrerede værdier, hvilket fører til et mere jævnt fordelt sæt vægte. I modsætning til L1 producerer L2-regularisering ikke sparsomme modeller, da det ikke tvinger koefficienter til at være nøjagtigt nul, men snarere holder dem små. Dette er især nyttigt for at undgå overfitting, når alle funktioner har en vis relevans.
3. Elastisk netregulering: Elastic Net kombinerer både L1- og L2-regularisering. Det er især nyttigt i situationer, hvor der er flere korrelerede funktioner. Elastic Net-straffen er en lineær kombination af L1- og L2-straffene:
Ved at indstille parametrene og
, Elastic Net kan balancere fordelene ved både L1- og L2-regularisering.
4. Droppe ud: Dropout er en regulariseringsteknik, der er specielt designet til neurale netværk. Under træning sætter dropout tilfældigt en brøkdel af noderne (neuronerne) i et lag til nul ved hver iteration. Dette forhindrer netværket i at stole for stærkt på en enkelt knude og tilskynder netværket til at lære mere robuste funktioner. Frafald er særligt effektivt i deep learning-modeller, hvor overfitting er et almindeligt problem på grund af det store antal parametre.
5. Tidlig stop: Selvom det ikke er en regulariseringsteknik i traditionel forstand, er tidlig stop en strategi til at forhindre overfitting ved at stoppe træningsprocessen, når præstationen på et valideringssæt begynder at forringes. Dette er især nyttigt i iterative metoder som gradientnedstigning, hvor modellen løbende opdateres.
Regularisering er afgørende i maskinlæring, fordi det giver modeller mulighed for at præstere godt på usete data ved at kontrollere deres kompleksitet. Valget af regulariseringsteknik og justeringen af dens parametre ( for L1 og L2 er frafaldsrate for frafald) vigtige og kræver ofte eksperimenter og krydsvalidering for at opnå optimale resultater.
Overvej for eksempel en lineær regressionsmodel trænet på et datasæt med mange funktioner. Uden regularisering kan modellen tildele store vægte til nogle funktioner, der passer til træningsdataene meget tæt, men yder dårligt på testdata på grund af overtilpasning. Ved at anvende L2-regularisering tilskyndes modellen til at fordele vægte mere jævnt, hvilket potentielt kan føre til bedre generalisering på nye data.
I et andet scenarie kan et neuralt netværk trænet på billeddata overfitte ved at huske specifikke mønstre i træningsbillederne. Ved at anvende dropout tvinges netværket til at lære mere generelle funktioner, der er nyttige på tværs af forskellige billeder, hvilket forbedrer dets ydeevne på usete data.
Regularisering er et grundlæggende koncept i maskinlæring, der hjælper med at forhindre overtilpasning ved at tilføje en straf for kompleksitet til modellens tabsfunktion. Ved at kontrollere modellens kompleksitet muliggør regulariseringsteknikker som L1, L2, Elastic Net, dropout og tidligt stop bedre generalisering til nye data, hvilket gør dem til uundværlige værktøjer i maskinlæringspraktikerens værktøjskasse.
Andre seneste spørgsmål og svar vedr EITC/AI/GCML Google Cloud Machine Learning:
- Hvad er præstationsevalueringsmålingerne for en model?
- Hvad er lineær regression?
- Er det muligt at kombinere forskellige ML-modeller og bygge en master AI?
- Hvad er nogle af de mest almindelige algoritmer, der bruges i maskinlæring?
- Hvordan opretter man en version af modellen?
- Hvordan anvender man de 7 trin i ML i en eksempelsammenhæng?
- Hvordan kan maskinlæring anvendes på byggetilladelsesdata?
- Hvorfor blev AutoML Tables udgået, og hvad efterfølger dem?
- Hvad er opgaven med at fortolke doodles tegnet af spillere i forbindelse med AI?
- Når læsematerialerne taler om "at vælge den rigtige algoritme", betyder det, at stort set alle mulige algoritmer allerede eksisterer? Hvordan ved vi, at en algoritme er den "rigtige" til et specifikt problem?
Se flere spørgsmål og svar i EITC/AI/GCML Google Cloud Machine Learning