Maskinlæringsområdet omfatter en række forskellige metoder og paradigmer, der hver især er egnede til forskellige typer data og problemer. Blandt disse paradigmer er overvåget og uovervåget læring to af de mest fundamentale.
Superviseret læring involverer træning af en model på et mærket datasæt, hvor inputdata er parret med det korrekte output. Modellen lærer at kortlægge input til output ved at minimere fejlen mellem dens forudsigelser og de faktiske output. Uovervåget læring omhandler på den anden side umærkede data, hvor målet er at udlede den naturlige struktur, der er til stede inden for et sæt af datapunkter.
Der findes en type læring, der integrerer både overvåget og uovervåget læringsteknikker, ofte omtalt som semi-superviseret læring. Denne tilgang udnytter både mærkede og umærkede data under træningsprocessen. Rationalet bag semi-overvåget læring er, at umærkede data, når de bruges sammen med en lille mængde mærkede data, kan give en betydelig forbedring af læringsnøjagtigheden. Dette er især nyttigt i scenarier, hvor mærkede data er sparsomme eller dyre at skaffe, men umærkede data er rigelige og nemme at indsamle.
Semi-superviseret læring er baseret på den antagelse, at den underliggende struktur af de umærkede data kan give værdifuld information, der er komplementær til de mærkede data. Denne antagelse kan antage flere former, såsom klyngeantagelsen, manifoldantagelsen eller lavdensitetsadskillelsesantagelsen. Klyngeantagelsen antyder, at datapunkter i den samme klynge sandsynligvis har den samme etiket. Den mangfoldige antagelse antyder, at højdimensionelle data ligger på en mangfoldighed af meget lavere dimensionalitet, og opgaven er at lære denne mangfoldighed. Lavdensitetsadskillelsesantagelsen er baseret på ideen om, at beslutningsgrænsen skal ligge i et område med lav datatæthed.
En af de almindelige teknikker, der anvendes i semi-superviseret læring, er selvtræning. I selvtræning trænes en model i første omgang på de mærkede data. Den bruger derefter sine egne forudsigelser på de umærkede data som pseudo-labels. Modellen trænes yderligere på dette udvidede datasæt, der iterativt forfiner sine forudsigelser. En anden teknik er co-training, hvor to eller flere modeller trænes samtidigt på forskellige visninger af data. Hver model er ansvarlig for at mærke en del af de umærkede data, som derefter bruges til at træne de andre modeller. Denne metode udnytter redundansen i flere visninger af dataene for at forbedre læringspræstationen.
Graf-baserede metoder er også fremherskende i semi-superviseret læring. Disse metoder konstruerer en graf, hvor noder repræsenterer datapunkter, og kanter repræsenterer ligheder mellem dem. Læringsopgaven omformuleres herefter som et grafbaseret optimeringsproblem, hvor målet er at udbrede labels fra de mærkede noder til de umærkede samtidig med at grafstrukturen bevares. Disse teknikker er særligt effektive i domæner, hvor data naturligt danner et netværk, såsom sociale netværk eller biologiske netværk.
En anden tilgang til at kombinere superviseret og uovervåget læring er gennem multi-task læring. I multi-task læring løses flere læringsopgaver samtidigt, mens der udnyttes fællestræk og forskelle på tværs af opgaver. Dette kan ses som en form for induktiv overførsel, hvor viden opnået fra én opgave er med til at forbedre indlæringen af en anden. Multi-task læring kan være særlig fordelagtig, når der er en delt repræsentation eller funktionsrum mellem opgaverne, hvilket giver mulighed for overførsel af information.
Et praktisk eksempel på semi-superviseret læring er inden for naturlig sprogbehandling (NLP). Overvej opgaven med følelsesanalyse, hvor målet er at klassificere en given tekst som positiv eller negativ. Mærkede data, såsom anmeldelser med følelsesetiketter, kan være begrænset. Der er dog en stor mængde umærket tekst tilgængelig. En semi-overvåget læringstilgang kunne involvere at træne en sentimentklassifikator på de mærkede data og bruge den til at forudsige følelsen af de umærkede data. Disse forudsigelser kan derefter bruges som yderligere træningsdata, hvilket forbedrer klassificererens præstation.
Et andet eksempel kan findes i billedklassificering. I mange tilfælde er det arbejdskrævende og dyrt at få mærkede billeder, hvorimod umærkede billeder er rigeligt. En semi-overvåget tilgang kan involvere at bruge et lille sæt mærkede billeder til at træne en indledende model. Denne model kan derefter anvendes på de umærkede billeder for at generere pseudo-labels, som efterfølgende bruges til at genoptræne modellen.
Integrationen af overvåget og uovervåget læring gennem semi-overvåget læring og relaterede metoder repræsenterer en kraftfuld tilgang til maskinlæring. Ved at udnytte styrkerne ved begge paradigmer er det muligt at opnå betydelige forbedringer i modelydelsen, især i domæner, hvor mærkede data er begrænsede, men umærkede data er rigelige. Denne tilgang forbedrer ikke kun modellernes evne til at generalisere ud fra begrænsede data, men giver også en mere robust ramme til at forstå den underliggende struktur af komplekse datasæt.
Andre seneste spørgsmål og svar vedr EITC/AI/GCML Google Cloud Machine Learning:
- Hvad er opgaven med at fortolke doodles tegnet af spillere?
- Når læsematerialerne taler om "at vælge den rigtige algoritme", betyder det, at stort set alle mulige algoritmer allerede eksisterer? Hvordan ved vi, at en algoritme er den "rigtige" til et specifikt problem?
- Hvilke hyperparametre bruges i maskinlæring?
- Whawt er programmeringssproget til maskinlæring, det er bare Python
- Hvordan anvendes maskinlæring i videnskabsverdenen?
- Hvordan beslutter du, hvilken maskinlæringsalgoritme du skal bruge, og hvordan finder du den?
- Hvad er forskellene mellem Federated Learning, Edge Computing og On-Device Machine Learning?
- Hvordan forbereder og renser man data før træning?
- Hvad er de specifikke indledende opgaver og aktiviteter i et maskinlæringsprojekt?
- Hvad er tommelfingerreglerne for at vedtage en specifik maskinlæringsstrategi og model?
Se flere spørgsmål og svar i EITC/AI/GCML Google Cloud Machine Learning