Konvolutionelle neurale netværk (CNN'er) blev først designet med henblik på billedgenkendelse inden for computersyn. Disse netværk er en specialiseret type kunstigt neurale netværk, der har vist sig at være yderst effektive til at analysere visuelle data. Udviklingen af CNN'er var drevet af behovet for at skabe modeller, der præcist kunne klassificere og kategorisere billeder, og deres succes på dette domæne har ført til deres udbredte brug i forskellige andre applikationer såsom objektdetektion, billedsegmentering og endda naturlig sprogbehandling.
CNN'er er inspireret af strukturen og funktionaliteten af den visuelle cortex i den menneskelige hjerne. Ligesom den visuelle cortex består CNN'er af flere lag af indbyrdes forbundne neuroner, der behandler forskellige aspekter af inputdataene. CNNs nøgleinnovation ligger i deres evne til automatisk at lære og udtrække relevante funktioner fra billeder, hvilket eliminerer behovet for manuel feature engineering. Dette opnås ved brug af foldningslag, som anvender filtre på inputbilledet for at detektere forskellige visuelle mønstre og funktioner, såsom kanter, hjørner og teksturer.
Det første gennembrud i CNN'er kom med introduktionen af LeNet-5-arkitekturen af Yann LeCun et al. i 1998. LeNet-5 blev specielt designet til håndskrevet ciffergenkendelse og opnåede en bemærkelsesværdig ydeevne på MNIST-datasættet, et benchmark-datasæt, der er meget brugt til at evaluere billedgenkendelsesalgoritmer. LeNet-5 demonstrerede kraften i CNN'er til at fange hierarkiske træk fra billeder, hvilket muliggjorde nøjagtig klassificering selv i tilstedeværelsen af variationer i skala, rotation og translation.
Siden da har CNN'er udviklet sig betydeligt, hvor dybere og mere komplekse arkitekturer er blevet udviklet. Et bemærkelsesværdigt fremskridt var introduktionen af AlexNet-arkitekturen af Alex Krizhevsky et al. i 2012. AlexNet opnåede et gennembrud inden for billedklassificering ved at vinde ImageNet Large Scale Visual Recognition Challenge (ILSVRC) med en markant lavere fejlrate sammenlignet med tidligere tilgange. Denne succes banede vejen for den udbredte anvendelse af CNN'er i billedgenkendelsesopgaver.
CNN'er er også blevet anvendt med succes til andre computervisionsopgaver. For eksempel ved objektdetektering kan CNN'er kombineres med yderligere lag for at lokalisere og klassificere objekter i et billede. Det berømte Region-baserede Convolutional Neural Network (R-CNN) introduceret af Ross Girshick et al. i 2014 er et eksempel på en sådan arkitektur. R-CNN opnåede state-of-the-art resultater på benchmarks for objektdetektering ved at udnytte kraften i CNN'er til udtræk af funktioner og kombinere det med regionsforslagsmetoder.
Konvolutionelle neurale netværk blev først designet til billedgenkendelsesopgaver inden for computersyn. De har revolutioneret feltet ved automatisk at lære relevante funktioner fra billeder, hvilket eliminerer behovet for manuel funktionsudvikling. Udviklingen af CNN'er har ført til betydelige fremskridt inden for billedklassificering, objektdetektering og forskellige andre computervisionsopgaver.
Andre seneste spørgsmål og svar vedr EITC/AI/ADL Advanced Deep Learning:
- Hvorfor skal vi anvende optimeringer i maskinlæring?
- Hvornår opstår overfitting?
- Kan Convolutional Neural Networks håndtere sekventielle data ved at inkorporere foldninger over tid, som brugt i Convolutional Sequence to Sequence-modeller?
- Stoler Generative Adversarial Networks (GAN'er) på ideen om en generator og en diskriminator?