Hvordan kan du få adgang til den udpakkede tekst fra et billede ved hjælp af Google Vision API?

by EITCA Academy / Onsdag 27 December 2023 / Udgivet i Kunstig intelligens, EITC/AI/GVAPI Google Vision API, Forståelse af tekst i visuelle data, Registrering og udpakning af tekst fra håndskrift, Eksamensgennemgang

For at få adgang til den udtrukne tekst fra et billede ved hjælp af Google Vision API kan du følge en række trin, der involverer at bruge API'ets optiske tegngenkendelsesfunktioner (OCR). OCR-teknologien i Google Vision API muliggør registrering og udtrækning af tekst fra billeder, herunder håndskrift. Denne funktionalitet er især nyttig i applikationer, der kræver analyse og forståelse af tekstinformation, der findes i visuelle data.

For det første skal du konfigurere det nødvendige miljø for at arbejde med Google Vision API. Dette involverer oprettelse af et projekt i Google Cloud Console, aktivering af Vision API og opnåelse af de nødvendige godkendelsesoplysninger såsom en API-nøgle eller en tjenestekontonøgle.

Når dit miljø er sat op, kan du gøre brug af Vision API's `asyncBatchAnnotateFiles` metode til at udføre OCR på en billedfil. Denne metode giver dig mulighed for at sende en liste over billedfiler til behandling og modtage resultaterne asynkront. Alternativt kan du bruge `asyncBatchAnnotateImages`-metoden til at behandle en liste med billeder direkte.

For at udtrække tekst fra et billede, skal du oprette en forekomst af `AnnotateImageRequest`-objektet og angive de ønskede funktioner. I dette tilfælde skal du indstille 'TEXT_DETECTION'-funktionen til at angive, at du vil udtrække tekst fra billedet. Du kan også angive yderligere parametre såsom sprogtip for at forbedre nøjagtigheden af OCR.

Dernæst skal du kode billedfilen ind i en base64-kodet streng og oprette en forekomst af 'Image'-objektet ved hjælp af de kodede billeddata. Dette 'Image'-objekt skal tilføjes til 'AnnotateImageRequest'-objektet, der blev oprettet tidligere.

Efter opsætning af anmodningen kan du sende den til Vision API'et ved at bruge `batchAnnotateImages`- eller `batchAnnotateFiles`-metoden, afhængigt af din valgte tilgang. API'en vil behandle billedet og returnere et svar, der indeholder den udtrukne tekst.

For at få adgang til den udtrukne tekst fra svaret, kan du iterere over `textAnnotations`-feltet i `AnnotateImageResponse`-objektet. Dette felt indeholder en liste over 'EntityAnnotation'-objekter, der hver repræsenterer et detekteret tekstelement i billedet. 'Beskrivelses'-feltet for hvert 'EntityAnnotation'-objekt indeholder den udtrukne tekst.

Her er et eksempel på et kodestykke i Python, der viser, hvordan man får adgang til den udtrukne tekst fra et billede ved hjælp af Google Vision API:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

I dette eksempel tager "extract_text_from_image"-funktionen stien til en billedfil som input og bruger Google Cloud Vision-klientbiblioteket til at sende en anmodning til Vision API. Den udtrukne tekst udskrives derefter.

For at få adgang til den udtrukne tekst fra et billede ved hjælp af Google Vision API, skal du opsætte miljøet, oprette et `AnnotateImageRequest`-objekt med de ønskede funktioner, kode billedfilen, sende anmodningen til API'et og hente den udpakkede tekst fra svaret. OCR-egenskaberne i Vision API muliggør registrering og udtrækning af tekst fra billeder, herunder håndskrift.

Andre seneste spørgsmål og svar vedr Registrering og udpakning af tekst fra håndskrift:

Flere spørgsmål og svar:

Mark: Kunstig intelligens
program: EITC/AI/GVAPI Google Vision API (gå til certificeringsprogrammet)
Lektie: Forståelse af tekst i visuelle data (gå til relateret lektion)
Emne: Registrering og udpakning af tekst fra håndskrift (gå til relateret emne)
Eksamensgennemgang

Tagged under: Kunstig intelligens, Google Cloud Vision API, Image Processing, OCR, Optical Character Recognition, Ekstraktion af tekst

EITCA Academy

Hvordan kan du få adgang til den udpakkede tekst fra et billede ved hjælp af Google Vision API?

Andre seneste spørgsmål og svar vedr Registrering og udpakning af tekst fra håndskrift:

Flere spørgsmål og svar:

EITCA Academy er en del af den europæiske IT-certificeringsramme

Berettigelse til EITCA Academy 80% EITCI DSJC Subsidie support

EITCA Academy

Log ind på din konto af enten dit brugernavn eller e-mail-adresse

FORGÅ DIN DETALJER?

OPRET EN KONTO

Hvordan kan du få adgang til den udpakkede tekst fra et billede ved hjælp af Google Vision API?

Andre seneste spørgsmål og svar vedr Registrering og udpakning af tekst fra håndskrift:

Flere spørgsmål og svar:

Berettigelse til EITCA Academy 80% EITCI DSJC Subsidie ​​support

Berettigelse til EITCA Academy 80% EITCI DSJC Subsidie support