Da biste pristupili ekstrahiranom tekstu sa slike koristeći Google Vision API, možete slijediti niz koraka koji uključuju korištenje mogućnosti optičkog prepoznavanja znakova (OCR) API-ja. OCR tehnologija u Google Vision API-ju omogućava otkrivanje i izdvajanje teksta iz slika, uključujući i rukopis. Ova funkcionalnost je posebno korisna u aplikacijama koje zahtijevaju analizu i razumijevanje tekstualnih informacija prisutnih u vizualnim podacima.
Prvo, morate postaviti potrebno okruženje za rad sa Google Vision API-jem. Ovo uključuje kreiranje projekta u Google Cloud Console, omogućavanje Vision API-ja i pribavljanje potrebnih vjerodajnica za autentifikaciju kao što je API ključ ili ključ računa usluge.
Kada je vaše okruženje postavljeno, možete koristiti Vision API-jev metod `asyncBatchAnnotateFiles` za izvođenje OCR-a na datoteci slike. Ova metoda vam omogućava da proslijedite listu slikovnih datoteka za obradu i dobijete rezultate asinhrono. Alternativno, možete koristiti metodu `asyncBatchAnnotateImages` za direktnu obradu liste slika.
Da biste izdvojili tekst iz slike, trebate kreirati instancu `AnnotateImageRequest` objekta i navesti željene karakteristike. U ovom slučaju, postavili biste funkciju `TEXT_DETECTION` da naznačite da želite izdvojiti tekst iz slike. Također možete specificirati dodatne parametre kao što je jezični savjet kako biste poboljšali tačnost OCR-a.
Zatim morate kodirati datoteku slike u base64 kodiran niz i kreirati instancu objekta `Image` koristeći kodirane podatke slike. Ovaj objekt `Image` treba dodati objektu `AnnotateImageRequest` kreiranom ranije.
Nakon postavljanja zahtjeva, možete ga poslati Vision API-ju pomoću metode `batchAnnotateImages` ili `batchAnnotateFiles`, ovisno o odabranom pristupu. API će obraditi sliku i vratiti odgovor koji sadrži ekstrahovani tekst.
Da biste pristupili ekstrahiranom tekstu iz odgovora, možete iterirati preko polja `textAnnotations` objekta `AnnotateImageResponse`. Ovo polje sadrži listu objekata `EntityAnnotation`, od kojih svaki predstavlja otkriveni tekstualni element na slici. Polje `opis` svakog objekta `EntityAnnotation` sadrži izvučeni tekst.
Evo primjera isječka koda u Pythonu koji pokazuje kako pristupiti ekstrahiranom tekstu sa slike koristeći Google Vision API:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
U ovom primjeru, funkcija `extract_text_from_image` uzima putanju do datoteke slike kao ulaz i koristi klijentsku biblioteku Google Cloud Vision za slanje zahtjeva Vision API-ju. Izvučeni tekst se zatim ispisuje.
Da biste pristupili ekstrahiranom tekstu sa slike pomoću Google Vision API-ja, trebate postaviti okruženje, kreirati objekt `AnnotateImageRequest` sa željenim karakteristikama, kodirati datoteku slike, poslati zahtjev API-ju i dohvatiti ekstrahovani tekst iz odgovora. OCR mogućnosti Vision API-ja omogućavaju otkrivanje i izdvajanje teksta iz slika, uključujući i rukopis.
Ostala nedavna pitanja i odgovori u vezi Otkrivanje i izdvajanje teksta iz rukopisa:
- Koja ograničenja mogu nastati pri izdvajanju teksta iz složenih dokumenata korištenjem Google Vision API-ja?
- Kakav je značaj nivoa pouzdanosti u tumačenju teksta Google Vision API-ja?
- Kako Google Vision API može precizno prepoznati i izdvojiti tekst iz rukom pisanih bilješki?
- Koji su izazovi u otkrivanju i izdvajanju teksta iz rukom pisanih slika?
- Može li Google Vision prepoznati rukopis?