Zaawansowane aplikacje do optycznego rozpoznawania znaków (OCR) kosztują krocie, ale okazuje się, że dzięki pomocy specjalnego narzędzia od Google możemy uzyskać tekst z plików graficznych lub dokumentów PDF w dobrej jakości i to za darmo.
Kilka słów o OCR
Czym jest OCR? To optyczne rozpoznawanie znaków (ang. optical character recognition) – oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym. Takim plikiem może być na przykład skan dokumentu lub grafika z dowolnym tekstem.
Rozpoznawanie pisma jest możliwe dzięki sztucznej inteligencji (tak zwane rozpoznawanie wzorców). W procesie tym wykorzystywane są przeważnie sieci neuronowe.
Dysk Google
Dysk Google (Google Drive) to usługa udostępniająca możliwość przechowywania plików w chmurze, ich synchronizacji i udostępniania, która funkcjonuje od 2012 roku. Oprócz tych podstawowych funkcjonalności mamy do dyspozycji też pakiet biurowy w chmurze, ale to nie wszystko co gigant z Mountain View ma do zaoferowania internautom.
OCR z użyciem Google Drive
Jeżeli chcemy uzyskać tekst z obrazu lub pliku PDF możemy wykorzystać szerokie możliwości dysku Google. Nasz plik musi spełniać jednak pewne wymagania:
- obsługiwane są następujące formaty – dokumenty PDF i pliki graficzne (.jpeg, .png i .gif),
- maksymalny rozmiar pliku to 2 MB,
- tekst powinien mieć co najmniej 10 pikseli wysokości,
- dokumenty powinny mieć normalną orientację (w innym przypadku należy je obrócić).
Obsługiwane są wszystkie najpopularniejsze języki (pełna lista tutaj).
Konwersja pliku na tekst przy pomocy Dysku Google
Aby rozpocząć proces konwersji naszego dokumentu lub zdjęcia na tekst otwieramy stronę usługi Google Drive. Jeżeli nie jesteśmy zalogowani, to musimy się zalogować.
Kolejny krok to załadowanie na Dysk Google odpowiedniego pliku, który chcemy odczytać przy pomocy OCR. Ja do celów testowych załadowałem zdjęcie opakowania chusteczek do okularów wykonane moim Xiaomi Redmi Note 11s. Musiałem je jeszcze odpowiednio zmniejszyć, gdyż oryginalny plik miał 2.5 MB, a więc przekraczał dopuszczalną wagę.
Następnie, gdy nasze zdjęcie zostało już załadowane, klikamy na nim prawym przyciskiem myszy i wybieramy Otwórz w -> Dokumenty Google.
Po otwarciu Dokumentów Google na pierwszej stronie zobaczymy nasz obraz, a pod spodem wynik pracy narzędzia OCR.
W tym momencie możemy także nanieść ewentualne poprawki do odczytanego tekstu. W przypadku niewyraźnego pliku mogą pojawić się problemy z pojedynczymi literami, ale generalnie Dysk Google świetnie radzi sobie z powierzonym mu zadaniem.
Podsumowanie
Narzędzie to doczekało się na przestrzeni lat wielu usprawnień. Gdy około 10 lat temu testowałem je na łamach nieistniejącego już bloga, to miało jeszcze problemy z polskimi znakami czy błędnymi odczytami liter. Teraz nie zauważyłem takich problemów. Moim zdaniem to bardzo dobra możliwość dla osób, które potrzebują szybko przerobić dokumenty lub pliki graficzne na tekst.
Bardzo pomocny tekst, bez problemu odczytałam skan. Pozdrawiam :))