|
ABBYY FineReader XIX Pierwsza aplikacja rozpoznająca wiele krojów czcionek napisanych frakturą i gotykiem. |
|
ABBYY FineReader XIX to specjalna wersja oprogramowania do optycznego rozpoznawania znaków FineReader, przeznaczona do rozpoznawania tekstów pisanych frakturą lub pismem gotyckim z okresu pomiędzy 1800 a 1938 rokiem. Jego zadaniem jest przetwarzanie zeskanowanych obrazów starych dokumentów, książek i pism na tekst elektroniczny, umożliwiający cyfrową archiwizację i publikację. Program OCR obsługuje wiele krojów pisma napisanych frakturą. Oprogramowanie powstało dzięki połączeniu niezwykle inteligentnej technologii i specjalistycznych badań językowych
Program ABBYY FineReader XIX powstał między innymi z myślą o potrzebach uniwersytetów i centrów badawczych. Prace nad produktem prowadzone były przy współudziale międzynarodowej organizacji METAe Project. METAe to konsorcjum bibliotek i firm zajmujących się digitalizacją z całej Europy. Współpracują one przy tworzeniu oprogramowania METAe Engine, zaprojektowanego specjalnie w celu uporządkowania obiegu zadań związanych z archiwizacja i digitalizacją materiałów historycznych, takich jak książki, magazyny, czasopisma i gazety. ABBYY FineReader XIX stanowić będzie podstawowy mechanizm, pozwalający zarchiwizować niektóre z najcenniejszych dla Europy dokumentów historycznych. W projekcie METAe uczestniczą m.in.: Uniwersytet w Innsbrucku (Austria), Uniwersytet Florencki (Włochy), Bibliotéque Nationale de France, Norweska Biblioteka Narodowa, fundacja Freiedricha-Eberta (Niemcy), CCS Compact Computer Systeme (Niemcy) oraz
Systemy OCR analizują obraz tekstu i tworzą hipotezę odnośnie tego, jakie widnieją na nim litery lub słowa. Hipotezy są następnie analizowane w kontekście i weryfikowane przy użyciu zaawansowanych słowników OCR, powstałych na podstawie modeli języka. Modele języka to komputerowe bazy danych opisujące słownictwo danego języka. Ponieważ współczesne systemy OCR nie dysponują modelami języka dla starszych czcionek i starszych odmian ortografii opracowano słowniki OCR przeznaczone dla tego konkretnego okresu czasu. Powstały więc specjalne modele języka dla pięciu języków europejskich.
Modele języka dla czcionki Fraktur utworzono przy współudziale współpracującej z ABBYY firmy ATAPY Software. Na etapie ich tworzenia przeanalizowano 10 różnych słowników i ponad 105 książek opublikowanych pomiędzy 1808 a 1930 rokiem. Zasobami językowymi zajęli się lingwiści, rozpoznając słowa, które zanikły w toku ewolucji języków, a także identyfikując poprawne powiązania wzorców służące do synchronizowania modeli języka z gramatyką poprawną dla konkretnego okresu czasu. Wymagało to ręcznego porównania ponad 500 tys. słów z istniejącymi słownikami programu FineReader.
Weryfikacja wzorców gramatycznych i wariantów ewolucyjnych słów spowodowała, że do współczesnych modeli języków dodano 159 brakujących historycznych wzorów gramatycznych. Modele języków poddano następnie kompilacji i przetestowano je na kontrolnej grupie dokumentów, zawierających dawne teksty.
Aby umożliwić rozpoznawanie czcionek frakturowych, zespół programistyczny firmy ABBYY stworzył specjalne klasyfikatory (alfabety), zdolne do rozpoznawania symboli czcionki Fraktur. W ramach tych prac utworzone zostały nowy wzorzec alfabetu - baza obrazów, zawierająca ok. 2,5 tys. próbek dla każdego znaku - oraz testowa baza przykładów, licząca 31 tys. stron tekstów z różnych źródeł. Mechanizm rozpoznawania znaków został na ich podstawie "dostrojony" tak, aby radził sobie z subtelnościami pisma frakturowego, takimi jak ligatury. Nowy alfabet został następnie dodany do systemu i interfejsu FineReader.