ABBYY FineReader XIX

ABBYY FineReader XIX

ABBYY FineReader XIX

Pierwsza aplikacja rozpoznająca wiele krojów czcionek

napisanych frakturą i gotykiem.

   
  • Opis
  • Funkcjonalność
  • Parametry techniczne
  • Projekty

ABBYY FineReader XIX to specjalna wersja oprogramowania do optycznego rozpoznawania znaków FineReader, przeznaczona do rozpoznawania tekstów pisanych frakturą lub pismem gotyckim z okresu pomiędzy 1800 a 1938 rokiem. Jego zadaniem jest przetwarzanie zeskanowanych obrazów starych dokumentów, książek i pism na tekst elektroniczny, umożliwiający cyfrową archiwizację i publikację. Program OCR obsługuje wiele krojów pisma napisanych frakturą. Oprogramowanie powstało dzięki połączeniu niezwykle inteligentnej technologii i specjalistycznych badań językowych

Program ABBYY FineReader XIX powstał między innymi z myślą o potrzebach uniwersytetów i centrów badawczych. Prace nad produktem prowadzone były przy współudziale międzynarodowej organizacji METAe Project. METAe to konsorcjum bibliotek i firm zajmujących się digitalizacją z całej Europy. Współpracują one przy tworzeniu oprogramowania METAe Engine, zaprojektowanego specjalnie w celu uporządkowania obiegu zadań związanych z archiwizacja i digitalizacją materiałów historycznych, takich jak książki, magazyny, czasopisma i gazety. ABBYY FineReader XIX stanowić będzie podstawowy mechanizm, pozwalający zarchiwizować niektóre z najcenniejszych dla Europy dokumentów historycznych. W projekcie METAe uczestniczą m.in.: Uniwersytet w Innsbrucku (Austria), Uniwersytet Florencki (Włochy), Bibliotéque Nationale de France, Norweska Biblioteka Narodowa, fundacja Freiedricha-Eberta (Niemcy), CCS Compact Computer Systeme (Niemcy) oraz

Systemy OCR analizują obraz tekstu i tworzą hipotezę odnośnie tego, jakie widnieją na nim litery lub słowa. Hipotezy są następnie analizowane w kontekście i weryfikowane przy użyciu zaawansowanych słowników OCR, powstałych na podstawie modeli języka. Modele języka to komputerowe bazy danych opisujące słownictwo danego języka. Ponieważ współczesne systemy OCR nie dysponują modelami języka dla starszych czcionek i starszych odmian ortografii opracowano słowniki OCR przeznaczone dla tego konkretnego okresu czasu. Powstały więc specjalne modele języka dla pięciu języków europejskich.

Modele języka dla czcionki Fraktur utworzono przy współudziale współpracującej z ABBYY firmy ATAPY Software. Na etapie ich tworzenia przeanalizowano 10 różnych słowników i ponad 105 książek opublikowanych pomiędzy 1808 a 1930 rokiem. Zasobami językowymi zajęli się lingwiści, rozpoznając słowa, które zanikły w toku ewolucji języków, a także identyfikując poprawne powiązania wzorców służące do synchronizowania modeli języka z gramatyką poprawną dla konkretnego okresu czasu. Wymagało to ręcznego porównania ponad 500 tys. słów z istniejącymi słownikami programu FineReader.

Weryfikacja wzorców gramatycznych i wariantów ewolucyjnych słów spowodowała, że do współczesnych modeli języków dodano 159 brakujących historycznych wzorów gramatycznych. Modele języków poddano następnie kompilacji i przetestowano je na kontrolnej grupie dokumentów, zawierających dawne teksty.

Aby umożliwić rozpoznawanie czcionek frakturowych, zespół programistyczny firmy ABBYY stworzył specjalne klasyfikatory (alfabety), zdolne do rozpoznawania symboli czcionki Fraktur. W ramach tych prac utworzone zostały nowy wzorzec alfabetu - baza obrazów, zawierająca ok. 2,5 tys. próbek dla każdego znaku - oraz testowa baza przykładów, licząca 31 tys. stron tekstów z różnych źródeł. Mechanizm rozpoznawania znaków został na ich podstawie "dostrojony" tak, aby radził sobie z subtelnościami pisma frakturowego, takimi jak ligatury. Nowy alfabet został następnie dodany do systemu i interfejsu FineReader.

Wymagania systemowe:

  • Komputer z procesorem Intel® Pentium®/Celeron®/Xeon™, AMD K6/Athlon™/ Duron™ lub kompatybilnym o min. częstotliwości 200 MHz
  • Microsoft Windows 2003, Windows XP, Windows 2000, Windows NT 4.0 (z dodatkiem serwisowym SP6 lub późniejszym), Windows Me/98 (praca z interfejsem zlokalizowanym wymaga obsługi odpowiedniego języka)
  • 64 MB pamięci RAM dla systemów Windows 2003/XP/2000/NT4.0; 32 MB pamięci RAM dla systemów Windows Me/98. Dodatkowe 16 MB pamięci RAM dla każdego dodatkowego procesora w systemach wieloprocesorowych
  • 230 MB miejsca na dysku dla instalacji standardowej, 70 MB miejsca na dysku na potrzeby programu
  • Przeglądarka Microsoft® Internet Explorer 4.0 lub nowsza (pakiet zawiera Microsoft® Internet Explorer 5.01)
  • Skaner, kamera cyfrowa lub modem w 100% zgodne ze standardem TWAIN
  • Karta graficzna i monitor (min. rozdzielczość 800x600)
  • Klawiatura, mysz lub inne urządzenie wejściowe

Obsługiwane formaty obrazu:

  • BMP: czarno-białe, w skali szarości, kolorowe
  • PCX, DCX: czarno-białe, w skali szarości, kolorowe
  • JPEG: w skali szarości, kolorowe
  • JPEG 2000/Part1: w skali szarości, kolorowe
  • PNG: obrazy czarno-białe, w skali szarości, kolorowe
  • TIFF: obrazy czarno-białe, w skali szarości, kolorowe, wielostronicowe. Metody kompresji: niespakowane, CCITT Group 3, CCITT Group 3 FAX(2D), CCITT Group 4, PackBits, JPEG, ZIP
  • PDF

Formaty zapisu dokumentów:

  • Microsoft® Word XP, 2000, 97, 95
  • RTF
  • TXT
  • Tekst Unicode
  • Microsoft® Excel XP, 2000, 97, 95
  • HTML 3.2/4.0
  • HTML 3.2/4.0 Unicode
  • DBF
  • CSV
  • PDF 3.0, 4.0

ABBYY NADAJE IMPET POŚWIĘCONEMU CYFRYZACJI
PROJEKTOWI BADAWCZEMU KOMISJI EUROPEJSKIEJ

Celem projektu IMPACT jest poprawa dostępności tekstów historycznych dzięki innowacjom technologicznym i współpracy

Firma ABBYY, czołowy dostawca rozwiązań z dziedziny rozpoznawania dokumentów, przechwytywania danych i technologii oraz usług lingwistycznych, poinformowała o pierwszych wynikach swojego udziału w projekcie Komisji Europejskiej IMPACT (IMProving ACcess to Text). Na potrzeby tego projektu badawczego, obejmującego swym zasięgiem całą Europę, a którego celem jest przekształcenie europejskiego dziedzictwa tekstów drukowanych na dostępne archiwa w postaci cyfrowej, ABBYY dostarcza oprogramowanie do optycznego rozpoznawania znaków (OCR), jak również fachową wiedzę w zakresie rozpoznawania zabytkowej czcionki. Wzbogacona o doświadczenia z trwającego cztery lata projektu firma ABBYY oferuje obecnie produkty, które wykorzystują najbardziej zaawansowaną technologię do rozpoznawania tekstu w dokumentach historycznych.

Konsorcjum IMPACT skupia dwadzieścia sześć europejskich bibliotek narodowych oraz regionalnych, instytucji badawczych i partnerów technologicznych, dzielących się wiedzą i najlepszymi praktykami postępowania, a także opracowujących innowacyjne narzędzia, których celem jest maksymalizacja możliwości mechanizmów OCR. Projekt ten przed końcem 2011 r., znacząco poprawi dostęp do tekstów historycznych powstałych przed 1900 rokiem. Dzięki wspólnym pracom badawczo-rozwojowym wykonano ważny krok w kierunku cyfryzacji europejskiego dziedzictwa kulturowego.S

Począwszy od 2008 r. firma ABBYY odgrywa kluczową rolę w projekcie IMPACT, dostarczając najnowocześniejszą technologię OCR i fachową wiedzę na potrzeby cyfryzacji zabytkowych czcionek i wyodrębniania tekstu ze starych dokumentów. Udostępniana przez ABBYY technologia OCR jest szczególnie predestynowana do rozpoznawania tekstu zapisanego na obrazach dokumentów przy użyciu różnorodnych historycznych krojów pisma, gdyż umożliwia pełną cyfryzację tych zasobów, ich przeszukiwanie i integrację z systemami używanymi do tworzenia leksykonów. Zespół badawczo-rozwojowy z ramienia ABBYY ściśle współpracuje z najważniejszymi członkami zespołów projektu IMPACT, pracując nad kluczowymi zagadnieniami technologicznych, przed jakimi stają duże projekty związane z cyfryzacją bibliotek. Podczas prac nad próbkami pochodzącymi z czołowych europejskich bibliotek firmie ABBYY udało się opracować nowe rozwiązania techniczne z dziedziny wstępnego przetwarzania obrazu i analizy układu dokumentów, pozwalające uzyskiwać lepsze wyniki rozpoznawania tekstu.

„W oprogramowaniu OCR nie było dotąd zaawansowanych funkcji potrzebnych do zadowalającego przekształcania zeskanowanych stron na pełny tekst lub pliki XML, szczególnie gdy w grę wchodziły stare książki, czasopisma i gazety,” powiedział Aly Conteh, członek rady nadzorczej projektu IMPACT i kierownik programu cyfryzacji w bibliotece British Library. „Dzięki uczestnictwu w projekcie IMPACT zyskaliśmy dostęp do najnowocześniejszej technologii OCR firmy ABBYY, która pozwala uczestnikom projektu IMPACT na wydajniejsze przetwarzanie dokumentów, które często są słabej jakości. Wiemy też, że możemy polegać na tej współpracy, ponieważ ABBYY nieustannie ściśle współpracuje z bibliotekami i innymi partnerami, dążąc do usprawnienia podstawowych rozwiązań technologicznych”.

„Cyfryzacja może nie tylko przyczynić się do zachowania europejskiego dziedzictwa intelektualnego dla przyszłych pokoleń. Może również otworzyć drzwi archiwów i udostępnić ich skarby milionom naukowców, studentów i zwykłych czytelników na całym świecie,” wyjaśnił Andrey Isaev, Dyrektor działu produktów SDK w firmie ABBYY. „Cieszymy się, że możemy przyczynić się do osiągnięcia tak ważnego celu poprzez innowacje w dziedzinie OCR i udostępnianie najlepszych sposobów postępowania. I bardzo cenimy sobie bliską i owocną współpracę z ludźmi, którzy są tak entuzjastycznie nastawieni do rozpoznawania tekstu, jak my.”

Udział firmy ABBYY w projekcie IMPACT bazuje na jej uczestnictwie we wcześniejszych udanych, europejskich projektach cyfryzacyjnych, takich jak projekt METAe, w ramach którego opracowała program FineReader XIX przeznaczony specjalnie do rozpoznawania historycznych czcionek Fraktur i „Black Letter”, które występują w tekstach publikowanych w latach 1800 – 1938, oraz projekt Digitisation-on-Demand, którego celem jest cyfryzacja milionów książek w celu ich udostępnienia w formie elektronicznej. Także niemiecki Instytut Komunikacji Medialnej Fraunhofera (IMK) z powodzeniem wykorzystał oprogramowanie ABBYY FineReader SDK z uruchomioną funkcją rozpoznawania czcionek historycznych w celu cyfryzacji archiwum gazety Neue Zürcher Zeitung.  Najnowsze udoskonalenia technologii rozpoznawania firmy ABBYY są obecnie dostępne na zasadach komercyjnych dla instytucji i organizacji na całym świecie.  Niektóre z najnowszych usprawnień w dziedzinie rozpoznawania tekstów specjalistycznych i dokumentów znalazły się w produktach ABBYY FineReader Engine SDK i ABBYY Recognition Server 3.0.

Dalsze informacje na temat projektu IMPACT można znaleźć pod następującym adresem:  http://www.impact-project.eu/.

Szczegółowe informacje na temat produktów można znaleźć pod adresem:

- ABBYY FineReader XIX
http://www.finereader.pl/produkty/przetwarzanie-dokumentow/abbyy-finereader-xix

- ABBYY FineReader XIX engin SDK
http://www.finereader.pl/produkty/narzedzia-programistyczne/abbyy-finereader-engine

Generalny dystrybutor oprogramowania FineReader w Polsce: AutoID Polska S.A.
ABBYY Country Partner