Gesellschaft zur Förderung angewandter Informatik e. V. – GFaI


Volmerstraße 3
12489 Berlin

Geschäftsführer: Vorstandsvorsitzender: Prof. Dr. Iwainsky
Geschäftsführer: Dr. Frank Weckend
Stellv. Geschäftsführerin: Dipl.-Math. Silvia Schwochow

Telefon: 030 8145633-00
Telefax: 030 8145633-02
E-Mail: info@gfai.de
Internet: http://www.gfai.de

Geförderte Projekte: 39


OSKAR


Separierung von Stempel, Artikelüberschrift, Textblöcken
Separierung von Stempel, Artikelüberschrift, Textblöcken

Projektidee

Mit dem Projekt OSKAR soll die Inhaltserfassung von älteren Dokumenten (Zeitungen, Schreibmaschinentexte) durch Separierung von die Schrifterkennung störenden Elementen (Abbildungen ; Zusatzinformationen wie z.B. Stempel oder handschriftliche Bemerkungen) erreicht werden. Weiterhin sollen für eine nachträgliche Berichtigung unvollständig erkannter Wörter verschiedene Methoden der kontextabhängigen Korrektur erforscht und das erfolgreichste Modell in ein Erkennungssystem integriert werden.

Kundennutzen

Im Rahmen des Projektes wurde das Erfassungssystem DaCaPo geschaffen. Es ermöglicht die strukturierte Erfassung von Dokumenten, insbesondere von Zeitungsartikeln.Durch eigens entwickelte Verfahren werden Stempel mit Zeitungsnamen und Erscheinungsdatum, Artikelüberschriften, Abbildungen, Bildunterschriften und Textblöcke automatisch identifiziert, separiert, Textbereiche einer kommerziellen OCR zugeführt und die Ergebnisse getrennt in einer MySQL-Datenbank abgelegt. Durch eine nutzerfreundliche Oberfläche können Textkorrekturen und Ergänzungen ausgeführt werden.

Die in der Datenbank abgelegten Texte lassen sich dann (auch kombiniert) durchsuchen und die Suchergebnisse in übersichtlicher Form ausgeben.

Untersuchungen anhand von Testmaterial des Herder-Instituts Marburg zeigen, dass man damit an die Erfassungskosten einer strukturierten Erfassung von Zeitungstexten soweit senken kann, dass man damit die Kosten einer Texterfassung im Ausland nahezu erreicht und diese Dienstleistung auch im Inland durchführen kann (Schaffung von Arbeitsplätzen).

Nutznießer des Systems sind damit Museen, Archive und Texterfassungsdienstleister.

Ausblick

Eine weitere Vervollkommnung des Erfassungssystems ist vorgesehen. Dabei geht es vor allem um die Zuordnung der Textblöcke zu den Artikelüberschriften durch eine verbesserte Layoutanalyse und um die Ermittlung der Lesereihenfolge für die gefundenen Textblöcke. Ziel ist es, die Automatisierung der strukturierten Inhaltserfassung noch weiter zu verbessern, dadurch die Nachkorrektur zu verkürzen und so die Erfassung noch kostengünstiger zu gestalten.

Stand: 08.02.2013
Projektdaten aktualisiert: 02.12.2012

Unternehmen A–Z

Nach oben