Download

März 2006 Diplomarbeit bei Prof Rojas, FU-Berlin

Simulation of Saccadic Eye Movements

Output of Simulator showing low and high quality text

Output of Simulator showing low and high quality text

Der Einsatz von niedrigauflösenden Digitalkameras in der Texterkennung

Abstract, deutsche Übersetzung

In der letzten Zeit wurden Digitalkameras mehr und mehr erschwinglich wodurch der Wunsch Digitalkameras auch zur Texterkennung zu nutzen entstand. Jedoch haben die durch Digitalkameras aufgenommenen Fotos in der Regel eine zu geringe Auflösung für die zuverlässige Texterkennung. Darüber hinaus sind Digitalfotos in aller Regel nicht ideal aufgenommen sondern rotiert und perspektivisch verzerrt oder auf einer gebogenen Oberfläche.

Bisher wurden zur Texterkennung mit Digitalkameras entweder Kameras mit einer sehr hohen Auflösung genutzt (teuer und nicht immer einsetzbar) oder eine Mosaiktechnik wurde genutzt. Im letzteren Fall werden viele Bilder mit geringer Auflösung aber hohem Zoom und zu einem hochauflösendem Bild kombiniert. Diese Arbeit präsentiert nun eine dritte Möglichkeit. Ähnlich wie in der Mosaik-Technik werden viele niedrig auflösende Bilder in hohem Zoom erzeugt. Diese werden jedoch nicht zu einem hoch auflösendem Bild zusammen gesetzt. Anstatt dessen wird der Ausschnitt der Bilder so gewählt, dass das Bild genau ein Wort enthält. Bei zu langen Wörtern wird eventuell Stitching eingesetzt. Das Zusammensetzen des Textes findet erst nach der Texterkennung statt.

Die hier vorgestellte Arbeit erkennt in einem Digitalfoto geringer Auflösung die Zeilen des Textes und die Wörter innerhalb desselben. Der Text darf beliebig rotiert und perspektivisch verzerrt oder nur leicht rotiert sein aber auf einer gebogenen Oberfläche liegen. Der Algorithmus wählt dann die idealen Positionen zur Aufnahme. Aufgrund nicht vorhandener Technik zur Kamerasteuerung wird die Kamera durch ein hoch auflösendes Bild simuliert.

Abstract, original

In recent times digital cameras have become affordable, leading to the desire to use digital cameras for text detection too. The pictures recorded by a camera usually have a resolution too low for classical OCR-applications. Also they can be rotated, perspective distorted and lie on a curved surface.

Up to now either cameras with a very high-resolution were used (expensive and not always practicable) or a mosaicing technique was used. In the latter case many low-resolution but high-zoom pictures were taken and then combined by stitching into one large picture. This work now presents a third idea. Just like in the mosaicing technique, many low-resolution, high-zoom pictures are taken but they are not combined into one large picture. Instead the high-zoom pictures are chosen in such a way that each contains a complete word using stitching if the word is too long to be recorded at once. The combination takes place after the words have been processed by the OCR.

The work presented here detects the lines of text and the words therein in a low-resolution picture of a text. It can be either rotated and perspective distorted or no more than slightly rotated but lie on a curved surface. It then chooses the optimal camera positions. Taking extracts from a high-resolution picture of the text simulates the camera.

Downloads