Toolchain for Fraktur-OCR from PDF

I’m currently trying to extract text from a large number of German documents printed in Fraktur font. There is a commercial solution for Fraktur OCR from ABBYY and there is the Google way. My primary focus for this is not a perfect recognition but a text good enough to use it for full text search. Luckily Google has the OCR engine open sourced, it is called Tesseract. Tesseract reads an image and converts it to UTF-8 text, its as simple as that.

Now I have the whole PDF document which is basically images and I need to extract them. Again, there are commercial packages which do that, but there is also ImageMagick which can read from PDF with the help of Ghostscript and output to a series of images. Exactly what I need.

So lets get ImageMagick from http://www.imagemagick.org/script/binary-releases.php#windows and Ghostscript from http://sourceforge.net/projects/ghostscript/files/ latest version.

Tesseract is available on Google Code http://code.google.com/p/tesseract-ocr/downloads/list
Grab the newest setup exe and the deu-frak.traindata.gz which has to be unzipped and moved to the tessdata folder.

If everything is installed, the PDF can be converted with:

[ImageMagick path]\convert.exe document.pdf document_%04d.jpg

This is what I used and what leaves the size of the images unchanged and uses an automatically increased 4-digit number suffix with leading zeros (this is basically C printf). convert has a bunch of optional parameters, but the default worked quite fine for the purpose of OCR. Note that this process may need huge chunks of disk space in the user temp folder! In my case it produced a 30+ MB temporary file for each extracted image, and it extracts all of them before starting to write the final images. In my case I had to move the temp folder to my big user partition, Windows lets you do this in the System settings http://answers.microsoft.com/en-us/windows/forum/windows_7-files/change-location-of-temp-files-folder-to-another/19f13330-dde1-404c-aa27-a76c0b450818

The second step is to run the Tesseract engine:

for %i in (*.jpg) do [tesseract path]\tesseract.exe %i %i -l deu-frak

I wrote a small C program to join the resulting text files.

This is the result from the OCR for the page shown above

Baufül)ruugs-Kosteu der Befestignng von Ulm.
Personal und Kosten der weiteren Bauführung rechten Donauufers.
Pkc«tsidium. Das Personal und die Kosten der weiteren Baufül)rung für die
Befestigung von Ulin rechten Donauufers betreffend, waren in Gemäßheit der neuerlich
erhaltenen Zufertigung und unter Beziehung auf die Erlasse vom l8. April und 9. Mai
vorigen Jahres (S§. 166., 204., 4ö5. v. J. 1855) mit Schreiben an das Festungs-
gouvernement zu Ulm vom 14. Januar folgende Bestimmungen zu treffen (Alsg. S-dir.
23. v. J. 1856.):

Posted in Bundesfestung, ITK, Ulm | Tagged , , , | Leave a comment

Der Stradivari-Mythos

old Violin

Wikipedia, User Frinck51, cc-by-sa

Nun ist also angeblich bewiesen, dass alte Meistergeigen nicht besser als moderne Instrumente sind. In einem Blindtest sollten Musiker drei alte mit drei modernen Geigen vergleichen. Nun kann man natürlich streiten, ob es “richtige” Musiker waren, “richtige” Stradivaris und Guarneri. Allerdings hat man ja schon länger versucht, dem Geheimnis der Meistergeigen auf den Grund zu kommen. Nach meiner kleiner Suche im Netz dürfte es dieses Geheimnis schlichtweg nicht geben. Das Video von Deutsche Welle TV zeigt die Klanganalyse von modernen Geigen. Eine Sendung des bayerischen Rundfunks versucht es vom Materialansatz her und man ist schon verwundert, wie subjektiv das Holz eingeschätzt wird und wie Modeströmungen die Präferenzen der Geigenbauer änderten. Die Stradivaris, wie sie heute von Musikern gespielt werden, wurden mehrfach überarbeitet und letztlich scheint das auch das “Geheimnis” der Meistergeigen zu sein: Ein Instrument wird durch (sachgemässe) kontinuierliche Optimierung besser und der Musiker hat immer noch den Hauptanteil an der Qualität der damit erzeugten Musik.

Posted in Music, Technik | Tagged , , | 1 Comment

Schiffsbergung mit Ping-Pong Bällen

Die Geschichte ist vielleicht einer der bekannteren von Disney: In einem Donald-Duck Heft wird ein Schiff gehoben, indem die Ducks Tischtennisbälle hineinpumpen. Dies inspirierte anschenend die Bergung des Frachters “Al Kuweit” mit Hilfe von 2500 Kubikmeter Styroporkugeln. Eine Patentantrag auf die Idee wurde abgelehnt. Auch die “Mythbusters” haben sich mit dieser Methode beschäftigt und es geschafft die Duck-Methode zu beweisen, indem sie die “Mythtanic II” mit 27000 Tischtennisbällen hoben.

Nun bin ich zufällig auf einen kleinen Absatz in der “Allgemeinen Polytechnischen Zeitung” Nr. 4 von 1835 gestoßen, der eine ähnliche Methode beschreibt:

“Versunkene Schiffe aus dem Wasser zu heben. Barbotte schlägt vor, um versunkene Schiffe aus dem Grunde des Meers zu heben, in einer Taucherglocke leere Säcke in das Schiff zu bringen und in diese Luft zu pumpen. (Das Hineinpumpen der Luft von oben herab möchte aber so mühsam sein, daß dis Mittel seinen Werth ganz verliert. Aber man könnte sie unter dem Wasser durch Verbrennung eines unvollkommen gemischten Schießpulvers, oder, indem man aus Schwefelsäure und Kreide etc. kohlensaures Gas entwickelt, mit Luft füllen, und dadurch das Schiff zum Schwimmen bringen).”

Posted in Technik | Leave a comment

Installing Lion on MacBook

Lion

Grumpy Lion (courtesy of Wikipedia)

So I finally got around to installing Lion on my MacBook. The first install attempt failed giving me the message:

Install Failed
Mac OS X could not be installed on your computer
Mac OS X can’t be installed on the disk XXX because a recovery system can’t be created. Visit www.apple.com/support/no-recovery to learn more.
Click Restart to return to your previous version of Mac OS X.

The Apple page is not very helpful, but after looking at a few forum posts the next thing to try was removing the Boot Camp partition with Windows from my MacBook using the Boot Camp Assistant (in Applications/Utilities). I had feared that ReFit which was also installed might provoke another issue, but after restarting and then retrying the Lion install it went through just fine.

Posted in Uncategorized | Leave a comment

Ende einer Telekom-Legende: Die Unterrichtsblätter

Seit 1948 erschienen die “Unterrichtsblätter der Deutschen Bundespost”, in neuerer Zeit unter dem Titel “WissenHeute”. In den 80er Jahren, bei der Entstehung der Mailboxszene und der “kreativen” Beschäftigung mit Telekommunikationstechnik, war das eigentlich für die interne Mitarbeiterschulung gedachte Blatt als “offizielle” Informationsquelle über Telekommunikationstechnik gefragt, mit Artikeln wie “Arbeitsanweisungen für den Fernmelderechnungsdienst” und “Elektronischer Zeittaktgeber für den nationalen Selbstwählferndienst”. Auch Artikel über allgemeine Technik, wie “Werkstoffe, die man Kunststoffe nennt”, waren immer Bestandteil der Zeitschrift, in neuerer Zeit auch Artikel über Arbeitsorganisation, wie “Präsentationen – Anregungen für den Aufbau und die Dramaturgie”.

Dieses Urgestein der technischen Zeitschriften wird bald Geschichte sein. Im Dezember 2011 erscheint die letzte Ausgabe. “Die schwierige Marktsituation für Fachzeitschriften, die stark gesunkene Bereitschaft sich an Abos zu binden und die veränderte Mediennutzung hin zu neuen Medien in unseren Zielgruppen” sind laut Redaktionsteam Gründe für die Einstellung. Zum Abschluss wird es noch eine DVD mit allen Ausgaben von 1981 bis 2011 geben. Die “Unterrichtsblätter” werden aber ein wichtiges Dokument der Telekommunikationstechnikgeschichte allgemein und speziell in Deutschland bleiben.

Posted in ITK | Tagged , , , | Leave a comment

Bagger-Manöver

Ok, in manchen Gegenden ist das vermutlich normal, aber schon krass, was man mit so einem Bagger anstellen kann.

auf thailändisch
bei der Army
bei der Eisenbahn in den Staaten

Und bitte nicht zuhause nachmachen (und auch nicht beim Festungsbau!)

Posted in Baustelle | Leave a comment

Straßenbahn Ulm Linie 2 Portal online

Das Portal zur Planung der neuen Straßenbahnlinie 2 in Ulm ist seit heute online. Neben Informationen wie Streckenplänen und 3D-Visualisierungen soll dort auch ein Bürgerdialog stattfinden.

Linie 2 am Theater

Posted in Ulm | Leave a comment

Kleines Erdbeben

ca. 100 km nördlich von meinem derzeitigen Standort, in der Nähe von Kleve, hat es ein kleines (4.5) Erdbeben gegeben, das deutlich spürbar war. Beim Googeln fand ich dann diese zeitnahe Liste des GeoForschungsZentrums Potsdam.

Posted in Geo | Leave a comment

Tag des Denkmals in Ulm 2011

Am Sonntag, den 11. September ist der Tag des offenen Denkmals, an dem auch in Ulm wieder einige “Denkmäler” geöffnet haben. Die Stadt Ulm hat dazu eine Infoseite und der Förderkreis Bundesfestung Ulm wird von 13:00 Uhr bis 17:00 Uhr die Tore der Kienlesbergbastion öffnen und sonst nicht zugängliche Bereiche der westlichen Bergfront zeigen.

Posted in Bundesfestung, Ulm | Leave a comment

Ein Ulm-Rätsel

Gefunden in: J. Frick, 500 Rätsel und Rätselscherze — “Ein Bringmichraus für Schul und Haus” (Ravensburger, 1915)

Mein kurzes Wort nennt eine Stadt

Am schönen Donaustrande;

Ein Zeichen mehr, ein schattiger Baum

Im lieben Vaterlande.

Posted in Ulm | Leave a comment