Seite 1 von 1

PDF-Dateien nach Suchbegriffen auslesen

Verfasst: 23.08.2014, 20:39
von Gerhardus 1
Liebe Mitstreiter,
heute komme ich mit einem Problem auf Sie zu, welches mich seit Monaten nicht mehr losläßt:
Wenn ich ein Buch im PDF-Format (z.B. bei Google-Books) gefunden habe, dann möchte ich dieses Buch gerne auf meinem PC haben und dort nach meinen Suchbegriffen durchstöbern. Trotzdem, dass ich viele Stunden mit der Suche nach einem solchen Programm, und installieren und deinstallieren des Programms verbracht habe, habe ich nichts gefunden, um diese PDF-Datei auszulesen.

Meine Frage: Gibt es jemanden unter uns, der ein solches Programm kennt und vielleicht sogar benutzt? Oder gibt es eine andere Möglichkeit, ein PDF-Buch nach eigenen Wünschen mit Suchbegriffen durchzustöbern?

Verfasst: 23.08.2014, 21:08
von bjew
Hallo,
grundsätzlich sollte es mit jedem PDF-Reader gehen - ABER!
Es kommt darauf an, wie die Seiten aufgebaut sind, als Text oder als Grafik. Im ungünstigsten Fall müsste da mit Schrifterkennung drüber gegangen werden.

Verfasst: 23.08.2014, 23:59
von Marcus
Es geht hier wohl nur um "Grafiken / Scans" innerhalb einer pdf-Datei. Ansonsten kann man sie ja direkt problemlos durchsuchen.
Dann braucht man wohl eine OCR-Software. Bei normaler Schrift sind diese recht leistungsfähig, bei alten Frakturschriften, Sütterlin oder ähnlichem, gibt es aber wohl nur wenige kostenpflichtige Programme die einem weiterhelfen? Soweit jedenfalls meine Erinnerung an eine ähnliche Diskussion. :?
Marcus

Verfasst: 24.08.2014, 12:19
von bjew
Vielleicht solltest dich einfach mit dem Buch begnügen und die Suchfunktion innerhalb Google-Books nutzen?
Sollte es sich um Frakturschriften handeln, wirst du keine "billige" leistungsfähige Software finden.

Verfasst: 25.08.2014, 19:19
von Gerhardus 1
Liebe Mitstreiter,

vielen Dank für Eure Nachrichten. Leider sind es wirklich alles Bilder, die zu PDF gewandelt wurden.
Ich bin gespannt, ob ich ein Prg. finde, die diese Dateien auslesen kann. Auf jeden Fall melde ich mich nochmals dazu, wenn ich etwas gefunden habe.

Gruß

Gerhardus1

Verfasst: 25.08.2014, 21:43
von Marcus
Hallo Gerhard,

ich wusste doch, dass wir das "erst" diskutiert hatten. Und siehe da, die Frage damals stammte auch von Dir. ;)
Ich fürchte viel Neues hat sich auf dem Gebiet nicht ergeben ...
http://www.ahnenblattportal.de/viewtopi ... 3104#43104
Marcus

Verfasst: 26.08.2014, 10:48
von Gerhardus 1
Hallo Marcus,

ich habe sehr viele interessante Nachrichten über die Bayern und die Frankenliste erhalten. Sobald ich etwas brauchbares darunter finde, werde ich berichten.

Verfasst: 26.08.2014, 11:53
von UngerMa
Hallo Gerhardus,

das Problem mit dem Auslesen lässt sich prinzipiell lösen.

Ich habe einen Test mit einem einfachen Digitalfoto (960 x 1280 Pixel bzw. 1,4 MP) durchgeführt. Das Bild enthält ca. 40 Textzeilen, also fast wie eine A4-Seite, allerdings ein relativ guter Druck. Dargestellt ist eine Tafel an einem Denkmal, aufgrund der Position leicht verzerrt aufgenommen (schräg von unten).

1. Bild geöffnet (in diesem Fall mit XnView, Irfanview geht ebenso)
2. als PDF gedruckt (PDFCreator)
3. PDF-Datei mit Adobe Acrobat Professional geöffnet
4. Dokument - OCR-Texterkennung - Text mit OCR erkennen

Jetzt liegt eine durchsuchbare PDF vor, die auch gespeichert werden kann.
Mit dem AcrobatReader X gehts aber nicht, weil offenbar keine OCR integriert ist. Da wird eine Konvertierung z.B. in Word vorgeschlagen, das scheint aber kostenpflichtig zu sein. Neuere (gekaufte) Software habe ich nicht!

Wenn Du aber Textseiten mit Handschrift oder Fraktur hast wirds kompliziert oder unmöglich.

Gruß
Manfred

Verfasst: 26.08.2014, 19:10
von Gerhardus 1
Hallo Manfred,
vielen Dank für Deinen Test einschl. Ergebnis. Das Problem - wie Du selbst schreibst - wird sein, dass früher viele Bücher in Sütterlin oder in Fraktur geschrieben wurden. Ich habe nun 8 verschiedene OCR-Prg. zusammen. Mal sehen vielleicht schaffe ich es zeitlich mich am Wochenende hinzusetzen und die Prg. zu testen. Danach werde ich von meinen Tests berichten.

Gruß

Gerhardus1