PDF in (durchsuchbaren) Text konvertieren?

...hier stehen alle die Themen, die in den anderen Foren offtopic sind. :-)
Antworten
Benutzeravatar
Q
Forums-Profi
Forums-Profi
Beiträge: 210
Registriert: 21.10.05 09:25
Wohnort: Hamburg
Kontaktdaten:

Hallo zusammen,

ich hab mich schon totgegoogled.

Kennt jemand ein möglichst (kostenfreies / günstiges) Programm, mit dem man (als Grafik eingescannte und als PDF abgelegte) Buchseiten z. B. wieder in eine durchsuchbare Form bekommt?

Ich denke da an Texterkennung (OCR) und sowas... möglichst natürlich ohne viel Nachbearbeiten. Sowas mit "Schwupp und läuft"...

Wunschdenken?


Viele Grüße,
Marco
Benutzeravatar
Jake
Mitglied
Mitglied
Beiträge: 30
Registriert: 24.01.06 21:48
Wohnort: Erlangen
Kontaktdaten:

Hi Marco!

Aus PDF umwandeln kann, glaub ich, keine Freeware gescheit. Sofern du das nicht andauernd brauchst, kannst du dir bei ABBYY die Demoversionen von PDF Transformer und Finereader runterladen (laufen m.W. 30 Tage). Mit dem Transformer kommst du an die Grafiken ran und Finereader zieht aus der Grafikdatei den Text heraus. Sofern die Scanqualität der Grafiken gut ist, sind die Ergebnisse echt klasse. Download hier: http://www.abbyy.com/download_de

Mußt du sowas permanent machen, wirst du wohl nicht drumrumkommen, den Geldbeutel aufzumachen.
SAPeter

ich habe auf meinem Arbeitsrechner IRIS, da kann man auch PDF's
erkennen, man muss allerdings Wörter die das Programm nicht erkennt,
dem Programm beibringen, kann mitunter etwas anstrengend sein, je nach Vorlage. Dass Programm kostet bestimmt auch was,
hier die Website: http://www.irislink.com/opt/uk/index.html
Benutzeravatar
Q
Forums-Profi
Forums-Profi
Beiträge: 210
Registriert: 21.10.05 09:25
Wohnort: Hamburg
Kontaktdaten:

Danke Euch beiden. Aber 130 € bzw. $ liegt dann doch nicht im Budget dafür. Und Testversionen laufen ja auch irgendwann ab...
SAPeter

wenn du ein sauberes PDF hast, in dem die Schriften korrekt eingebunden sind, kann Du auch Ghostview (in Verbindung mit Ghostscript) verwenden,
ist freeware/Shareware.
Das Ergebnis hängt halt sehr davon ab "wie" das PDF erzeugt wurde, sprich wenn im Acrobat Reader der Text auswählbar ist, stehen die Chancen gut in Ghostview per Textextraktion den Text als *.txt Datei rauszubekommen, die Qualität ist halt bescheiden.
Hoffe das hilft Dir ein bisschen.
Gruß
Peter
PS: man sieht sich in der VH!
Benutzeravatar
Q
Forums-Profi
Forums-Profi
Beiträge: 210
Registriert: 21.10.05 09:25
Wohnort: Hamburg
Kontaktdaten:

Hi!

Und da liegt der Hase im Pfeffer. Es handelt sich um Scans, also als Grafiken erzeugte PDFs. Daher hätt' ich auch gern OCR.

Es ist aber nicht lebensnotwendig, nur "nice to have".

Soll halt dafür gedacht sein, vorbeischwimmende aber papierene Dokumente, die man für's Studium gebrauchen kann, in elektronischer Form und (z. B. mit Google-Desktop-Search) indiziert abzulegen.

Das Problem ist ja immer das "nachherwaswiederfinden" und das krieg ich mit Papier so gar nicht hin.


Viele Grüße,
Marco

P.S.: Wer bist Du denn in der VH? SAPeter... Sachsenpeter, äh ...paule? :lol:
tarafell27

Hallo Marco,

erinnere mich zum nächsten Stammtisch daran, das ich Dir Abby Scan Soft 1.0 mitbringe. Ist zwar etwas langsam aber in der Texterkennung ganz passabel.

Gruß

Wieland
Benutzeravatar
Q
Forums-Profi
Forums-Profi
Beiträge: 210
Registriert: 21.10.05 09:25
Wohnort: Hamburg
Kontaktdaten:

Hallo Wieland,

danke! Das ist ja supernett von Dir!


Viele Grüße,
Marco
Antworten