pdf -> html

keito

Hallo!
Ich suche verzweifelt nach einer Lösung, pdf Dateien in sauberen HTML Code zu konvertieren, damit die Datei in einem beliebeigen HTML Editor bearbeitbar ist.

Sämtliche PDF->HTML Konverter die ich kenne erzeugen unbrauchbaren HTML Code, bei dem fixe Positionsangaben verwendet werden. Das macht Textänderungen nahezu unmöglich.

Auch ein Umweg wäre denkbar, aber ich möchte mit wenig Aufwand PDF in editierbaren HTML Code bekommen. Vielleicht kenn da jemand ein geeignetes Tool?

Danke schon mal im Voraus!!

josef19

Ein PDF besteht nun mal aus einer Menge von Tupel {Position, Text|Bild...} im Quellcode --> Struktur nur schwer erfassbar.

Probiere Loesungen PDF --> OCR --> TXT|HTML|DOC.
(Ist aber auch nicht "Sauber")

anwesender

im pdf konverter, PDF als text-tabelle rendern, ins word oder so laden und dann als html speichern ... sauber: nein, aber nicht absolut positioniert XD

PDFs sind zum rück konvertieren einfach nur scheisse... :o

Thomas

keito

Hallo!
Danke für die Tipps. Ich werde das probieren.

Ich glaube der Text liegt auch als Source Code für QuarXPress vor.
Ich habe selbst noch nicht damit gearbeitet, aber kennt ihr da vielleicht eine bessere Methode vom Source Code zu HTML zu kommen.

Ich glaube QuarkXPress hat zwar auch einen HTML export, soweit ich das gesehen habe ist der aber auch schlecht.

Danke für die Antworten!

Blutsturz

zufällig hab ich gestern in der neuen ix einen link zu diesem addon für firefox gefunden => https://addons.mozilla.org/de/firefox/addon/636 vielleicht ist das ja brauchbar...

mfg

josef19

Vielleicht ist es schneller das relevante Zeug mittels Script rauszuholen:
http://www.google.at/search?q=Quark…vents+Scripting

tsp

Zitat von anwesender

im pdf konverter, PDF als text-tabelle rendern, ins word oder so laden und dann als html speichern ... sauber: nein, aber nicht absolut positioniert XD

PDFs sind zum rück konvertieren einfach nur scheisse... :o

Wenns nur um den Text im PDF geht würd pdf2txt eine schöne Ausgabe liefern (einfach nur Plain ASCII ohne jegliche Formatierung, etc.). Das die Formatierung verloren geht ist in dem Fall wahrscheinlich eh kein Verlust weil man ein für Papier entwickeltes Layout sowieso nicht direkt via HTML abbilden kann (ähm sollte). Das fehlen der Bilder sowie der Semantik (Überschrift, etc.) ist bei der Methode natürlich ein Nachteil

pdf -> html

deleteeeeee 27. Dezember 2024 um 00:26

Jetzt mitmachen!

Benutzer online in diesem Thema