1. Weiterleitung zu NetzLiving.de
  2. Forum
    1. Unerledigte Themen
  3. zum neuen Forum
  • Anmelden
  • Suche
Dieses Thema
  • Alles
  • Dieses Thema
  • Dieses Forum
  • Seiten
  • Forum
  • Erweiterte Suche
  1. Informatik Forum
  2. Webmaster & Internet
  3. Entwicklung

pdf -> html

  • keito
  • 23. Juli 2009 um 11:25
  • Unerledigt
Hallo zusammen,

das Informatik-Forum geht in den Archivmodus, genaue Informationen kann man der entsprechenden Ankündigung entnehmen. Als Dankeschön für die Treue bekommt man von uns einen Gutscheincode (informatikforum30) womit man bei netzliving.de 30% auf das erste Jahr sparen kann. (Genaue Infos sind ebenfalls in der Ankündigung)

Vielen Dank für die Treue und das Verständnis!
  • keito
    Punkte
    65
    Beiträge
    10
    • 23. Juli 2009 um 11:25
    • #1

    Hallo!
    Ich suche verzweifelt nach einer Lösung, pdf Dateien in sauberen HTML Code zu konvertieren, damit die Datei in einem beliebeigen HTML Editor bearbeitbar ist.

    Sämtliche PDF->HTML Konverter die ich kenne erzeugen unbrauchbaren HTML Code, bei dem fixe Positionsangaben verwendet werden. Das macht Textänderungen nahezu unmöglich.

    Auch ein Umweg wäre denkbar, aber ich möchte mit wenig Aufwand PDF in editierbaren HTML Code bekommen. Vielleicht kenn da jemand ein geeignetes Tool?

    Danke schon mal im Voraus!!

  • josef19
    Punkte
    749
    Beiträge
    135
    • 23. Juli 2009 um 13:32
    • #2

    Ein PDF besteht nun mal aus einer Menge von Tupel {Position, Text|Bild...} im Quellcode --> Struktur nur schwer erfassbar.

    Probiere Loesungen PDF --> OCR --> TXT|HTML|DOC.
    (Ist aber auch nicht "Sauber")

  • anwesender
    Punkte
    647
    Beiträge
    125
    • 24. Juli 2009 um 00:10
    • #3

    im pdf konverter, PDF als text-tabelle rendern, ins word oder so laden und dann als html speichern ... sauber: nein, aber nicht absolut positioniert XD

    PDFs sind zum rück konvertieren einfach nur scheisse... :o

    Thomas

  • keito
    Punkte
    65
    Beiträge
    10
    • 24. Juli 2009 um 16:22
    • #4

    Hallo!
    Danke für die Tipps. Ich werde das probieren.

    Ich glaube der Text liegt auch als Source Code für QuarXPress vor.
    Ich habe selbst noch nicht damit gearbeitet, aber kennt ihr da vielleicht eine bessere Methode vom Source Code zu HTML zu kommen.

    Ich glaube QuarkXPress hat zwar auch einen HTML export, soweit ich das gesehen habe ist der aber auch schlecht.

    Danke für die Antworten! :)

  • Blutsturz
    Punkte
    1.351
    Beiträge
    261
    • 30. Juli 2009 um 12:31
    • #5

    zufällig hab ich gestern in der neuen ix einen link zu diesem addon für firefox gefunden => https://addons.mozilla.org/de/firefox/addon/636 vielleicht ist das ja brauchbar...

    mfg

  • josef19
    Punkte
    749
    Beiträge
    135
    • 30. Juli 2009 um 12:44
    • #6

    Vielleicht ist es schneller das relevante Zeug mittels Script rauszuholen:
    http://www.google.at/search?q=Quark…vents+Scripting

  • tsp
    Punkte
    90
    Beiträge
    15
    • 30. Juli 2009 um 13:26
    • #7
    Zitat von anwesender

    im pdf konverter, PDF als text-tabelle rendern, ins word oder so laden und dann als html speichern ... sauber: nein, aber nicht absolut positioniert XD

    PDFs sind zum rück konvertieren einfach nur scheisse... :o

    Wenns nur um den Text im PDF geht würd pdf2txt eine schöne Ausgabe liefern (einfach nur Plain ASCII ohne jegliche Formatierung, etc.). Das die Formatierung verloren geht ist in dem Fall wahrscheinlich eh kein Verlust weil man ein für Papier entwickeltes Layout sowieso nicht direkt via HTML abbilden kann (ähm sollte). Das fehlen der Bilder sowie der Semantik (Überschrift, etc.) ist bei der Methode natürlich ein Nachteil

  • Maximilian Rupp 27. Dezember 2024 um 00:26

    Hat das Thema aus dem Forum Programmieren nach Entwicklung verschoben.

  1. Datenschutzerklärung
  2. Impressum