1. Dashboard
  2. Forum
    1. Unerledigte Themen
  3. Mitglieder
    1. Letzte Aktivitäten
    2. Benutzer online
    3. Team-Mitglieder
    4. Trophäen
    5. Mitgliedersuche
  4. Tutorial Bereich
  • Anmelden
  • Registrieren
  • Suche
Dieses Thema
  • Alles
  • Dieses Thema
  • Dieses Forum
  • Seiten
  • Forum
  • Lexikon
  • Erweiterte Suche
  1. Informatik Forum
  2. Webmaster & Internet
  3. Entwicklung

pdf -> html

  • keito
  • 23. Juli 2009 um 11:25
  • Unerledigt
  • keito
    3
    keito
    Mitglied
    Punkte
    65
    Beiträge
    10
    • 23. Juli 2009 um 11:25
    • #1

    Hallo!
    Ich suche verzweifelt nach einer Lösung, pdf Dateien in sauberen HTML Code zu konvertieren, damit die Datei in einem beliebeigen HTML Editor bearbeitbar ist.

    Sämtliche PDF->HTML Konverter die ich kenne erzeugen unbrauchbaren HTML Code, bei dem fixe Positionsangaben verwendet werden. Das macht Textänderungen nahezu unmöglich.

    Auch ein Umweg wäre denkbar, aber ich möchte mit wenig Aufwand PDF in editierbaren HTML Code bekommen. Vielleicht kenn da jemand ein geeignetes Tool?

    Danke schon mal im Voraus!!

    http://www.shoujo-ai.comDas Wichtigste im Leben ist zu wissen was das Wichtigste ist.

  • josef19
    9
    josef19
    Mitglied
    Reaktionen
    9
    Punkte
    749
    Beiträge
    135
    • 23. Juli 2009 um 13:32
    • #2

    Ein PDF besteht nun mal aus einer Menge von Tupel {Position, Text|Bild...} im Quellcode --> Struktur nur schwer erfassbar.

    Probiere Loesungen PDF --> OCR --> TXT|HTML|DOC.
    (Ist aber auch nicht "Sauber")

    Warum einfach, wenns kompliziert geht ! USB-CD-ROM mit USB-Stick emulieren

  • anwesender
    8
    anwesender
    Mitglied
    Reaktionen
    12
    Punkte
    647
    Beiträge
    125
    • 24. Juli 2009 um 00:10
    • #3

    im pdf konverter, PDF als text-tabelle rendern, ins word oder so laden und dann als html speichern ... sauber: nein, aber nicht absolut positioniert XD

    PDFs sind zum rück konvertieren einfach nur scheisse... :o

    Thomas

  • keito
    3
    keito
    Mitglied
    Punkte
    65
    Beiträge
    10
    • 24. Juli 2009 um 16:22
    • #4

    Hallo!
    Danke für die Tipps. Ich werde das probieren.

    Ich glaube der Text liegt auch als Source Code für QuarXPress vor.
    Ich habe selbst noch nicht damit gearbeitet, aber kennt ihr da vielleicht eine bessere Methode vom Source Code zu HTML zu kommen.

    Ich glaube QuarkXPress hat zwar auch einen HTML export, soweit ich das gesehen habe ist der aber auch schlecht.

    Danke für die Antworten! :)

    http://www.shoujo-ai.comDas Wichtigste im Leben ist zu wissen was das Wichtigste ist.

  • Blutsturz
    12
    Blutsturz
    Mitglied
    Reaktionen
    21
    Punkte
    1.351
    Beiträge
    261
    • 30. Juli 2009 um 12:31
    • #5

    zufällig hab ich gestern in der neuen ix einen link zu diesem addon für firefox gefunden => https://addons.mozilla.org/de/firefox/addon/636 vielleicht ist das ja brauchbar...

    mfg

    "There's no such thing as Computer Science-it's witchcraft", math department of MIT, 1961

    You are all children of a worthless god!

  • josef19
    9
    josef19
    Mitglied
    Reaktionen
    9
    Punkte
    749
    Beiträge
    135
    • 30. Juli 2009 um 12:44
    • #6

    Vielleicht ist es schneller das relevante Zeug mittels Script rauszuholen:
    http://www.google.at/search?q=Quark…vents+Scripting

    Warum einfach, wenns kompliziert geht ! USB-CD-ROM mit USB-Stick emulieren

  • tsp
    3
    tsp
    Mitglied
    Punkte
    90
    Beiträge
    15
    • 30. Juli 2009 um 13:26
    • #7
    Zitat von anwesender

    im pdf konverter, PDF als text-tabelle rendern, ins word oder so laden und dann als html speichern ... sauber: nein, aber nicht absolut positioniert XD

    PDFs sind zum rück konvertieren einfach nur scheisse... :o

    Wenns nur um den Text im PDF geht würd pdf2txt eine schöne Ausgabe liefern (einfach nur Plain ASCII ohne jegliche Formatierung, etc.). Das die Formatierung verloren geht ist in dem Fall wahrscheinlich eh kein Verlust weil man ein für Papier entwickeltes Layout sowieso nicht direkt via HTML abbilden kann (ähm sollte). Das fehlen der Bilder sowie der Semantik (Überschrift, etc.) ist bei der Methode natürlich ein Nachteil

  • Maximilian Rupp 27. Dezember 2024 um 00:26

    Hat das Thema aus dem Forum Programmieren nach Entwicklung verschoben.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!

Benutzerkonto erstellen Anmelden

Rechtliches

Impressum

Datenschutzerklärung