1. Dashboard
  2. Forum
    1. Unerledigte Themen
  3. Mitglieder
    1. Letzte Aktivitäten
    2. Benutzer online
    3. Team-Mitglieder
    4. Trophäen
    5. Mitgliedersuche
  4. Tutorial Bereich
  • Anmelden
  • Registrieren
  • Suche
Dieses Thema
  • Alles
  • Dieses Thema
  • Dieses Forum
  • Seiten
  • Forum
  • Lexikon
  • Erweiterte Suche
  1. Informatik Forum
  2. Webmaster & Internet
  3. Entwicklung

In PDF's suchen

    • Frage
  • Swoncen
  • 22. August 2006 um 10:16
  • Unerledigt
  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 22. August 2006 um 10:16
    • #1

    Hallo!

    Ich würd gern wissen, wie ich von einer Website ein oder mehrere pdf's nach dem Inhalt durchsuchen kann? Wenn ich zum Beispiel nach "Ansprechsperson" suche und es steht in 4 von 5 pdf's, hätte ich gerne, die Files, in denen es gefunden wurde, vielleicht auch die Stelle und den Absatz o.ä. in dem das Wort/Phrase steht... kennt sich da jemand aus?

    640K ought to be enough for anybody. :eek2:

  • sauzachn
    17
    sauzachn
    Mitglied
    Reaktionen
    51
    Punkte
    3.101
    Beiträge
    606
    • 22. August 2006 um 10:58
    • #2

    Was auf jeden Fall unter Linux geht: pdftotext und dann die wichtigen Stellen rausgreppen oder rausregexpen (was für ein Wort!):

    Code
    pdftotext bla.pdf ; grep blublo bla.txt

    Vielleicht gibt es das auch unter Windows (evt. über Cygwin).

    Dipper dipper dii dipper dii dipper dii duuu

  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 22. August 2006 um 11:23
    • #3

    Also es ist auf jeden Fall unter Windows. Ich kenn mich mit Cygwin überhaupt nicht aus, aber ich werd danach googln, danke mal für den Tipp! Da ich aber nicht weiß, wie Cygwin funktioniert, sag ich mal sicherheitshalber dazu, dass die ganze Geschichte im Browser laufen soll. Ich hab da an PHP gedacht, kenn aber noch keine Methode dazu.

    Falls jemand trotzdem andere Alternativen kennt, dann bitte trotzdem posten.

    640K ought to be enough for anybody. :eek2:

  • sauzachn
    17
    sauzachn
    Mitglied
    Reaktionen
    51
    Punkte
    3.101
    Beiträge
    606
    • 22. August 2006 um 11:30
    • #4
    Zitat von Swoncen

    Da ich aber nicht weiß, wie Cygwin funktioniert, sag ich mal sicherheitshalber dazu, dass die ganze Geschichte im Browser laufen soll. Ich hab da an PHP gedacht, kenn aber noch keine Methode dazu.


    Cygwin ist im Prinzip nix Anderes als eine Library mit den ganzen Unix-Calls sowie die üblichen (und viele weniger übliche) Unix-Programme/Dienste (grep, awk, sed, vim, X), die darauf aufsetzen.

    Und sonst nimm dir halt einen Linux-Server mit Apache/PHP, dann brauchst du nur schauen, dass das Tool dort drauf ist (unter Ubuntu ist es Teil von xpdf-utils) und hast gewonnen :)

    Dipper dipper dii dipper dii dipper dii duuu

  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 22. August 2006 um 11:55
    • #5

    Der Server steht nicht bei mir zu Hause, sondern in der Arbeit und ich kann nicht einfach bestimmen, dass jetzt Linux und XAMPP/Apache installiert wird. Ich muss mir das vorher gut überlegen und 100% sicher sein, dass es mit Cygwin geht.

    mfg

    EDIT: XAMPP läuft eh auch unter Windows, aber trotzdem..

    640K ought to be enough for anybody. :eek2:

  • sauzachn
    17
    sauzachn
    Mitglied
    Reaktionen
    51
    Punkte
    3.101
    Beiträge
    606
    • 22. August 2006 um 12:12
    • #6

    Eine Alternative wäre, am Server ein Textindizierungsprogramm (so was wie glimpse) zu installieren. Das kann auch Indices von PDFs erzeugen. Dann geht auch das Suchen um einiges schneller.

    EDIT: Eine andere Möglichkeit wäre so was wie http://freshmeat.net/projects/jssindex/ Google und freshmeat.net finden noch einige andere Projekte. Ergiebigster Suchterm bisher "text search in pdf".

    Dipper dipper dii dipper dii dipper dii duuu

  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 22. August 2006 um 13:42
    • #7

    Ein Indizierungsprogramm soll nicht verwendet werden.

    Es sollte wenn möglich ohne Installation einer anderen Software gehen, außerdem rennts auf einem Windows Server. Ich dachte auch eigentlich eher daran, ob vielleicht jemand etwas in die Richtung kennt und nicht im google nach ähnlichen Dingen sucht und hier rein postet. Ich google eh selber, bin aber auf nichts derartiges bis jetzt gestoßen.

    640K ought to be enough for anybody. :eek2:

  • sauzachn
    17
    sauzachn
    Mitglied
    Reaktionen
    51
    Punkte
    3.101
    Beiträge
    606
    • 22. August 2006 um 14:21
    • #8

    Aber wie soll das bitte gehen, wenn du am Server nichts rumtun darfst?! Glaubst du, Windows hat eine PDF API?!

    Dipper dipper dii dipper dii dipper dii duuu

  • Lord Binary
    18
    Lord Binary
    Mitglied
    Reaktionen
    11
    Punkte
    3.301
    Beiträge
    647
    • 22. August 2006 um 14:40
    • #9

    Wahhhh ... :distur:

    Erstens

    Zitat


    Ich würd gern wissen, wie ich von einer Website ein oder mehrere pdf's nach dem Inhalt durchsuchen kann

    Was soll denn das genau heissen ?
    Upload von pdfs auf einen Server (per website), der sie irgendwie parst/einliest/verarbeitet ? Wo soll das Ergebnis stehen ?

    Das ist schon ziemlich wage, aber gut ...

    Zweitens

    Zitat


    Es sollte wenn möglich ohne Installation einer anderen Software gehen, außerdem rennts auf einem Windows Server.

    a) Diese Info nützt herzlich wenig, wenn nicht bekannt ist, welche Software schon installiert ist.
    b) Relativ interessant wie das gehen sollte, egal in wie das implementiert wird, ohne pdf-library oder tool wird das wohl nicht in vernünftiger Zeit gehen. das würd ich schon als software bezeichnen.

    [EDIT]

    Zitat


    Aber wie soll das bitte gehen, wenn du am Server nichts rumtun darfst?! Glaubst du, Windows hat eine PDF API?!


    Ok, da war jemand schneller, macht mein Post obsolet, denn selbe Message :winking_face:
    [/EDIT]


    Trading for a living [equities,futures,forex]

  • blackie
    9
    blackie
    Mitglied
    Reaktionen
    1
    Punkte
    831
    Beiträge
    164
    • 22. August 2006 um 15:18
    • #10

    PDF2TXT
    http://www.iscb.de/downloads/winindex.htm

    sollte so was ähnliches wie das auf Linux sein nur für windows das proggie is ziemlich klein und lässt sich auch per Kommandozeile bedienen
    is glaub ich einfacher als Cygwin zu installieren
    scheints braucht man da nur eine URL angeben und die wird nach PDF's durchsucht und gleich in ascii umgeschrieben

  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 22. August 2006 um 15:53
    • #11
    Zitat von Lord Binary

    Wahhhh ... :distur:



    Was isn los? Beruhig dich. Keiner zwingt dich etwas zu schreiben!

    Zitat von Lord Binary


    Was soll denn das genau heissen ?
    Upload von pdfs auf einen Server (per website), der sie irgendwie parst/einliest/verarbeitet ? Wo soll das Ergebnis stehen ?
    Das ist schon ziemlich wage, aber gut ...



    Wir befinden uns auf einer Website und wollen dort in einer Suchmaschine einen Suchtext eingeben. Dieser Suchtext wird dann in den pdf Files, welche am Server liegen gesucht und das Ergebniss soll auf der Website wieder ausgegeben werden. Und zwar soll das entsprechende pdf-File in dem der Suchtext gefunden wurde aufgelistet werden und ein bisschen Text, am besten der entsprechende Absatz. Alles klar?

    Zitat von sauzachn


    Aber wie soll das bitte gehen, wenn du am Server nichts rumtun darfst?! Glaubst du, Windows hat eine PDF API?!



    Wie kommst du darauf, dass ich das glaube? Es ist für mich mühsam genug diesen Blödsinn zu machen, und meinen Chef zu etwas zu überreden, eine Software am Server zu installieren ist nicht gerade lustig. Ich werd das PDF2TXT testen..

    640K ought to be enough for anybody. :eek2:

  • sauzachn
    17
    sauzachn
    Mitglied
    Reaktionen
    51
    Punkte
    3.101
    Beiträge
    606
    • 22. August 2006 um 16:32
    • #12
    Zitat von Swoncen

    Es ist für mich mühsam genug diesen Blödsinn zu machen, und meinen Chef zu etwas zu überreden, eine Software am Server zu installieren ist nicht gerade lustig.


    Dein Chef muss überhaupt lustig sein: Windows auf einem Server? WTF?!

    Dipper dipper dii dipper dii dipper dii duuu

  • hal
    32
    hal
    Mitglied
    Reaktionen
    52
    Punkte
    11.122
    Beiträge
    2.208
    • 22. August 2006 um 17:27
    • #13

    Hab auch schon von Windows-Servern gehört, die um irgendwelche Daten zu erhalten, schnell Excel aufgerufen haben, die Daten verarbeitet und exportiert ham und dann das web service the Daten zurückliefert :)
    Bei Windows-Servern ist die Kreativität der Programmierer definitiv gefordert, nachdem man fast gar nix dort irgendwie einfach oder sinnvoll machen kann.

    [font=verdana,sans-serif]"An über-programmer is likely to be someone who stares quietly into space and then says 'Hmm. I think I've seen something like this before.'" -- John D. Cock[/font]

    opentu.net - freier, unzensierter Informationsaustausch via IRC-Channel!
    Hilfe und Support in Studienangelegenheiten, gemütliches Beisammensein, von und mit Leuten aus dem Informatik-Forum!

  • blackie
    9
    blackie
    Mitglied
    Reaktionen
    1
    Punkte
    831
    Beiträge
    164
    • 23. August 2006 um 07:34
    • #14
    Zitat von hal


    Bei Windows-Servern ist die Kreativität der Programmierer definitiv gefordert, nachdem man fast gar nix dort irgendwie einfach oder sinnvoll machen kann.



    naja schließlich gibts so ziemlich jedes sinnvolle unix/linux Programm auch für Windows so wie das PDF2TXT und das meistens sogar freeware
    und wenn du einen unix server verwalten kannst sollt es eigentlich einfach sein sich ein paar Windows Tools runterzuladen und zu installieren
    man muss sich nur die Mühe machen und danach zu suchen in dem Fall heisst das Teil sogar gleich wie die Linux Variante

  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 23. August 2006 um 13:43
    • #15
    Zitat von blackie

    naja schließlich gibts so ziemlich jedes sinnvolle unix/linux Programm auch für Windows so wie das PDF2TXT und das meistens sogar freeware
    und wenn du einen unix server verwalten kannst sollt es eigentlich einfach sein sich ein paar Windows Tools runterzuladen und zu installieren
    man muss sich nur die Mühe machen und danach zu suchen in dem Fall heisst das Teil sogar gleich wie die Linux Variante



    Naja das PDF2TXT konvertiert die files nur in txt files, mehr nicht.. ich möchte aber in PDF's nach Ausdrücken suchen. jssindex wär perfekt, nur bräucht ichs unter windows.. ich hab bis jetzt kein entsprechendes tool für windows gefunden. Es muss doch irgendwas geben. Mit Apache wäre alles viel leichter, aber das will der Chef wieder nicht.

    Gibts vielleicht ein online Service, welches in pdf files nach Ausdrücken sucht?

    640K ought to be enough for anybody. :eek2:

  • sauzachn
    17
    sauzachn
    Mitglied
    Reaktionen
    51
    Punkte
    3.101
    Beiträge
    606
    • 23. August 2006 um 14:08
    • #16
    Zitat von Swoncen

    Naja das PDF2TXT konvertiert die files nur in txt files, mehr nicht.. ich möchte aber in PDF's nach Ausdrücken suchen. jssindex wär perfekt, nur bräucht ichs unter windows.. ich hab bis jetzt kein entsprechendes tool für windows gefunden. Es muss doch irgendwas geben. Mit Apache wäre alles viel leichter, aber das will der Chef wieder nicht.


    Also ist dein Chef Gegner von "das richtige Werkzeug für den richtigen Job" :grinning_squinting_face: Aber mal ehrlich: Behindert euch der Chef immer so bei euren Produktivarbeiten? Das gibts ja nicht. Ein Windows-Server ist ja so schon das letzte, aber dann auch noch drauf Dinge machen zu müssen, die unter Unix nicht mal als "Klacks" bezeichnet werden können.

    So, nun zum Problem:
    1. Mit PHP PDF-Datei in TXT konvertieren (es gibt einen system() Call).
    2. Nun mit PHP Funktionen TXT-Datei öffnen und drin suchen (grep oder so was wirds wohl geben), eine Regexp-Lib gibts auch für fortgeschrittenere Dinge.

    Das ist ja jetzt nicht mehr schwierig oder?

    Dipper dipper dii dipper dii dipper dii duuu

  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 23. August 2006 um 14:36
    • #17

    Hab ich nicht erwähnt, dass wir kein Apache installiert hab? Oder kann man PHP auch ohne Apache betreibern?

    Neue Lage: Der Chef hat jetzt seinen Wunsch konkretisiert:

    Im Browser auf der Website soll ein Suchbegriff eingeben werden und der wird dann in allen pdf's gesucht und die Ergebnisse werden mit Links angezeigt. Wenn man dann auf ein Ergebnis klickt, soll sich der Adobe Reader öffnen und den Suchbegriff fokusieren.

    Jetzt bin ich echt verzweifelt.. ich könnt heuln. Er meint Adobe is scriptfähig soviel er weiß.. super, was bringt mir das?

    640K ought to be enough for anybody. :eek2:

  • sauzachn
    17
    sauzachn
    Mitglied
    Reaktionen
    51
    Punkte
    3.101
    Beiträge
    606
    • 23. August 2006 um 14:49
    • #18
    Zitat von Swoncen

    Hab ich nicht erwähnt, dass wir kein Apache installiert hab? Oder kann man PHP auch ohne Apache betreibern?


    Müsstest nachschauen, halt ich aber nicht für ausgeschlossen: http://www.php.net

    Zitat von Swoncen


    Im Browser auf der Website soll ein Suchbegriff eingeben werden und der wird dann in allen pdf's gesucht und die Ergebnisse werden mit Links angezeigt. Wenn man dann auf ein Ergebnis klickt, soll sich der Adobe Reader öffnen und den Suchbegriff fokusieren.


    Sag deinem Chef, dass er ein Trottel ist. Und das mein ich genau so. Nicht jetzt wegen der Aufgabe, sondern: Wenn er dir nicht von Anfang an die tatsächliche Aufgabenstellung gibt, dann verschwendest du nur viel Zeit unnütz. Und damit unsere Zeit, weil am Anfang klang, zumindest für mich, das Problem noch ganz anders.

    Ich schätze deinen Auftrag als ohne was am Server installieren zu dürfen als ziemlich unumsetzbar ein. Ist er Techniker? Eher nicht oder?

    Wie gehst du jetzt weiter vor: Das Problem in Teilprobleme zerlegen:
    1. Schauen, ob und wie das mit dem Scripting im Adobe Reader funktioniert. Dazu mit einer einzigen Datei testen, ob du an eine bestimmte Stelle hüpfen kannst.
    2. Wie holst du die benötigten Infos aus PDF-Dateien.
    3. Wie verknüpfst du das (also wie speicherst du die Treffer in HTML so, dass du mit einem Link (über ein CGI-Script?) den Adobe richtig aufmachen kannst.

    Viel Spaß :devil:

    Dipper dipper dii dipper dii dipper dii duuu

  • hal
    32
    hal
    Mitglied
    Reaktionen
    52
    Punkte
    11.122
    Beiträge
    2.208
    • 23. August 2006 um 15:16
    • #19
    Zitat von Swoncen

    Im Browser auf der Website soll ein Suchbegriff eingeben werden und der wird dann in allen pdf's gesucht und die Ergebnisse werden mit Links angezeigt. Wenn man dann auf ein Ergebnis klickt, soll sich der Adobe Reader öffnen und den Suchbegriff fokusieren.

    Das klingt sehr nach dem, was Google macht (bis auf Suchbegriff fokussieren). Soweit ich weiß kann man mit Google reden, dass die einem die Seite indizieren, und dann einfach eine Suchbox mit "site:<meine Adresse>" angehängt auf die eigene Seite stellen. Zumindest Apple macht das so, und viele andere auch.

    Der 2. Teil ist glaub ich ziemlich unerfüllbar mit der Lösung.

    Zitat

    Jetzt bin ich echt verzweifelt.. ich könnt heuln. Er meint Adobe is scriptfähig soviel er weiß.. super, was bringt mir das?

    Nichts. Außer evtl, wenn du ein ActiveX-Ding programmieren willst, das den Acrobat Reader fernsteuert. Das geht aber nur für inhouse-Lösungen, wo die Computerumgebung am Client genau bekannt ist.

    [font=verdana,sans-serif]"An über-programmer is likely to be someone who stares quietly into space and then says 'Hmm. I think I've seen something like this before.'" -- John D. Cock[/font]

    opentu.net - freier, unzensierter Informationsaustausch via IRC-Channel!
    Hilfe und Support in Studienangelegenheiten, gemütliches Beisammensein, von und mit Leuten aus dem Informatik-Forum!

  • Swoncen
    22
    Swoncen
    Mitglied
    Reaktionen
    1
    Punkte
    5.331
    Beiträge
    993
    • 23. August 2006 um 15:22
    • #20

    PHP läuft zwar auch ohne Apache Commandline: ("php test.php"), aber das gilt nur zur ausführung einzelner files.. für einen Server ist das ausgeschlossen..

    Ich hab einmal die Hauptprobleme zusammengefasst:

    1.) Suchengine, die den Begriff finden kann. PHP ausgeschlossen. Ich hab eine JavaScript Engine gefunden, aber wie ich mit der in pdf files suchen kann...

    2.) Daten bereit stellen. Der Chef meint, dass es bei so vielen pdf's ein bisschen blöd sei die ganzen pdf's in txt oder html files zu konvertieren (Ich hab ein Tool für PDF->HTML gefunden, was meine größte Hoffnung ist, da man auf HTML gut suchen kann und die Formatierung vorhanden bleibt) und immer neben den pdf's am server liegen zu haben.

    3.) Die Verknüpfung zwischen dem Suchbegriff und den Stellen in den Files.



    Das lustige (für mich traurige) ist ja, dass die ganze Geschichte nur fürs Intranet ist.....................

    Das naheliegenste für mich ist folgende Idee:
    Wöchentlich (am WE) ein automatisiertes Programm zur Indexerstellung der pdf's laufen zu lassen und mit der JavaScript Suchengine in der Datenbank dann zu suchen, aber JavaScript kann doch keine Files öffnen oder?

    640K ought to be enough for anybody. :eek2:

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!

Benutzerkonto erstellen Anmelden

Benutzer online in diesem Thema

  • 1 Besucher

Rechtliches

Impressum

Datenschutzerklärung