In PDF's suchen

hal

Zitat von Swoncen

PHP läuft zwar auch ohne Apache Commandline: ("php test.php"), aber das gilt nur zur ausführung einzelner files.. für einen Server ist das ausgeschlossen..

Was für ein Webserver kommt zum Einsatz? Ich glaub die können alle PHP, muss ja nicht Apache sein.

Zitat

1.) Suchengine, die den Begriff finden kann. PHP ausgeschlossen. Ich hab eine JavaScript Engine gefunden, aber wie ich mit der in pdf files suchen kann...

Die müsste jedesmal sämtliche PDFs runterladen vom Server. Selbst wenn das gehen würde (was es nicht tut), ist das nicht brauchbar.

Zitat

2.) Daten bereit stellen. Der Chef meint, dass es bei so vielen pdf's ein bisschen blöd sei die ganzen pdf's in txt oder html files zu konvertieren und immer neben den pdf's am server liegen zu haben.

Richtig.

Zitat

Das lustige (für mich traurige) ist ja, dass die ganze Geschichte nur fürs Intranet ist.....................

Wie wärs mit einem normalen Desktop-App, das einfach am Server liegt und die User via smb-share aufrufen können?

Zitat

Wöchentlich (am WE) ein automatisiertes Programm zur Indexerstellung der pdf's laufen zu lassen und mit der JavaScript Suchengine in der Datenbank dann zu suchen, aber JavaScript kann doch keine Files öffnen oder?

Nein, aber via AJAX kann man da schon einiges machen. Braucht aber auch wieder Webserver-Support.

Wings-of-Glory

ich hätte da einen vorschlag:
du indeziert die pdfs, z.b. mit hilfe von pdftotext oä.
in den suchergebnissen listest du d. pdfs auf, die den gesuchten term enthalten und verlinkst diese folgendermaßen:

Code

<a href="foo.pdf#search=%22MEIN SUCHTERM%22>foo.pdf</a>

der adobe acrobat reader listet dann selbständig alle zeilen auf, wo dein suchterm vorhanden ist und highlightet diese.

Swoncen

Wings-of-Glory! DU hast meinen Tag gerettet. Das war ein Riesen-Schritt in Richtung "Endlich fertig mit dem Sh*t"

Super, funktioniert. Jetzt nur noch ein Programm finden, welches die Indizes erstellt und eine Suchengine, und das ganze is perfekt. Ich glaub so dürfts hinhaun.

mfg

EDIT: Woher hast du die Info? Kannst du eine Quelle dazu angeben? Ich würd nämlich noch gern wissen, wie ich optionale parameter wie "ganzes Wort" usw. einstellen kann.

DGA

heya,

habe nicht alle posts durchgelesen, aber wieso verwendest du nicht die Adobe Acrobat SDK ?

http://partners.adobe.com/public/developer/acrobat/sdk/

angenommen du schreibst dein program in c, c++ oder vb

see you

Swoncen

Hallo DGA,

Daran hab ich auch schon gedacht, aber meine Zeit ist knapp. Ich hab auch noch ein anderes Projekt am laufen und für die Suchmaschine bleibt maximal noch der Montag und der Dienstag. Ich hab schon eine Javascript-Suchmaschine und wie man die pdf's verlinkt, damit sie auf eine gewünschte Stelle springen weiß ich dank WOG auch. Jetzt brauch ich nur noch einen Indexer, der die pdf's indiziert und dann bin ich eh schon fertig. Vielleicht noch ein kleines C-Programm falls die Resultate vom Indexer nicht ins Format der Suchmaschine passen.

Falls es noch wen interessiert, ich hab eine gute Doku gefunden:
http://partners.adobe.com/public/develop…nParameters.pdf

Swoncen

Falls es jemanden interessiert: Ich hab jetzt auch endlich herausgefunden, wie man Umlaute mitüberträgt. Normalerweiße wird bei

nicht nach Hörsaal, sondern nach Hrsaal gesucht. %F6 sollte funktionieren, hat es aber nicht. Ich hab herausgefunden, dass "ö" z.B. zu %C3%B6 wird. Ich kopier mal aus meinen Code die Stelle heraus, bei der ich die Zeichen konviertiere:

replace("ö", "%C3%B6");
replace("Ö", "%C3%B6");
replace("ä", "%C3%A4");
replace("Ä", "%C3%84");
replace("ü", "%C3%BC");
replace("Ü", "%C3%9C");
replace("ß", "%C3%9F");
replace("§", "%C2%A7");

Vielleicht braucht es ja irgendwann mal wer. Der Grund für diese Konvertierung dürfte am charset liegen.

mfg

Swoncen

Übrigens hab ich jetzt ein neues Problem.

Bei mir funktioniert die Suche in den pdf's, aber bei anderen nicht. Es dürfte sich um einen Versionskonflikt handeln.

Ich hab die Version "Adobe Acrobat 7.0 Standard (7.0.0)", bei der es funktioniert. Die Version, bei der die Suche über den Link nicht funktioniert ist die Version "Adobe Acrobat 7.0 Standard (7.0.8)" und höher.

Ich nehm an es liegt an den Sucheinstellungen im Reader, hab aber noch nichts genaueres herausgefunden. Weiß jemand bescheid?

mfg

hal

Zitat von Swoncen

Vielleicht braucht es ja irgendwann mal wer. Der Grund für diese Konvertierung dürfte am charset liegen.

Ja, der dürfte sinnvollerweise UTF-8 verwenden, und du sinnloserweise ISO8859-1.

In PDF's suchen

deleteeeeee 27. Dezember 2024 um 12:05

Jetzt mitmachen!

Benutzer online in diesem Thema