Grüzi!
Es gibt einiges neues an Scripty...ich hab mich mal ein wenig dem Problem der auf zig kleinen Seiten zerstreuten Dokumente angenommen und einen Prototypen eines Crawlers und Fetchers geschrieben. Der muss noch deutlich verbessert werden, aber er funktioniert mal so irgendwie.
Ergebnis: Ich füge einen URL in die entspr. Table ein, und beim nächsten Durchlauf werden alle dort auffindbaren PDFs fetched und indiziert
Das Crawlen soll auch ein bissl in die Tiefe gehen, damit alle PDFs einer Seite erfasst werden können - allerdings ohne die Seite zu verlassen, und das muss noch implementiert werden.
Sinn dahinter: Die Hunderttausenden kleinen, privaten, aber oft hilfreichen Seiten dadurch erfassbar zu machen, dass Leute URLs vorschlagen können, die in den Index aufgenommen werden sollen. Je leichter die PDFs erreichbar sind, desto besser. Am einfachsten wäre dafür überhaupt z.b. ein RSS-Feed, den man regelmäßig befragen kann, was es auf dieser Seite neues gibt, aber das findet man leider kaum ....
So sieht der Spaß jetzt aus:
http://www.scripty.at/search/index/query/test
Aja, und es gibt eine Tag-Cloud
Freue ich über weitere Verbesserungsvorschläge bzw. was ihr von meiner Idee haltet, das Skripten-Chaos ein wenig zu ordnen. (Denn ein einziges riesiges Portal im direkten Sinn wird es so schnell nicht geben und hat auch nicht unbedingt Sinn - aber es gibt ja Techniken, die verschiedenen Seiten trotzdem durch eine einheitliche Maske verwendbar zu machen).
Have phun! :omg: