Hilfe

NetzUnity und Informatik-forum wurden zusammengelegt. Eine entsprechende Ankündigung wird demnächst noch folgen. Für 2025 ist hier einiges geplant! Bei Fragen bitte per DM an Maximilian Rupp wenden.
  • hi!
    mein chef hat einige hunderte eingescannte dateien und ich soll irgendwie eine lösung finden, wie er eine "bessere" übersicht bekommt und bei problemen nicht alle dateien durchgehen muss, damit er eine information findet...

    was kann ich denn da machen? das wär ja quasi eine datenbank, oder?
    wenn ja, gibts auch für eingescannte dokumente eine lösung?

    wäre für jede hilfe sehr dankbar bzw. auch für tipps, wo ich hilfe finden kann!
    danke!!!

    lg

  • Welche Art von Informationen befinden sich in den eingescannten Dateien? Text? Bilder? ...?

  • Die erste Methode, die mir einfällt: Mit einem Texterkennungsprogramm sämtliche Wörter aus den Bildern extrahieren und in einer Textdatei abspeichern. Die Textdatei kannst du dann mit einem beliebigen Textverarbeitungsprogramm primitiv durchsuchen.

    Die bessere Methode: Eine Datenbank anlegen. Jeder Datensatz enthält das eingescannte Bild, den mit einem Texterkennungsprogramm extrahierten Reintext und optional die Seitennummer, falls du die originalen Dokumente kreuzreferenzieren möchtest. Moderne Datenbanken bieten weitaus bessere Suchmöglichkeiten, als reine Textverarbeitungsprogramme. Allerdings ist diese Methode auch zeitaufwendiger, lieber outoftime.

  • Bevor Du ueber die Umsetzung nachdenken kannst, musst Du die tatsaechlichen Anforderungen herausfinden. "Eingescannte Dokumente besser organisieren" ist noch kein Usecase, anhand dem man eine Software bauen kann.

    Die ersten Fragen die sich mir da stellen: Was sind denn das fuer Dokumente, und was macht Dein Chef? Wie sieht denn so eine Suchanfrage tatsaechlich aus? Wie gross ist das Budget fuer dieses Projekt?

    Wenn Dein Chef im Textinhalt suchen muss, brauchst du Schrifterkennung. Das kann ziemlich schlechte Qualitaet liefern, je nachdem was Da fuer Dokumente dabei sind (handgeschriebene Notizen z.b.). Die Ergebnisse kommen dann vielleicht in einen Suchindex wie Solr und es gibt ein Frontend.

    Wenn es wie Du sagst nur ein paar hundert Dokumente sind, und wenn Dein Chef nach bestimmten Kategorien sucht (z.b. alle Dokumente zu Projekt x im Zeitraum Y), dann macht es vielleicht Sinn, die Daten zu taggen: Also Die Dokumente werden manuell mit Stichwoerten versehen (z.b. von einem Praktikanten), und Dein chef tagged neue Dokumente selbst nach, wenn er sie einscannt. Das ist dann vor allem eine Datenbank oder ein Solr Index mit einem Admin Frontend.

    Je nach den tatsaechlichen Anforderungen kann die effizienteste Loesung auch sein, die Daten fuer deinen Chef einfach sinnvoller in Unterverzeichnissen abzulegen

    Und zum Abschluss noch ein Tip: Es gibt bereits fuer alle grossen Betriebsysteme kostenlose Desktopsuchmaschinen. D.h. wenn dein Scanner OCR macht, dann kann Google Desktop, Beagle, Stringi, Recoll Spotlight, das Microsoft Ding oder was auch immer Deine Daten indizieren und Dein Chef kann danach suchen. Das ist vermutlich am billigsten, wenn es Volltextsuche sein soll.


    weil ich null ahnung habe, unter was ich das einordnen kann, hätte ich eine lange zeile gebraucht, um einen passenden threadtitel zu finden :)

    Vorschlag fuer einen Titel, der besser gewesen waehre: "Suche in eingescannten Dokumenten".

    lg, Benjamin Ferrari, bookworm.at

    3 Mal editiert, zuletzt von a9bejo (5. Juli 2008 um 08:46)

  • vielen dank für die antworten!

    naja das problem ist, dass ich der praktikant sein werde! die info habe ich erst erhalten und mache mir jetzt schon gedanken, wie ich das problem lösen könnte... er meinte sie haben zahlreiche eingescannte dokumente (einige hundert, aber computerschrift!) und er möchte nicht alle möglichen durchstöbern, um manche infos zu bekommen....

    @datenbank:
    könnte ich access für die stichwörter oder den text (durch texterkennungsprogramm rausgenommen) dafür verwenden?
    wenn ja, dann werd ich mich halt in access ordentlich einlesen müssen....

    fällt euch eine leichte variante ein, wie ich eben diese stichwörter oder die ganzen texte durch eine datenbank abfragen kann? was mach ich da am besten?

    desweiteren soll ich nach einer lösung suchen, wie die diagramme in excel "lebendiger" werden,... er meint er möchte das viel veranschaulichter haben, als sie zur zeit vorhanden sind...
    was da genau ist, bekomm ich in einer woche raus, wo ich mein praktikum anfangen werde :)


  • Und zum Abschluss noch ein Tip: Es gibt bereits fuer alle grossen Betriebsysteme kostenlose Desktopsuchmaschinen. D.h. wenn dein Scanner OCR macht, dann kann Google Desktop, Beagle, Stringi, Recoll Spotlight, das Microsoft Ding oder was auch immer Deine Daten indizieren und Dein Chef kann danach suchen. Das ist vermutlich am billigsten, wenn es Volltextsuche sein soll.


    +
    http://www.pdfzone.com/c/a/Search/Goo…les-PDF-Search/

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!