1. Dashboard
  2. Forum
    1. Unerledigte Themen
  3. Mitglieder
    1. Letzte Aktivitäten
    2. Benutzer online
    3. Team-Mitglieder
    4. Trophäen
    5. Mitgliedersuche
  4. Tutorial Bereich
  • Anmelden
  • Registrieren
  • Suche
Dieses Thema
  • Alles
  • Dieses Thema
  • Dieses Forum
  • Seiten
  • Forum
  • Lexikon
  • Erweiterte Suche
  1. Informatik Forum
  2. Webmaster & Internet
  3. Entwicklung

knifflig: unscharfe string-suche

    • Frage
  • emkey08
  • 11. Dezember 2007 um 22:47
  • Unerledigt
  • emkey08
    3
    emkey08
    Mitglied
    Punkte
    55
    Beiträge
    10
    • 11. Dezember 2007 um 22:47
    • #1

    hallo leute,

    ich habe eine knifflige frage, und setze ein preisgeld auf die lösung aus. :grinning_squinting_face:

    also: für ein projekt benötige ich eine unscharfe string-suche, um z.b. tippfehler erkennen zu können. den "ähnlichkeitsgrad" zweier gegebener strings (z.b. als prozent-wert) kann man nun natürlich relativ einfach feststellen (siehe http://de.wikipedia.org/wiki/Levenshtein-Distanz).

    so, nun soll in einer datenbank nach dem eingabestring unscharf gesucht werden. die "naive" möglichkeit ist natürlich einfach über alle strings den ähnlichkeitsgrad zum suchstring auszurechnen (also lineare laufzeit, was angesichts des aufwändigen vergleichs und der möglicherweise sehr großen datenmengen schon ziemlich viel ist).

    die preisfrage also: kennt jemand eine möglichkeit eine unscharfe stringsuche auf einen datenbestand in logarithmischer laufzeit durchzuführen (analog zur binärsuche für z.b. die "scharfe" string-suche)??

    ps: die möglichkeit in der datenbank einen index auf den soundex-wert der strings (siehe http://de.wikipedia.org/wiki/Soundex) zu definieren ist mir bekannt - aber soundex ist kein wirklich zuverlässiger algorithmus, der außerdem nur für englischen text (einigermaßen) funktioniert.


    also, hat da schon jemand mal was mit unscharfer string-suche programmiert? irgendwelche ideen, anybody?


    mfg

    Alles ist relativ, außer dem Nullpunkt, der ist absolut.

  • Simon
    5
    Simon
    Mitglied
    Reaktionen
    1
    Punkte
    211
    Beiträge
    42
    • 12. Dezember 2007 um 09:58
    • #2

    Im c'T 20/07 (17.09.07) gibt es einen Artikel über phonetischen Adressenvergleich. Bei den Quellen angeführt wurde auch die open-source-Software phonet4j (http://opensource.softmethod.de/trac/opensourc…cts%3Aphonet4j).
    Falls du den Artikel brauchst (angegebene Quellcodes sind in C), kann ich u.U. eine Kamera organisieren und ihn abknipsen.

    PokerStrategy - Pokercommunity + 150$ geschenkt!

  • emkey08
    3
    emkey08
    Mitglied
    Punkte
    55
    Beiträge
    10
    • 12. Dezember 2007 um 16:06
    • #3

    danke für den hinweis! werd mir das mal anschaun. ja, falls du den artikel hier uploaden kannst wär das natürlich super.

    Alles ist relativ, außer dem Nullpunkt, der ist absolut.

  • emkey08
    3
    emkey08
    Mitglied
    Punkte
    55
    Beiträge
    10
    • 12. Dezember 2007 um 16:44
    • #4

    ...hab mir den artikel inzwischen schon als pdf runtergeladen, danke trotzdem

    Alles ist relativ, außer dem Nullpunkt, der ist absolut.

  • Maximilian Rupp 27. Dezember 2024 um 12:04

    Hat das Thema aus dem Forum Programmieren nach Entwicklung verschoben.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!

Benutzerkonto erstellen Anmelden

Rechtliches

Impressum

Datenschutzerklärung