Ich bin auf der Suche nach einem Text "Indexer", der sowohl mit deutschen als auch mit englischen Texten klarkommt. Er sollte mit E-Mails, HTML und mit LaTeX klarkommen. Des weiteren muß der Indexer CRON-tauglich sein.
Eigentlich wäre SWISH++ meine erste Wahl, aber anscheinend kommt er nur gut mit Englisch klar. Es fehlen Wortlisten für stop words und für das word stemming.
...oder hat jemand diese Listen für Deutsch?
Ich brauche (eigentlich) kein Web-Interface, aber die Integration in Emacs / Gnus wäre ganz nett.
Welche Alternativen gibt es, und wie sind Eure Erfahrungen damit.
Erfahrung mit Text-Indexern?
-
- Beiträge: 30
- Registriert: 02.07.2003 18:15:24
Ein Indexer indiziert Texte. Er erstellt also einen Suchindex, auf den dann mit entsprechenden Suchprogrammen schnell zugegriffen werden kann.
Mit SWISH++ kann man seine Mail zum Beispiel auf unter Zuhilfenahme von Feldnamen (von SWISH++ attributes genannt) durchsuchen:
Das würde dann alle Mails von Dir auflisten, die "indexer" im Betreff haben.
Andere Indexer kennt dann noch die "fuzzy search", die "unscharf" sucht. Da wäre dann "Tippfähler" und "Tipfehler" ein Treffer.
Mit SWISH++ kann man seine Mail zum Beispiel auf unter Zuhilfenahme von Feldnamen (von SWISH++ attributes genannt) durchsuchen:
Code: Alles auswählen
search author=thundersteel and subject=indexer
Andere Indexer kennt dann noch die "fuzzy search", die "unscharf" sucht. Da wäre dann "Tippfähler" und "Tipfehler" ein Treffer.