eigene Suchmaschine Dokumente

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 09.03.2017 17:18:43

Hi,
ich habe in der Ecke meinen Linux Server stehen.
Arbeiten tu ich aber mit Windows Client.
Aber alle Dokumente lege ich auf meinem Samba Server ab.
Ich suche eine Linux Desktop? Suchmaschine in der ich auf dem Client-PC über Browser nach Dokumenten suchen kann.
Auch mal nach Inhalt, wo ich den Dateinamen nicht kenne.

Ich bin begeistert von meinem Piler Mailarchiv, wo ich in 100.000 E-Mails Texte suchen kann und in 2-3 Sekunden ein Ergebnis habe.
So etwas suche ich für meine .doc, .odt, .xls .txt .ods Dateien.
Eventuell noch mit Tag-Funktion, muss aber nicht.

Jemand eine Empfehlung ?

scientific
Beiträge: 3020
Registriert: 03.11.2009 13:45:23
Lizenz eigener Beiträge: Artistic Lizenz
Kontaktdaten:

Re: eigene Suchmaschine Dokumente

Beitrag von scientific » 09.03.2017 18:50:25

Recoll könnte sein, was du suchst.

Lg
dann putze ich hier mal nur...

Eine Auswahl meiner Skripte und systemd-units.
https://github.com/xundeenergie

auch als Debian-Repo für Testing einbindbar:
deb http://debian.xundeenergie.at/xundeenergie testing main

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: eigene Suchmaschine Dokumente

Beitrag von Revod » 09.03.2017 19:00:12

Oder,

http://www.phparchiv.de/category/dateimanager

Reine Suchfunktion an viertes Vorschlag, wie immer zuerst testen.

und den kenne ich, hat einen guten Eindruck damals gemacht,

http://extplorer.sourceforge.net/

Edit:

cheint mir sehr gut nach der Beschreibung,

http://www.weltvolk.de/
Systemd und PulseAudio, hmmm, nein danke.

geier22

Re: eigene Suchmaschine Dokumente

Beitrag von geier22 » 09.03.2017 20:03:00

Ich nutze auch Debianrecoll und bin damit sehr zufrieden
Webseite: http://www.lesbonscomptes.com/recoll/
Hier mal eine Übersicht, was Recoll alles kann, alle Empfehlungen installiert:

Indizierte Mime - Typen

Code: Alles auswählen

application/javascript
application/msword
application/ogg
application/pdf
application/postscript
application/sql
application/vnd.ms-excel
application/vnd.ms-powerpoint
application/vnd.oasis.opendocument.spreadsheet
application/vnd.oasis.opendocument.text
application/vnd.oasis.opendocument.text-template
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.wordprocessingml.template
application/vnd.sun.xml.calc
application/vnd.sun.xml.draw.template
application/x-awk
application/x-chm
application/x-dvi
application/x-flac
application/x-gnuinfo
application/x-mimehtml
application/x-perl
application/x-php
application/x-shellscript
application/x-tex
application/xml
application/zip
audio/mpeg
image/gif
image/jp2
image/jpeg
image/png
image/tiff
image/x-xcf
inode/x-empty
message/rfc822
text/calendar
text/css
text/html
text/plain
text/rtf
text/x-c
text/x-csharp
text/x-csv
text/x-ini
text/x-java
text/x-mail
text/x-man
text/x-python
text/x-tex
text/xml

Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

Re: eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 09.03.2017 21:07:43

Gibt es zu recoll ein howto ?
installation / konfiguration / webinterface

geier22

Re: eigene Suchmaschine Dokumente

Beitrag von geier22 » 10.03.2017 03:23:10

Huck Fin hat geschrieben:Gibt es zu recoll ein howto ?
http://www.lesbonscomptes.com/recoll/doc.html

Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

Re: eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 10.03.2017 11:17:30

Das Recoll läuft...
Aber das Webinterface...
Ich wollte vom Windows Client aus suchen können
Ich bekomme es nicht hin.

gbotti
Beiträge: 846
Registriert: 16.07.2010 14:24:43
Wohnort: München

Re: eigene Suchmaschine Dokumente

Beitrag von gbotti » 10.03.2017 12:04:14

Hi.

Ich nutze seit einigen Wochen Nextcloud mit Nextant in Verbindung mit einem SOLR und Tesseract auf meinem RaspberryPi 2. Das funktioniert ziemlich gut. Zu Hause kann ich per SMB oder per Webinterface Daten hochladen und die Dokumente werden automatisch durch das OCR gejagt (falls nötig) und mit SOLR indiziert.

Vorteil an der Lösung ist die Offenheit von Nextcloud. Ich komme immernoch an meine Dokumente, auch wenn die Datenbank oder SOLR zerstört sind, da die Dateien direkt auf der Festplatte liegen.
Georg
RTFM, LMGTFY, Orakel... Ach... Warum muss man suchen...
Schrödingers Backup --- "Der Zustand eines Backups ist unbekannt, solange man es nicht wiederherstellt" --- Quelle: Nixcraft

Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

Re: eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 10.03.2017 12:39:23

Ich habe hatte OwnCloud installiert.
Deine Lösung hört sich interessant / gut an.
Hast du da ein HowTo ?

ich hatte...
Habe jetzt Nextcloud und Nextant
Gerade versuche ich noch einen eigenen Officeonline Server zu installieren...

Den Rest (Teseract + Solr ) muss ich mal sehen, wie das geht.
Aber die SuFu von Owncloud sieht auch schon nicht schlecht aus...

gbotti
Beiträge: 846
Registriert: 16.07.2010 14:24:43
Wohnort: München

Re: eigene Suchmaschine Dokumente

Beitrag von gbotti » 10.03.2017 15:57:40

Hi.

Auf der Github-Seite von Nextant ist die Anleitung für Solr enthalten. Tesseract musst du einfach per apt-get installieren. Ich habe bei mir die einfach tesseract-ocr, tesseract-ocr-deu, tesseract-ocr-deu-frak und tesseract-ocr-eng installiert. Bis jetzt komme ich ganz gut klar damit.

Viel Erfolg.
Georg
RTFM, LMGTFY, Orakel... Ach... Warum muss man suchen...
Schrödingers Backup --- "Der Zustand eines Backups ist unbekannt, solange man es nicht wiederherstellt" --- Quelle: Nixcraft

geier22

Re: eigene Suchmaschine Dokumente

Beitrag von geier22 » 10.03.2017 22:12:16

Huck Fin hat geschrieben:Das Recoll läuft...
Aber das Webinterface...
Ich wollte vom Windows Client aus suchen können
Ich bekomme es nicht hin.
Ja sorry - Da ich nicht Windows benutze hatte ich nur etwas von einem Installer gelesen, der jetzt aber wohl von dem Entwickler mangels finanzieller Unterstützung gesperrt wurde.
http://www.lesbonscomptes.com/recoll/pa ... ndows.html
Tut mir leid :( :(

Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

Re: eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 11.03.2017 11:34:19

gbotti hat geschrieben:Hi.

Auf der Github-Seite von Nextant ist die Anleitung für Solr enthalten. Tesseract musst du einfach per apt-get installieren. Ich habe bei mir die einfach tesseract-ocr, tesseract-ocr-deu, tesseract-ocr-deu-frak und tesseract-ocr-eng installiert. Bis jetzt komme ich ganz gut klar damit.

Viel Erfolg.

Ich versteh da nur Bahnhof.
tesseract brauche ich nicht, es sei denn man braucht das für PDF ?
Es geht mir nur um PDF + Dokumente.
Nextcloud + Nextand sind installiert.
solr auch.
Nur wie konfiguriert man das / wie startet man das bzw wie startet man das indexieren ?
Auf dem Port 8983 läuft kein Dienst.

Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

Re: eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 12.03.2017 14:46:28

Ich komme nicht weiter.
Solr läuft...
Ich kann die Seite aufrufen unter Port 8983 und der core nextant läuft auch.

in Nextcloud administration -> zusätzliche einstellungen... kommt bei testen und speichern

Code: Alles auswählen

Apache Soir läuft und antwortet auf Ping-Anfragen
Konnte Schemenintegrität nicht überprüfen/reparieren (Fehler #24)
Zu dem Fehler finde ich nichts in Google (bzw nur zu einer älteren Version).
Auch nicht, wenn ich die Meldung in english suche
Were not able to verify/fix schema integrity (Error
jemand eine idee ?

gbotti
Beiträge: 846
Registriert: 16.07.2010 14:24:43
Wohnort: München

Re: eigene Suchmaschine Dokumente

Beitrag von gbotti » 13.03.2017 11:53:06

Hi.

Entschuldige bitte die späte Antwort.

Du hast vermutlich den Core in Solr nicht angelegt. Bist du nach dieser Anleitung vorgegangen um Solr zu installieren?

https://github.com/nextcloud/nextant/wi ... alone-Solr

Da kommt drin vor:
Note that the schema of your core will be configured by Nextant. Looks like we're done here; go back to /path/to/solr/solr-6.3.0/ and start the Solr servlet

Code: Alles auswählen

$ cd ../..
$ bin/solr start
Wait for it to start (30 secondes) and create the core:

Code: Alles auswählen

$ bin/solr create -c nextant
You will now stop and start Solr using ./solr stop and ./solr start from the /path/to/solr/solr-6.3.0/bin/ directory.
Danach kannst du dann folgenden Befehl ausführen um den Index zu generieren:

Code: Alles auswählen

./occ nextant:index 
Georg
RTFM, LMGTFY, Orakel... Ach... Warum muss man suchen...
Schrödingers Backup --- "Der Zustand eines Backups ist unbekannt, solange man es nicht wiederherstellt" --- Quelle: Nixcraft

Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

Re: eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 13.03.2017 16:54:09

Hi, danke für den Link.
Habe neuere Java (8) jetzt installiert.
Habe solr nochmal neu runter geladen.

Habe solr nach /opt/solr entpackt
chown -R solr. *

Alles nach Vorgaben eingerichtet.

in Nextcloud gehört alles www-data.www-data
sudo -u www-data ./occ nextant:index

Code: Alles auswählen

[Doctrine\DBAL\Exception\SyntaxErrorException]
  An exception occurred while executing 'TRUNCATE oc_nextant_live_queue':
  SQLSTATE[HY000]: General error: 1 near "TRUNCATE": syntax error

Code: Alles auswählen

 [Doctrine\DBAL\Driver\PDOException]
  SQLSTATE[HY000]: General error: 1 near "TRUNCATE": syntax error

Code: Alles auswählen

 [PDOException]
  SQLSTATE[HY000]: General error: 1 near "TRUNCATE": syntax error
Solr läuft...
Nextant in nextcloud läuft.
Aber er baut keinen Index auf.

Benutzeravatar
Huck Fin
Beiträge: 1202
Registriert: 10.03.2008 17:10:30

Re: eigene Suchmaschine Dokumente

Beitrag von Huck Fin » 13.03.2017 18:35:38

Hat sich erledigt
sudo -u www-data ./occ nextant:index -i

Scheint zu laufen.
1000 Dank.
Dann werde ich jetzt nochmal versuchen loolwsd zu installieren...

Antworten