Autor Thema: Schnelle Suche mit DocFetcher  (Gelesen 1023 mal)

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15105
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • Spinnenerfassung in SH
Schnelle Suche mit DocFetcher
« am: 2019-10-26 09:50:36 »
Ich denke, fast jeder hat eine mehr oder minder große Sammlung von Artikeln irgend wo auf einer Festplatte oder einem Netzlaufwerk; meist als PDF. Man kann so eine Literatursammlung in eine sinnvolle Ordnung bringen indem man eine geeignete Verzeichnisstruktur ersinnt, aber solche Konzepte haben Nachteile:

  • Nicht jeder Titel passt in so eine Struktur
  • Jede Ordnung bedarf Pflegeaufwand, für den man nicht immer Zeit hat

Die meisten unter uns arbeiten wohl mit Windows; das heißt die eingebaute Suchfunktion ersteckt sich nur sehr eingeschränkt auf Inhalte, ist zudem sehr langsam und damit ineffektiv; für andere populäre Betriebssysteme dürfte nicht viel anderes gelten. Da kommt das Programm DocFetcher (DF) ins Spiel. DF erstellt einmal einen Index und findet dann im Gebrauch jeden Suchbegriff in kürzester Zeit. Gerade auch aus Inhalten von Dateien einer ganzen Reihe von Dateitypen einschließlich PDF.

Das Indizieren der Dateinen meines Laptops samt angeschlossener Clouds hat etwas länger als eine Stunde gedauert. Das Indizieren meiner umfangreichen PDF-Sammlung läuft gerade und wird sicher erheblich länger dauern. Aber das Indizieren muss nur einmal so umfangreich durchgeführt werden; Updates benötigen nur Sekunden. Die Indizierung dauert laut Angaben der Entwickler 200 Dateien/Minute; die laufende Indizierung meiner PDF-Sammlung liegt im Momen bei 5500 Dokumenten und ist damit ca. eine halbe Stunde dabei, aber es wird wesentlich mehr Zeit in Anspruch nehmen als das Indizieren meines Laptops und der Clouds.

Durch Werbung für ein ähnliches Produkt kam ich darauf. Da mir das angebotene Produkt zu teuer erschien (69 €/Rechner – ich habe 4, das wären dann 70x4-4=276 €), hatte ich geschaut, ob es ähnliches als Open Source gibt und fand DF. Das in Java geschriebene Programm funktioniert Systemübergreifend unter Windows, Linux und Apple.

Und ausprobieren kostet nichts, ebenso wie die Benutzung.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15105
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • Spinnenerfassung in SH
Re: Schnelle Suche mit DocFetcher
« Antwort #1 am: 2019-10-26 16:43:46 »
Kleine Zwischenmeldung: Meine PDF-Sammlung umfasst 149 GB mit 38.435 Dateien, von denen sicher so manches Dokument mehrfach vorhanden ist. Die Indizierung läuft inzwischen seit ca. 7 Stunden und ist Aktuell bei ca. 25.000 Dateien. Sehr große Dateien konnten mangels Arbeitsspeicher (Laptop mit 16 GB) nicht indiziert werden.

Um der Effizienz halber und um Doubletten zu vermeiden, wäre es vielleicht besser, alle Dateien in einem einzigen Verzeichnis abzulegen. Oder kennt jemand technische Argumente, die dagegen sprechen?

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Viktoria Wegewitz

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 517
Re: Schnelle Suche mit DocFetcher
« Antwort #2 am: 2019-10-26 19:53:51 »
Hallo,

DocFetcher wäre attraktiv, nach der Installation möchte ich einen Ordner zur Indizierung auswählen. Unter Netzwerk wird nichts angezeigt. Funktioniert das auch mit NAS?

EDIT: Ah, jetzt gehts, danke Martin! Nach sowas habe ich für lau gesucht!
Grüße Viktoria

Du kriegst das Mädchen aus dem Wald aber den Wald nicht aus dem Mädchen.

Pierre Oger

  • ***
  • Beiträge: 794
    • Arachno site
Re: Schnelle Suche mit DocFetcher
« Antwort #3 am: 2019-10-26 20:33:19 »
I didn't know this program and I installed it on my computer.
I indexed a big directory with 85.000 files and I did a try !
Fantastic, the search function works fast !
Thanks, Martin, for this information  :D

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15105
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • Spinnenerfassung in SH
Re: Schnelle Suche mit DocFetcher
« Antwort #4 am: 2019-10-27 11:55:34 »
DocFetcher wäre attraktiv, nach der Installation möchte ich einen Ordner zur Indizierung auswählen. Unter Netzwerk wird nichts angezeigt. Funktioniert das auch mit NAS?

Die Netzwerkverbindung dauert ein wenig. Meine Sachen liegen auch alle auf einem NAS-Laufwerk.

Die Indizierung mit dem Laptop ist schlussendlich gescheitert. Das Arbeitsspeicherproblem kann man angeblich lösen. Das Programm ist leider eine 32 Bit-Anwendung und der große vorhandene Arbeitsspeicher kann einfach nicht adressiert werden. Mehr als 4 GB ist nicht drin, egal was der PC physikalisch hat.

Meine Bibliothek mit 38.000 PDFs hat mein Desktop-PC in knapp 2 h 37 Min indexiert. Wenn ich jetzt nach der seltenen Art "Maro minutus" suche (bei Suchbegriffen mit mehr als einem Wort, die zusammenhängend gesucht werden sollen, sollte man sie in Anführungszeichen setzen). Kaum eingetippt, hatte ich gleich 187 gefundene Dokumente (einige allerdings mehrfach). Ich kann die Dokumente direkt aus dem Ergebnisfenster aus aufrufen:

DocfetcherSuchergebnisMaroMinutus.png
*DocfetcherSuchergebnisMaroMinutus.png (59.76 KB . 789x597 - angeschaut 274 Mal)

Wow! Pierre hat eine riesige Bibliothek! 85.000! In meiner sind die Dokumentensammlungen von Axel Schönhofer und Peter Jäger enthalten.

Suchbeispiel: "Lepthyphantes tenuis" OR "Tenuiphantes tenuis" 778 Treffer

HTH

Martin


BTW: Walls noch jemand einen sehr schlanken flotten PDF-Reader sucht. Ich nutze seit längerem Sumatra – ist nicht überladen und daher flott und Open source (Wikipedia) und Programmseite (designmäßig etwas 'out dated', aber das ist marginal)
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15105
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • Spinnenerfassung in SH
Re: Schnelle Suche mit DocFetcher
« Antwort #5 am: 2020-01-27 00:42:42 »
Langsam habe ich die Nase voll von DocFetcher. Wenn ich das Programm mal wieder brauche, ist oft aus unerfindlichen Gründen der Index ungültig und ich muss neu indexieren. Unglücklicherweise stoppt die Indexierung immer wieder aufgrund von Fehlern. Das nervt, wenn man die Indexierung nachts durchlaufen lässt und am Morgen merkt, dass das Programm kaum etwas geschafft hat. Momentan läuft sich seit Samstag Abend. Sie stand eben beim 29997ten Dokument wieder fest. Das ist wirklich schlecht gelöst.

Ich habe ein weiteres Programm gefunden, welches indexbasierte Suche kostenlios liefert. Glary Quicksearch (nicht jede Software von Glary ist gut – letztes Jahr hatte ich mal Glary-Tools für Performance-Tuning ausprobiert und damit meine Windows-Installarion zerschossen, weshalb ich Windows neu installieren musste). Der Vorteil von Glary Quicksearch ist, dass man das Programm benutzen kann, während die Indexierung läuft. Mal sehen, wie sich diese Alternative auf lange Sicht macht.

Bei DocFetcher ist meine anfängliche Begeisterung Ernüchterung gewichen. Allerdings kann man bei Glary im Gegensatz zu DocFetcher keine einzelnen Verzeichnisse für die Suche wählen, sondern immer gleich ganze Laufwerke – damit wird jetzt auch Inhalte indexiert, die ich nicht indexieren will. Aber das hat vielleicht auch Vorteile; ich habe so beim Herumprobieren verschollene mp3-Dateien wiedergefunden. Aber so vervielfältigt sich natürlich der Index um inhalte, die ich gar nicht durchsuchen möchte; mein externe NAS-Laufwerk hat immerhin 6 TB Kapazität.

Zusätzlich sucht das Tool auch im Web und bietet solche Suchergebnisse zusätzlich an. Das Tool ist auf jeden Fall wert, beachtet zu werden. Sollte ich langfristig schlechte Erfahrungen machen, werde ich es hier mitteilen.

Martin
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 15105
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • Spinnenerfassung in SH
Re: Schnelle Suche mit DocFetcher
« Antwort #6 am: 2020-01-27 01:10:25 »
Mist! Anscheinend untersucht Glary nur Dateinamen und nicht de Inhalte :(
Profil bei Researchgate.net – Spinnen-News aus SH

DAS waren noch Zeiten: Norwegen 2011.