Autor Thema: Vermeidung von doppelter Katalogisierung  (Gelesen 1034 mal)

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Vermeidung von doppelter Katalogisierung
« am: 2016-12-13 08:39:55 »
Wie ich hier schon schrieb, gibt es Anzeichen, dass Artstatusänderungen zum Einen in die Atlas-Datenbank eingepflegt werden und zum Anderen anschließend in die Wiki-Datenbank eingepflegt werden müssen. Das ist doppelte und damit unnötige Arbeit!

Es wäre doch sinnvoll, nur eine Datenbank zu führen, in welche die Änderungen eingepflegt werden. Leider habe ich keine Nachricht darüber erhalten. Darum poste ich es hier nochmal in der Hoffnung, dass wir zu einer vernünftigen Lösung kommen.

Martin

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #1 am: 2016-12-13 19:58:09 »
Grundsätzlich: ja (wie ja schon öfter angedeutet).

Ich stecke aber zur Zeit leider tief in Projektarbeit und kann erst im Weihnachtsurlaub Zeit dafür freimachen.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #2 am: 2016-12-15 06:17:47 »
Alles klar. Dann muss das warten. Ich habe im Moment auch wenig Muße.  Vielleicht am Jahresanfang.

Martin

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #3 am: 2016-12-21 16:07:02 »
Ich versuche gerade, die bisherigen Strukturen zu verstehen:

  • Wozu wird in cl_land die Ordnung referenziert? Ergibt sich die Ordnung nicht implizit über die Art und Familie der einzelnen Checklisteneinträge?
  • Wozu ist cl_pruefliste_verbreitung gut?
  • Es gibt sf_roteliste_art und sf_roteliste_art_zulka, wobei letztere nur 63 Datensätze enthält. Ist das ein Überbleibsel von irgendwas?
  • Dann gibt es noch die Tabellen wiki_roteliste* und wiki_taxonomie_*, wozu sind die denn da? Auch Überbleibsel?


Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #4 am: 2016-12-30 07:49:11 »
Puh! Da fragst Du was...

Das muss ich mir erst mal ansehen. Es gibt da bestimmt einige Tabellen, die gar nicht mehr benutzt werden; wie Du schon vermutest: Überbleibsel von was auch immer. Da rächt sich jetzt fehlende Dokumentation.

- gelöscht: cl_pruefliste_verbreitung

Bevor ich mich in weitere unstrukturierte, möglicherweise überflüssige, Arbeit stürze:
Was ist der Hintergrund Deiner Nachfragen? Wie wollen wir überhaupt vorgehen, um die Doppelkatalogisierung zu eliminieren? Hast Du einen Plan oder eine Idee?

Ich sehe da nur eine vernünftige Lösung (neben anderen denkbaren):
1. Alles wird in die von Dir gepflegten Tabellen überführt (Deine sind wahrscheinlich durchdachter):
- Schwierigkeit: Alle Wiki-Sourcen müssen geändert werden, in denen ich lange nicht mehr gearbeitet habe.

Da muss ich wohl mal durch. Das muss ja nicht binnen einer Woche fertig werden. Vielleicht findet sich ja auch für die Checklisten eine bessere Lösung?

Martin

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #5 am: 2016-12-31 11:34:04 »
Der Hintergrund ist, dass man erstmal verstehen muss, was der aktuelle Zustand ist, bevor man ihn ändern kann.

Meine Idee ist, dass die Taxonomie ausschließlich im Atlas gepflegt wird, und dass von den Wiki-Tabellen taxonomische Referenzen immer zu den Tabellen des Atlas gehen. Das heißt, dass sf_gd_art, sf_gd_familie, sf_gd_ordnung, sf_gd_synonym nach der Umstellung überflüssig sind. Checklisten und Rote Listen werden weiter im Wiki gepflegt, mit entsprechend geänderten Skripten.

Die Skript-Änderungen würde ich selbst vornehmen. Soweit ich sehe ist folgendes betroffen:

<europakarte>
<checklistenrefs>
<showRoteListen>
<gattung2arten>
<familie2gattungen>
<landesliste>
Spezial:CLTool
Spezial:ClEdit
Spezial:Nachweisreferenz
Spezial:Taxon bearbeiten (wird obsolet)

... und die Skripten zum Editieren der Roten Listen, die ich nicht kenne.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #6 am: 2017-02-19 05:10:09 »
... und die Skripten zum Editieren der Roten Listen, die ich nicht kenne.

Ein Backend gibt es nicht. Die Daten stehen einfach in der Datenbank und werden dort ausgelesen.

Tabellen:
wiki_roteliste
wiki_roteliste_literatur


Hast Du schon angefangen?

Martin

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #7 am: 2017-02-20 11:13:05 »
Ich habe bisher nur ein paar Tabellen konvertiert, allerdings u.a. sf_roteliste_art, nicht wiki_roteliste*. Welche von beiden wird denn nun verwendet?

Zu mehr habe ich noch keine Zeit gehabt. Für die Skripten brauche ich auch noch den Zugriff auf die Wiki-Sourcen.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #8 am: 2017-02-20 13:26:04 »
Ich wusste nicht, dass Du schon angefangen hast. Funktioniert es schon fürs Wiki?

Ich habe Deinen ftp-Account geändert. Du kommst jetzt in das Verzeichnis /webseiten

Das Wiki liegt in /webseiten/mediawiki-1.26.2 (für Dich also im Verzeichnis /mediawiki-1.26.2) und der Atlas nun im Unterverzeichnis /atlas.arages.de.

Ich habe bisher nur ein paar Tabellen konvertiert, allerdings u.a. sf_roteliste_art, nicht wiki_roteliste*. Welche von beiden wird denn nun verwendet?

Wie alle faulen Programmiere habe ich kaum etwas dokumentiert. Mit dem Erfolg, dass ich da keinen Überblick mehr habe. Da in der Extension 'Roteliste' für die Tabellennamen keine Prefixe angegeben sind, gehe ich davon aus, dass das Wiki-Pefix gilt; und das lautet wiki_:

# MySQL specific settings
$wgDBprefix         = "wiki_";

Aus: LocalSettings.php

Martin


BTW: Potentiell nicht genutzte Tabellen sollte ich mal umbenennen und wenn längere Zeit keine Störung auftritt, löschen. So habe ich es auch mit Unterverzeichnissen auf dem Server gemacht. Nach ca. 2 Jahren habe ich da einiges gelöscht.

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #9 am: 2017-02-20 14:48:36 »
Wie gesagt, bisher habe ich nur ein paar Tabellen konvertiert. Ohne die zugehörigen Skriptänderungen werden die erstmal noch nicht verwendet.

Der Präfix ist eigentlich nur für die Mediawiki-eigenen Tabellen relevant. Extensions können jede andere Tabelle verwenden.

Ich sehe schon, da muss ich erstmal die existierenden Sachen Reverse-Engineeren...

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #10 am: 2017-02-21 13:18:09 »
Der Präfix ist eigentlich nur für die Mediawiki-eigenen Tabellen relevant. Extensions können jede andere Tabelle verwenden.

Ich habe für die Datenbankabfrage die Wiki-API benutzt und die setzt das Wiki-Präfix automatisch hinzu.

Zitat
Ich sehe schon, da muss ich erstmal die existierenden Sachen Reverse-Engineeren...

Ja, leider. Das müsste ich auch. Ich hoffe, Du machst das als Softwareprofi sauberer als ich Autodidakt.

Martin

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #11 am: 2017-02-21 20:41:25 »
Implementierungsfortschritt:

(bisher nur im Test, die offizielle Freigabe erfolgt am Schluss)

  • Tabellen konvertiert
  • <landesliste> geändert und optimiert (z.B. Seitengenerierung f. Checkliste DE: vorher: 23 Sekunden, nachher: 6 Sekunden)
  • Spezial:Nachweisreferenz angepasst
  • <europakarte> angepasst
  • <gattung2arten> angepasst
  • <familie2gattungen> angepasst
  • <checklistenrefs> angepasst
  • <showrotelisten> angepasst
  • Spezial:CL-Enter erstellt (ersetzt Spezial:ClEdit)
  • Spezial:CL-Delete erstellt (ersetzt Spezial:CL-Tool)
  • Spezial:RL-Enter erstellt (neu)
  • Spezial:RL-Delete erstellt (neu)
  • Release

Fehlt:
  • alte Tabellen aufräumen
    • wiki_checklist_* (wurden nicht verwendet, sondern cl_*)
    • wiki_roteliste_* (wurden nicht verwendet, sondern sf_roteliste_*)
    • wiki_taxonomie_* (wurden nicht verwendet; jetzt werden Tabellen des Atlas verwendet)
    • sf_gd_* (jetzt werden Tabellen des Atlas verwendet)
    • sf_roteliste_art_zulka (wurde nicht verwendet)
    • sf_roteliste_art, sf_roteliste_land (ersetzt)
    • cl_art, cl_land (ersetzt)
« Letzte Änderung: 2017-03-19 18:32:00 von Michael Hohner »

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #12 am: 2017-02-23 05:31:54 »
vorher: 23 Sekunden, nachher: 6 Sekunden)

Hui! Faktor 4.

Was hatte ich den da verbockt?

Martin

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #13 am: 2017-02-23 12:58:26 »
vorher: 23 Sekunden, nachher: 6 Sekunden)

Hui! Faktor 4.

Was hatte ich den da verbockt?

Naja, eigentlich kein Fehler. Das war bisher nur so implementiert, dass zuerst die Familien der Ordnung geholt wurden, und dann für jede Familie die Arten in der Familie. Das waren dann über 40 Datenbankabfragen. In der neuen Implementierung wird die gesamte Liste mit einer einzigen Abfrage geholt. Und eine große Abfrage ist eben sehr viel effizienter als 40 kleine.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #14 am: 2017-02-25 08:56:58 »
Meinst Du 4 oder 40? Müssten es nicht 3 sein?

1. Ermitteln der Ordnung
2. .. der Familie
3. ... der Art

Martin

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #15 am: 2017-02-25 09:41:03 »
Stimmt schon. Es werden erst die Familien ermittelt, und dann für jede einzelne Familie die nachgewiesenen Arten, also eine Abfrage pro Familie.

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #16 am: 2017-03-18 18:45:41 »
Die Software ist jetzt bereit. Wenn nichts dagegen spricht, dann würde ich morgen den Umstieg machen.

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #17 am: 2017-03-19 18:31:45 »
Die neuen/angepassten Extensions sind auf dem Server. Die Seiten sollten im Wesentlichen so aussehen wie bisher.

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #18 am: 2017-03-19 19:00:35 »
Die Tabellen in der Datenbank, die nicht mehr verwendet werden sollten, sind jetzt umbenannt ("delete_" davorgestellt). Jetzt wird sich zeigen, ob sie wirklich nicht mehr verwendet werden.

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #19 am: 2017-03-19 19:07:21 »
Da gibt's noch die Extension "Artenstatistik", und der darin implementierte Parser-Hook "gattung2anzarten" wird offenbar nirgendwo im Wiki verwendet. Die Anzahl der Arten einer Gattung wird ja bereits innerhalb von "gattung2arten" ermittelt und ausgegeben.

Obsolet?

Michael Hohner

  • Administrator
  • *****
  • Beiträge: 4453
  • Wo ist nun der versprochene Wurm?
    • Meine Spinnenfunde in Bayern
Re: Vermeidung von doppelter Katalogisierung
« Antwort #20 am: 2017-03-20 23:50:38 »
So, und nun sind Atlas und Wiki auch wieder auf dem aktuellen Stand des WSC.

Eveline Merches

  • Kerngruppe
  • ******
  • Beiträge: 3495
  • Altötting, Südostbayern, TK 7742-3
Re: Vermeidung von doppelter Katalogisierung
« Antwort #21 am: 2017-03-21 12:19:00 »
Einmal zwischendurch:
Du machst einen Klasse-Job! Das weißt Du bestimmt, aber ich wollte das hier trotzdem mal loswerden.

Vielen Dank.

liebe Grüße
Eveline
Ahme den Gang der Natur nach. Ihr Geheimnis ist Geduld.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #22 am: 2017-03-22 07:23:09 »
Ich schließe mich Eveline ansolut an!

@Eveline: Probiere bitte die neue Upload-Funktion aus. Damit ist es einfacher, mehrere Bilder hoch zu laden. Ich habe leider im Moment nichts hoch zu laden, um es auszuprobieren und im Moment auch überhaupt keine Zeit.

Wenn die neue Upload-Funktion gut funktioniert, werde ich sie als Standard-Upload-Dialog einrichten. Ich weiß aber nicht, ob z.B. unsere Copyright-Infos angeboten werden1 und ob es anderswo vielleicht zwickt.

1: Edit: Nein, unsere Copyright-Infos fehlen noch.

Martin

Eveline Merches

  • Kerngruppe
  • ******
  • Beiträge: 3495
  • Altötting, Südostbayern, TK 7742-3
Re: Vermeidung von doppelter Katalogisierung
« Antwort #23 am: 2017-03-23 16:56:01 »
Zitat
@Eveline: Probiere bitte die neue Upload-Funktion aus. Damit ist es einfacher, mehrere Bilder hoch zu laden. Ich habe leider im Moment nichts hoch zu laden, um es auszuprobieren und im Moment auch überhaupt keine Zeit.

Ich habe zur zeit auch keine Bilder zum Hochladen. Ich probiere es aus, wenn mir Harald neue Zeichnungen schickt.

liebe Grüße
Eveline
Ahme den Gang der Natur nach. Ihr Geheimnis ist Geduld.

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 13496
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • So 'n Schiet
Re: Vermeidung von doppelter Katalogisierung
« Antwort #24 am: 2017-03-24 18:40:56 »
Lass mal erstmal. Ich melde mich, wenn es funktioniert.

Martin