Plausibilitätsprüfung - Doppelte Personen
Verfasst: 10.07.2024, 12:11
Ich bin mal wieder bei der Qualitätskontrolle meiner Daten und importiere dazu GEDCOM in Ahnenblatt3, die Version 4 verhält sich aber nicht anders.
1)
AB liefert zunächst erfreulicherweise nur 8 doppelte Personen.
Dabei stellt sich aber heraus, dass es alles unterschiedliche Personen sind, was sich anhand der Familienzugehörigkeit nachweisen lässt.
Daher sind alles false-poitives, die man vermeiden könnte, wenn die die Familienstruktur / -zugehörigkeit mit geprüft würde. Für die beide Richter N. habe ich die Beischreibungen aus der Heirat beider Elternpaare. Aus die beiden Steinerts sind von verschiedenen Eltern.
2)
Offensichtliche Duplikate wie folgende werden garnicht gefunden:
Das kann daran liegen, dass immer nur auf komplette Übereinstimmung geprüft wird und keine Unschärfe berücksichtigt wird. Das nannte man früher Fuzzylogic, die unscharfe Teilmengen prüft und nach einem Score-Wert entscheidet. Dieser Score-Wert ist im Prinzip eine Wahrscheinlichkeit für ein "mögliches Duplikat" und kann generell mit angezeigt werden bzw. mit Schwellwerten gefiltert angezeigt werden.
Der Begriff "mögliches Duplikat" ist m. E. auch besser als "Doppelte Person", weil es nicht leicht zu entscheiden ist.
Wenn man dabei die Prüf- / Schärfeparameter einstellbar macht ("Schieberegler"), könnte man sich stückweise und iterativ durch die Daten durcharbeiten, ohne gleich "erschlagen" zu werden. Das bietet mir mein jetziges Ages!, was mich mit false-positives überflutet. Vor derzeit rund 6400 Personen generiert es ca. 510 Hinweise, von denen ich seit gestern 15 behoben haben (offenbar die meisten). Dabei gehen die echten Duplikate allerdings leider in der Menge der false-positives unter.
Frage:
Ist bitte geplant, die Prüfung auf Duplikate noch zu verbessern?
Ich würde meine Unterstützung dabei anbieten.
Gruß
Jo
1)
AB liefert zunächst erfreulicherweise nur 8 doppelte Personen.
Dabei stellt sich aber heraus, dass es alles unterschiedliche Personen sind, was sich anhand der Familienzugehörigkeit nachweisen lässt.
Daher sind alles false-poitives, die man vermeiden könnte, wenn die die Familienstruktur / -zugehörigkeit mit geprüft würde. Für die beide Richter N. habe ich die Beischreibungen aus der Heirat beider Elternpaare. Aus die beiden Steinerts sind von verschiedenen Eltern.
2)
Offensichtliche Duplikate wie folgende werden garnicht gefunden:
Das kann daran liegen, dass immer nur auf komplette Übereinstimmung geprüft wird und keine Unschärfe berücksichtigt wird. Das nannte man früher Fuzzylogic, die unscharfe Teilmengen prüft und nach einem Score-Wert entscheidet. Dieser Score-Wert ist im Prinzip eine Wahrscheinlichkeit für ein "mögliches Duplikat" und kann generell mit angezeigt werden bzw. mit Schwellwerten gefiltert angezeigt werden.
Der Begriff "mögliches Duplikat" ist m. E. auch besser als "Doppelte Person", weil es nicht leicht zu entscheiden ist.
Wenn man dabei die Prüf- / Schärfeparameter einstellbar macht ("Schieberegler"), könnte man sich stückweise und iterativ durch die Daten durcharbeiten, ohne gleich "erschlagen" zu werden. Das bietet mir mein jetziges Ages!, was mich mit false-positives überflutet. Vor derzeit rund 6400 Personen generiert es ca. 510 Hinweise, von denen ich seit gestern 15 behoben haben (offenbar die meisten). Dabei gehen die echten Duplikate allerdings leider in der Menge der false-positives unter.
Frage:
Ist bitte geplant, die Prüfung auf Duplikate noch zu verbessern?
Ich würde meine Unterstützung dabei anbieten.
Gruß
Jo