Probs mit CSV und Datum

Benutzeravatar
Torquatus
Beiträge: 3698
Registriert: 19.01.2006, 22:19
Wohnort: Mannheim

Beitrag von Torquatus »

Hallo,
weil es garade hier dazu passt Folgendes:

Da mich das Thema CSV-Dateien interessiert, habe ich einige Tests (anhand einer Kopie meiner Originaldatei mit 10.612 Personen) durchgeführt mit folgenden Ergebnissen:

1) Reimport einer unveränderten CSV-Datei
Ich habe anhand meiner Original-AHN-Datei eine CSV-Datei exportiert, danach die unveränderte CSV-Datei (die Daten sind alle in Hochkomma eingebettet) mit AB geöffnet und diese als AHN-Datei gespeichert, erneut eingelesen und dann „sortiert“ (ohne Sortierungen hatte ich 5.000 Unterschiede) und erneut gespeichert.

Die so erzeugte neue AHN-Datei ist geringfügig kleiner als die Original-AHN-Datei, aber trotz 652 ermittelter Unterschiede habe ich in AB keine wirklichen Unterschiede feststellen können. Ein großer Teil der Unterschiede entfiel auf die Zwillinge (wahrscheinlich auch Mehrlinge), die anders sortiert waren. Auch mehrfaches „Sortieren“ der neuen AHN-Datei brachte nicht mehr die alte Sortierung.

Abhilfe könnte Dirk dadurch schaffen, dass er zusätzlich zu den Geburtsdaten auch noch die Sterbdaten in die Sortierung einbezieht.

Die strukturierten „Anmerkungen“ sind nach dem Reimport genauso strukturiert wie zuvor. Die zuvor in AB als fehlerfrei erkannte Datei ist auch nach dem Reimport noch fehlerfrei.

Fazit: Eine mit einer Textdatei – sorgfältig - veränderte CSV-Datei kann man m.E. ohne Probleme wieder in AB einlesen. Trotzdem würde ich das nur tun, wenn es unbedingt sein muss.

2) Reimport einer mit Excel bearbeiteten CSV-Datei
Ich habe anhand meiner Original-AHN-Datei eine CSV-Datei exportiert, danach diese CSV-Datei mit Excel geöffnet und dann diese Datei wieder als CSV-Datei gespeichert und dann die von Excel bearbeite CSV-Datei (deren Daten nun nicht mehr in Hochkommas eingebettet sind) in AB eingelesen und dort wiederum als AHN-Datei gespeichert.

Die strukturierten „Anmerkungen“ sind auch nach dem Reimport – zu meiner Überraschung – genauso strukturiert wie zuvor.

Die zuvor in AB als fehlerfrei erkannte Datei hat nun 763 Fehler, die nach meiner Kontrolle vermutlich alle (ich habe aber nicht alle geprüft) auf unvollständige Datumsangaben mit führenden Nullen zurückzuführen sind.

So wird z.B. das ursprüngliche Datum 04.1911 von AB zwar als "04.1911" exportiert aber von Excel als Zahl 41.911 interpretiert, weil Excel in der Öffnungsphase alle Anführungszeichen entfernt. Das kann man Excel auch nicht übelnehmen, denn es ist und bleibt ein Tabellenkalkulationsprogramm, in dem feldweise das Datenformat zu definieren ist. Beim Import einer CSV-Datei mit Datumsfeldern, in denen alle möglichen Formate (echte Datümer, Zahlen, Zeichen) stehen, ist Excel schlicht überfordert.

Das Problem kann man umgehen, wenn man in AB die Datumsfelder entweder mit echtem UND komplettem Datum (TT.MM.JJJJ) oder reinem Text (??.??.1903, ??.01.1784, nach 1864, vor 1733, um 1655) befüllt. Da dann in Excel nur Datums- oder Text-Daten ankommen, kann Excel damit gerade noch umgehen.

Die Veränderung in der Sortierung bei Mehrlingen – siehe oben – tritt natürlich auch hier auf.

Die so erzeugte AHN-Datei ist um rund 3.000 Bytes kleiner als die Original-AHN-Datei. Ob das nur auf die Verkürzung der Datümer (Beispiel: von 04.1911 auf 41.911) zurückzuführen ist, kann ich nicht abschätzen. Möglicherweise sind auch unnötige Leerstellen oder Mehrfachleerzeilen entfernt worden!?

Fazit: Wer seine Datümer wie vorstehend geschildert erfasst, kann seine Datei (mit aller Vorsicht) auch mit Excel nachbearbeiten und nach AB zurückimportieren. Da dürften kaum Probleme auftreten. Ich würde es aber nur tun, wenn es sein muss (zumal ich auch erst noch die 783 Datümer nachbearbeiten müsste :wink:


2) Reimport einer mit Access bearbeiteten CSV-Datei
Da eine von Access bearbeitete CSV-Datei in ihrer Struktur unverändert bleibt, gilt hier das zu „1) Reimport einer unveränderten CSV-Datei“ Gesagte.

Gruß, Walter

NS. Datümer als Plural für Datum verwendet – damit sich mal wieder wer kringeln kann :P
Gruß, Torquatus

C.c. - Übrigens stelle ich den Antrag, dass Ahnenblatt das beste aller Ahnenprogramme werden muss - frei nach Cato
Benutzeravatar
Hugo
Administrator
Beiträge: 6956
Registriert: 19.01.2006, 19:33
Wohnort: Hamburg

Beitrag von Hugo »

Bild von Claro
Torquatus hat geschrieben: Abhilfe könnte Dirk dadurch schaffen, dass er zusätzlich zu den Geburtsdaten auch noch die Sterbdaten in die Sortierung einbezieht.

Das bringt m.E. nichts, denn Zwillinge können auch am gleichen Tag verstorben sein, inbesondere in früheren Jahrhunderten in den ersten Lebenstagen. Also, wenn schon, dann sollte als 2. Kriterium der Vorname genommen werden.

Viele Grüße von
Claro
Das Gestern ist Geschichte
Das Morgen ist ein Rätsel
Das Heute ist ein Geschenk
Benutzeravatar
Torquatus
Beiträge: 3698
Registriert: 19.01.2006, 22:19
Wohnort: Mannheim

Beitrag von Torquatus »

Hallo Claro,
Also, wenn schon, dann sollte als 2. Kriterium der Vorname genommen werden.
du hast ja Recht :oops:

Interessanterweise sind Kinder ohne Geburtsdatum nach den Vornamen sortiert. Daher wird offensichtlich für die Sortierung das Geburstdatem und falls keines vorhanden, der Vorname verwendet. Dafür, dass nur ein Sortierbegriff verwendet wird, spricht, dass seit einiger Zeit die Geburtsdatumslosen hinten stehen.

Gruß, Walter
Gruß, Torquatus

C.c. - Übrigens stelle ich den Antrag, dass Ahnenblatt das beste aller Ahnenprogramme werden muss - frei nach Cato
Gesperrt