Algorithm Accountability Lab: Rohdaten bereinigen

4. Einsammeln der Rohdaten zur Verwertung und Daten bereinigen

Der AdHamsterer sendet einzelne Werbungen versehen mit einem Zeitstempel und der aktuellen Version des AdHamsterers zum Server. Diese Datenmenge kann sehr leicht explodieren und zudem Fehler enthalten. Deswegen ist nach einer Fehleranalyse eine Automatisierung bei der Bereinigung der Daten zu empfehlen und zudem eine Umwandlung in ein standardisiertes Format zur Auswertung. Um den Überblick zu bewahren und anderen Personen die Auswertung der Daten zu ermöglichen ist außerdem eine Dokumentation der Datenbearbeitung zu empfehlen.

1. Kopien der Originaldaten

Es ist wichtig zu Beginn die Originaldaten vor der Verarbeitung zu kopieren und nur an den Kopien zu arbeiten. Das ermöglicht erstens eine lückenlose Dokumentation und des Weiteren die Sicherheit bei etwaigen Verlusten.

2. Bereinigung von Teilen der Daten und Identifizierung von Datenfehlern

Zuerst ist es wichtig die Daten besser kennenzulernen, um mögliche Fehlerarten zu identifizieren. Das sollte per Hand auf einer kleinen Untermenge der Daten stattfinden. Diese Untermenge sollten aus verschiedenen gekennzeichneten Versionen des Adhamsterers stammen, um möglichst alle Fehlerquellen zu identifizieren. Typische Fehler in den Daten können sein (a) leere Felder, (b) Rechtschreibfehler, (c) sich widersprechende Einträge z.B. Todesdatum liegt vor Geburtsdatum, (d) Eindeutigkeit von Zuordnungen nicht gewährleistet (gleiche ID für mehrere Profile), (e) falsche und eindeutig unmögliche Werte (z.B. Alter von 300 Jahren), (f) Attribute in falschen Feldern (z.B. Deutschland bei Geburtsdatum), (g) im spezifischen Kontext nicht-plausible Einträge.
Manche dieser Fehler können korrigiert werden, wenn es aus Vorbefragungen der Teilnehmer:innen korrekte Informationen gibt. Bei anderen Daten bleibt nichts weiter übrig als sie zu entfernen. Wir empfehlen eine lückenlose Dokumentation der Bereinigung verschiedener Versionen für die eigene Nachvollziehbarkeit aber auch für Andere.

3. Automatisierte Bereinigung der Daten durch einen Algorithmus

Unsere Empfehlung ist einen Algorithmus in Mathematica oder der Statistiksoftware R zu implementieren, der die gesamte Datenmenge nach vorher identifizierten Fehlerquellen absucht. Danach sollte für eine Untermenge der bereinigten Daten per Hand kontrolliert werden, ob alle identifizierten, möglichen Fehlerquellen gefunden wurden. Sollten sich plötzlich weitere Fehler zeigen, sollte der Algorithmus nochmal angepasst werden. Im weiteren Verlauf der Studie könnten weitere unbekannte Problem auftauchen, die erneute Bereinigungen der Daten benötigen. Mathematica besitzt eine Funktion, die es erlaubt nur bestimmte Blöcke von Daten zu bereinigen.

Übergeordnete Seite: Studiendesign

[mehr ...]

Feedback zu dieser Seite

Email an den Verantwortlichen dieser Seite (zweig@informatik.uni-kl.de) [mehr ...]