Datenarbeit
Dieser Leitfaden soll aufzeigen welche Aspekte bedacht werden müssen, um Daten effizient zu sammeln, aufzubereiten und auszuwerten, damit aus diesen später informierte Entscheidungsprozesse abgeleitet werden können.
Datenqualität
Datenqualität bezieht sich auf die Messung und Bewertung der Genauigkeit, Vollständigkeit, Konsistenz, Aktualität und Zuverlässigkeit von Daten. Sie ist ein wesentlicher Aspekt in der Informationsverarbeitung und Analyse, da sie bestimmt, inwieweit Daten vertrauenswürdig, nützlich und effektiv für Entscheidungsfindung, Berichterstattung und andere geschäftliche oder wissenschaftliche Zwecke sind. Hohe Datenqualität gewährleistet, dass die erfassten Daten korrekt und angemessen repräsentativ sind, während mindere Datenqualität zu Fehlinterpretationen, ineffizienten Prozessen und unzuverlässigen Ergebnissen führen kann. Datenqualität wird durch eine Kombination von Maßnahmen zur Dateneingabe, ‑verarbeitung und ‑überwachung erreicht, um sicherzustellen, dass die Daten akkurat, kohärent, aktuell und für den beabsichtigten Verwendungszweck geeignet sind.
Bei unserer Tätigkeit sind uns Qualitätsprobleme der Daten als eine der größten Hürden für eine sinnstiftende Verwendung des Datenschatzes eines Unternehmens aufgefallen. Das geht so weit, dass der über Jahre gesammelte Datenschatz grundsätzlich unbrauchbar sein kann, da die Informationen aus seiner Auswertung völlig verzerrte Aussagen liefern würden.
Es gibt unterschiedliche Gründe für mangelnde Datenqualität.
1. Menschliche Fehler bei der Dateneingabe: Manuelle Dateneingabe kann zu Tippfehlern, Missverständnissen oder unvollständigen Daten führen.
2. Mangelnde Datenvalidierung: Wenn eingegebene Daten nicht ausreichend auf Richtigkeit und Konsistenz überprüft werden, können fehlerhafte Informationen in die Systeme gelangen.
3. Mangelnde Schulung und Bewusstsein: Mitarbeiter könnten nicht ausreichend geschult sein, um die Bedeutung von Datenqualität zu verstehen, was zu nachlässigem Umgang mit Daten führen kann.
4. Veraltete Systeme und Technologien: Veraltete Datenbanken oder Software können Probleme bei der Datenintegration, ‑speicherung und ‑verarbeitung verursachen.
5. Datenmigration: Bei der Übertragung von Daten zwischen Systemen oder während einer Systemaktualisierung können Daten verloren gehen oder beschädigt werden.
6. Datenverfall: Wenn Daten nicht regelmäßig aktualisiert werden, können sie veraltet und ungenau werden.
7. Schlechte Datenquellen: Daten, die von externen Quellen stammen, können von geringer Qualität sein, was zu unzuverlässigen Informationen führt.
8. Datenduplikate: Doppelte Datensätze können auftreten, wenn Informationen mehrfach erfasst werden, was zu Verwirrung und Unordnung führt.
9. Unklare Verantwortlichkeiten: Unklare Verantwortlichkeiten für die Datenqualität oder fehlende Prozesse zur Fehlerkorrektur können zu Problemen führen.
10. Fehlende Datenstandards: Wenn es keine klaren Richtlinien für die Datenerfassung und ‑formatierung gibt, kann dies zu Inkonsistenzen führen.
11. Fehlende Datenintegration: Daten, die aus verschiedenen Quellen stammen, müssen möglicherweise integriert werden. Wenn dies nicht ordnungsgemäß durchgeführt wird, können Inkonsistenzen auftreten.
12. Fehlende Datenpflege: Ein Mangel an regelmäßiger Überwachung, Aktualisierung und Bereinigung von Daten kann zu einer Verschlechterung der Qualität führen.
13. Fehlende Validierung von Drittanbietern: Daten, die von externen Anbietern stammen, sollten validiert werden, um sicherzustellen, dass sie den internen Qualitätsstandards entsprechen.
14. Wachstum und Skalierung: Wenn Unternehmen schnell wachsen, kann die Bewältigung der wachsenden Datenmengen zu Qualitätsproblemen führen.
15. Fehlende Technologieinvestitionen: Wenn Unternehmen nicht genügend in Datenmanagement-Tools und ‑lösungen investieren, können Datenqualitätsprobleme auftreten.
Bei unserer Tätigkeit sind uns drei Punkte besonders oft begegnet, die mehr oder weniger aufeinander aufbauen: Fehlende Datenstandards in Kombination mit mangelnden Schulungen und ein fehlendes Bewusstsein für Daten führen oftmals zu menschlichen Fehlern bei der Dateneingabe.
Beispielsweise stellten wir bei einem Partner fest, dass über Jahre hinweg Angaben zu Adressdaten der Aufträge einfach ausgelassen wurden. Das ging so weit, dass bei der Auswertung der Daten ein ganzes Bundesland ohne Firmentätigkeit aufgeführt wurde. Die Firma war aber in diesem Bundesland tätig. Eine Entscheidungsfindung, wie etwa Ressourcen verteilt, oder wo Marketingmaßnahmen sinnvoll sind, wird durch unsaubere Daten enorm erschwert.
Ein weiteres Problem ist die Datenintegration. Oftmals kommen in Unternehmen ein Vielzahl von Softwareprodukten von verschiedenen Herstellern zum Einsatz. Diese wurden im Regelfall in einem historischen Wachstumsprozess Stück für Stück nach aktuellem Bedarf angeschafft.
Dabei muss darauf geachtet werden, dass Datenstrukturen über das Unternehmen hinweg konsistent aufgebaut werden. Kundennummer, in einer Datenbank als Kunden_Nr und in einer anderen als KunNR abzulegen ist zwar für den jeweiligen menschlichen Anwender nachvollziehbar, erfordert aber bei einer späteren Verknüpfung der Daten erneuten menschlichen Aufwand. Schlimmer wird es, wenn kryptische Bezeichnungen verwendet und deren Bedeutung nicht dokumentiert werden. Später kann nur mit hohem Aufwand und Mühe nachvollzogen werden, welche Daten welche Entsprechung in einem anderen System haben.
Datenerfassung
Datenerfassung bezieht sich auf den Prozess der systematischen Sammlung, Aufzeichnung und Erfassung von Rohdaten aus verschiedenen Quellen. Dieser Prozess zielt darauf ab, Informationen in einem strukturierten Format zu erfassen, die später für Analyse, Verarbeitung, Speicherung und Berichterstattung verwendet werden können. Datenerfassung kann manuell oder automatisiert erfolgen und umfasst die Erfassung von Texten, Zahlen, Bildern, Tönen und anderen Datenarten. Sie bildet die Grundlage für fundierte Entscheidungsfindung, Trendanalyse und die Entwicklung von Erkenntnissen in verschiedenen Branchen und Disziplinen. Eine sorgfältige Datenerfassung ist entscheidend, um sicherzustellen, dass die gesammelten Daten genau, vollständig und repräsentativ sind, um qualitativ hochwertige Informationen für geschäftliche, wissenschaftliche oder andere Zwecke zu liefern.
Datenaufbereitung/Datenanalyse
Allgemein lassen Datenanalyseprozesse in die Phasen Fragestellung, Datensatz, Datenvorbereitung und Datenaufbereitung einteilen. In einem Business-Umfeld ergeben sich die Fragestellungen oftmals im Tagesgeschäft.
Je nach Fragestellung muss ein Datensatz im Unternehmen gefunden oder erhoben werden, der diese Fragen beantworten kann.
Definieren Sie Ihr Ziel: Klären Sie, welche Frage oder welches Problem Sie mit Ihren Daten analysieren möchten. Verstehen Sie, welche Erkenntnisse Sie gewinnen möchten.
| Angenommen, Sie interessieren sich dafür, wie sich Bildungsniveau und Einkommen in verschiedenen Ländern korrelieren.
|
Sammeln der Daten: Identifizieren Sie die Quellen, aus denen Sie Ihre Daten beziehen werden. Achten Sie darauf, dass die Daten relevant, aktuell und repräsentativ für Ihre Fragestellung sind.
| Beispielsweise könnten Sie Datenbanken der Weltbank nutzen, um Bildungsniveau und durchschnittliches Einkommen pro Land zu erhalten. |
Datenformat und ‑struktur: Verstehen Sie das Format der Daten (z. B. Tabellen, Text, Bilder) und die Struktur (z. B. Spalten, Zeilen). Stellen Sie sicher, dass Sie die notwendigen Informationen extrahieren können. | Die Daten werden als Tabellen bereitgestellt. Jede Zeile entspricht einem Land, und es gibt Spalten für Bildungsniveau (Prozentsatz der Bevölkerung mit Hochschulabschluss) und Durchschnittseinkommen pro Person. |
Datenbereinigung: Identifizieren und behandeln Sie fehlende, inkonsistente oder fehlerhafte Daten. Löschen Sie Duplikate und beheben Sie Unstimmigkeiten, um die Datenqualität zu verbessern. | Zum Beispiel könnten einige Länder fehlende Einkommensdaten haben, und Sie müssten entscheiden, wie Sie damit umgehen. |
Datenverständnis: Führen Sie explorative Analysen durch, um Muster und Zusammenhänge in den Daten zu erkennen. Nutzen Sie statistische Kennzahlen, Diagramme und Visualisierungen. | Sie könnten Histogramme verwenden, um die Verteilung der Bildungsniveaus in verschiedenen Ländern zu erkennen |
Feature-Auswahl: Wählen Sie relevante Merkmale (Features) aus, die für Ihre Analyse von Bedeutung sind. Reduzieren Sie unnötigen Ballast, um die Effizienz der Analyse zu steigern. | In diesem Fall wären das Bildungsniveau und Einkommen. |
Feature-Transformation: Transformieren oder normalisieren Sie Daten bei Bedarf, um sie für bestimmte Analysen besser geeignet zu machen.
| Wenn die Daten in unterschiedlichen Einheiten vorliegen, z.B. Bildungsniveau in Prozent und Einkommen in Währung, könnten Sie diese skalieren, um sie vergleichbar zu machen. |
Datenanalyse: Führen Sie die gewünschte Analyse durch, abhängig von Ihrer Fragestellung. Verwenden Sie geeignete statistische Methoden, maschinelles Lernen oder andere Techniken. | Sie könnten eine Korrelationsanalyse durchführen, um festzustellen, ob es eine Verbindung zwischen Bildungsniveau und Einkommen gibt. |
Visualisierung: Erstellen Sie aussagekräftige Diagramme, Graphen und Visualisierungen, um die Ergebnisse verständlich zu präsentieren und Einblicke zu vermitteln. | Durch Visualisierungen wie Streudiagramme könnten Sie den Zusammenhang zwischen Bildungsniveau und Einkommen graphisch darstellen. |
Interpretation: Analysieren Sie die Ergebnisse und leiten Sie Schlussfolgerungen ab. Beantworten Sie Ihre ursprüngliche Fragestellung basierend auf den gewonnenen Erkenntnissen. | In diesem Fall könnten Sie feststellen, dass Länder mit höherem Bildungsniveau tendenziell auch höhere Einkommen haben. |