Datenarbeit

Dieser Leit­faden soll aufzeigen welche Aspek­te bedacht wer­den müssen, um Dat­en effizient zu sam­meln, aufzu­bere­it­en und auszuw­erten, damit aus diesen später informierte Entschei­dung­sprozesse abgeleit­et wer­den können.

Datenqualität

Daten­qual­ität bezieht sich auf die Mes­sung und Bew­er­tung der Genauigkeit, Voll­ständigkeit, Kon­sis­tenz, Aktu­al­ität und Zuver­läs­sigkeit von Dat­en. Sie ist ein wesentlich­er Aspekt in der Infor­ma­tionsver­ar­beitung und Analyse, da sie bes­timmt, inwieweit Dat­en ver­trauenswürdig, nüt­zlich und effek­tiv für Entschei­dungs­find­ung, Berichter­stat­tung und andere geschäftliche oder wis­senschaftliche Zwecke sind. Hohe Daten­qual­ität gewährleis­tet, dass die erfassten Dat­en kor­rekt und angemessen repräsen­ta­tiv sind, während min­dere Daten­qual­ität zu Fehlin­ter­pre­ta­tio­nen, inef­fizien­ten Prozessen und unzu­ver­läs­si­gen Ergeb­nis­sen führen kann. Daten­qual­ität wird durch eine Kom­bi­na­tion von Maß­nah­men zur Dateneingabe, ‑ver­ar­beitung und ‑überwachung erre­icht, um sicherzustellen, dass die Dat­en akku­rat, kohärent, aktuell und für den beab­sichtigten Ver­wen­dungszweck geeignet sind.

Bei unser­er Tätigkeit sind uns Qual­ität­sprob­leme der Dat­en als eine der größten Hür­den für eine sinns­tif­tende Ver­wen­dung des Daten­schatzes eines Unternehmens aufge­fall­en. Das geht so weit, dass der über Jahre gesam­melte Daten­schatz grund­sät­zlich unbrauch­bar sein kann, da die Infor­ma­tio­nen aus sein­er Auswer­tung völ­lig verz­er­rte Aus­sagen liefern würden.

Es gibt unter­schiedliche Gründe für man­gel­nde Datenqualität.

1.       Men­schliche Fehler bei der Dateneingabe: Manuelle Dateneingabe kann zu Tippfehlern, Missver­ständ­nis­sen oder unvoll­ständi­gen Dat­en führen.

2.       Man­gel­nde Daten­va­li­dierung: Wenn eingegebene Dat­en nicht aus­re­ichend auf Richtigkeit und Kon­sis­tenz über­prüft wer­den, kön­nen fehler­hafte Infor­ma­tio­nen in die Sys­teme gelangen.

3.       Man­gel­nde Schu­lung und Bewusst­sein: Mitar­beit­er kön­nten nicht aus­re­ichend geschult sein, um die Bedeu­tung von Daten­qual­ität zu ver­ste­hen, was zu nach­läs­sigem Umgang mit Dat­en führen kann.

4.       Ver­al­tete Sys­teme und Tech­nolo­gien: Ver­al­tete Daten­banken oder Soft­ware kön­nen Prob­leme bei der Daten­in­te­gra­tion, ‑spe­icherung und ‑ver­ar­beitung verursachen.

5.       Daten­mi­gra­tion: Bei der Über­tra­gung von Dat­en zwis­chen Sys­te­men oder während ein­er Sys­temak­tu­al­isierung kön­nen Dat­en ver­loren gehen oder beschädigt werden.

6.       Daten­ver­fall: Wenn Dat­en nicht regelmäßig aktu­al­isiert wer­den, kön­nen sie ver­al­tet und unge­nau werden.

7.       Schlechte Daten­quellen: Dat­en, die von exter­nen Quellen stam­men, kön­nen von geringer Qual­ität sein, was zu unzu­ver­läs­si­gen Infor­ma­tio­nen führt.

8.       Datendu­p­likate: Dop­pelte Daten­sätze kön­nen auftreten, wenn Infor­ma­tio­nen mehrfach erfasst wer­den, was zu Ver­wirrung und Unord­nung führt.

9.       Unklare Ver­ant­wortlichkeit­en: Unklare Ver­ant­wortlichkeit­en für die Daten­qual­ität oder fehlende Prozesse zur Fehlerko­r­rek­tur kön­nen zu Prob­le­men führen.

10.       Fehlende Daten­stan­dards: Wenn es keine klaren Richtlin­ien für die Daten­er­fas­sung und ‑for­matierung gibt, kann dies zu Inkon­sis­ten­zen führen.

11.       Fehlende Daten­in­te­gra­tion: Dat­en, die aus ver­schiede­nen Quellen stam­men, müssen möglicher­weise inte­gri­ert wer­den. Wenn dies nicht ord­nungs­gemäß durchge­führt wird, kön­nen Inkon­sis­ten­zen auftreten.

12.       Fehlende Datenpflege: Ein Man­gel an regelmäßiger Überwachung, Aktu­al­isierung und Bere­ini­gung von Dat­en kann zu ein­er Ver­schlechterung der Qual­ität führen.

13.       Fehlende Vali­dierung von Drit­tan­bi­etern: Dat­en, die von exter­nen Anbi­etern stam­men, soll­ten vali­diert wer­den, um sicherzustellen, dass sie den inter­nen Qual­itäts­stan­dards entsprechen.

14.       Wach­s­tum und Skalierung: Wenn Unternehmen schnell wach­sen, kann die Bewäl­ti­gung der wach­senden Daten­men­gen zu Qual­ität­sprob­le­men führen.

15.   Fehlende Tech­nolo­giein­vesti­tio­nen: Wenn Unternehmen nicht genü­gend in Daten­man­age­ment-Tools und ‑lösun­gen investieren, kön­nen Daten­qual­ität­sprob­leme auftreten.

Bei unser­er Tätigkeit sind uns drei Punk­te beson­ders oft begeg­net, die mehr oder weniger aufeinan­der auf­bauen: Fehlende Daten­stan­dards in Kom­bi­na­tion mit man­gel­nden Schu­lun­gen und ein fehlen­des Bewusst­sein für Dat­en führen oft­mals zu men­schlichen Fehlern bei der Dateneingabe.

Beispiel­sweise stell­ten wir bei einem Part­ner fest, dass über Jahre hin­weg Angaben zu Adress­dat­en der Aufträge ein­fach aus­ge­lassen wur­den. Das ging so weit, dass bei der Auswer­tung der Dat­en ein ganzes Bun­des­land ohne Fir­men­tätigkeit aufge­führt wurde. Die Fir­ma war aber in diesem Bun­des­land tätig. Eine Entschei­dungs­find­ung, wie etwa Ressourcen verteilt, oder wo Mar­ket­ing­maß­nah­men sin­nvoll sind, wird durch unsaubere Dat­en enorm erschwert.

Ein weit­eres Prob­lem ist die Daten­in­te­gra­tion. Oft­mals kom­men in Unternehmen ein Vielzahl von Soft­ware­pro­duk­ten von ver­schiede­nen Her­stellern zum Ein­satz. Diese wur­den im Regelfall in einem his­torischen Wach­s­tum­sprozess Stück für Stück nach aktuellem Bedarf angeschafft.

Dabei muss darauf geachtet wer­den, dass Daten­struk­turen über das Unternehmen hin­weg kon­sis­tent aufge­baut wer­den. Kun­den­num­mer, in ein­er Daten­bank als Kunden_Nr und in ein­er anderen als Kun­NR abzule­gen ist zwar für den jew­eili­gen men­schlichen Anwen­der nachvol­lziehbar, erfordert aber bei ein­er späteren Verknüp­fung der Dat­en erneuten men­schlichen Aufwand. Schlim­mer wird es, wenn kryp­tis­che Beze­ich­nun­gen ver­wen­det und deren Bedeu­tung nicht doku­men­tiert wer­den. Später kann nur mit hohem Aufwand und Mühe nachvol­l­zo­gen wer­den, welche Dat­en welche Entsprechung in einem anderen Sys­tem haben.   

Datenerfassung

Daten­er­fas­sung bezieht sich auf den Prozess der sys­tem­a­tis­chen Samm­lung, Aufze­ich­nung und Erfas­sung von Roh­dat­en aus ver­schiede­nen Quellen. Dieser Prozess zielt darauf ab, Infor­ma­tio­nen in einem struk­turi­erten For­mat zu erfassen, die später für Analyse, Ver­ar­beitung, Spe­icherung und Berichter­stat­tung ver­wen­det wer­den kön­nen. Daten­er­fas­sung kann manuell oder automa­tisiert erfol­gen und umfasst die Erfas­sung von Tex­ten, Zahlen, Bildern, Tönen und anderen Date­narten. Sie bildet die Grund­lage für fundierte Entschei­dungs­find­ung, Tren­d­analyse und die Entwick­lung von Erken­nt­nis­sen in ver­schiede­nen Branchen und Diszi­plinen. Eine sorgfältige Daten­er­fas­sung ist entschei­dend, um sicherzustellen, dass die gesam­melten Dat­en genau, voll­ständig und repräsen­ta­tiv sind, um qual­i­ta­tiv hochw­er­tige Infor­ma­tio­nen für geschäftliche, wis­senschaftliche oder andere Zwecke zu liefern.

Datenaufbereitung/Datenanalyse

All­ge­mein lassen Date­n­analy­se­prozesse in die Phasen Fragestel­lung, Daten­satz, Daten­vor­bere­itung und Date­nauf­bere­itung ein­teilen. In einem Busi­ness-Umfeld ergeben sich die Fragestel­lun­gen oft­mals im Tagesgeschäft.

Je nach Fragestel­lung muss ein Daten­satz im Unternehmen gefun­den oder erhoben wer­den, der diese Fra­gen beant­worten kann.

Definieren Sie Ihr Ziel: Klären Sie, welche Frage oder welch­es Prob­lem Sie mit Ihren Dat­en analysieren möcht­en. Ver­ste­hen Sie, welche Erken­nt­nisse Sie gewin­nen möchten.

 

Angenom­men, Sie inter­essieren sich dafür, wie sich Bil­dungsniveau und Einkom­men in ver­schiede­nen Län­dern korrelieren.

 

Sam­meln der Dat­en: Iden­ti­fizieren Sie die Quellen, aus denen Sie Ihre Dat­en beziehen wer­den. Acht­en Sie darauf, dass die Dat­en rel­e­vant, aktuell und repräsen­ta­tiv für Ihre Fragestel­lung sind.

 

Beispiel­sweise kön­nten Sie Daten­banken der Welt­bank nutzen, um Bil­dungsniveau und durch­schnit­tlich­es Einkom­men pro Land zu erhalten.

Daten­for­mat und ‑struk­tur: Ver­ste­hen Sie das For­mat der Dat­en (z. B. Tabellen, Text, Bilder) und die Struk­tur (z. B. Spal­ten, Zeilen). Stellen Sie sich­er, dass Sie die notwendi­gen Infor­ma­tio­nen extrahieren können.

Die Dat­en wer­den als Tabellen bere­it­gestellt. Jede Zeile entspricht einem Land, und es gibt Spal­ten für Bil­dungsniveau (Prozentsatz der Bevölkerung mit Hochschu­la­b­schluss) und Durch­schnitt­seinkom­men pro Person.

Daten­bere­ini­gung: Iden­ti­fizieren und behan­deln Sie fehlende, inkon­sis­tente oder fehler­hafte Dat­en. Löschen Sie Dup­likate und beheben Sie Unstim­migkeit­en, um die Daten­qual­ität zu verbessern.

Zum Beispiel kön­nten einige Län­der fehlende Einkom­mens­dat­en haben, und Sie müssten entschei­den, wie Sie damit umgehen.

Daten­ver­ständ­nis: Führen Sie explo­rative Analy­sen durch, um Muster und Zusam­men­hänge in den Dat­en zu erken­nen. Nutzen Sie sta­tis­tis­che Kenn­zahlen, Dia­gramme und Visualisierungen.

Sie kön­nten His­togramme ver­wen­den, um die Verteilung der Bil­dungsniveaus in ver­schiede­nen Län­dern zu erkennen

Fea­ture-Auswahl: Wählen Sie rel­e­vante Merk­male (Fea­tures) aus, die für Ihre Analyse von Bedeu­tung sind. Reduzieren Sie unnöti­gen Bal­last, um die Effizienz der Analyse zu steigern.

In diesem Fall wären das Bil­dungsniveau und Einkommen.

Fea­ture-Trans­for­ma­tion: Trans­formieren oder nor­mal­isieren Sie Dat­en bei Bedarf, um sie für bes­timmte Analy­sen bess­er geeignet zu machen.

 

Wenn die Dat­en in unter­schiedlichen Ein­heit­en vor­liegen, z.B. Bil­dungsniveau in Prozent und Einkom­men in Währung, kön­nten Sie diese skalieren, um sie ver­gle­ich­bar zu machen.

Date­n­analyse: Führen Sie die gewün­schte Analyse durch, abhängig von Ihrer Fragestel­lung. Ver­wen­den Sie geeignete sta­tis­tis­che Meth­o­d­en, maschinelles Ler­nen oder andere Techniken.

Sie kön­nten eine Kor­re­la­tion­s­analyse durch­führen, um festzustellen, ob es eine Verbindung zwis­chen Bil­dungsniveau und Einkom­men gibt.

Visu­al­isierung: Erstellen Sie aus­sagekräftige Dia­gramme, Graphen und Visu­al­isierun­gen, um die Ergeb­nisse ver­ständlich zu präsen­tieren und Ein­blicke zu vermitteln.

Durch Visu­al­isierun­gen wie Streudi­a­gramme kön­nten Sie den Zusam­men­hang zwis­chen Bil­dungsniveau und Einkom­men graphisch darstellen.

Inter­pre­ta­tion: Analysieren Sie die Ergeb­nisse und leit­en Sie Schlussfol­gerun­gen ab. Beant­worten Sie Ihre ursprüngliche Fragestel­lung basierend auf den gewonnenen Erkenntnissen.

In diesem Fall kön­nten Sie fest­stellen, dass Län­der mit höherem Bil­dungsniveau ten­den­ziell auch höhere Einkom­men haben.