Datenanalyse- und Data-Mining-Verfahren im Überblick

Def­i­n­i­tion Datenanalyse 

In der Date­n­analyse wer­den Infor­ma­tio­nen mit Hil­fe von sta­tis­tis­chen Meth­o­d­en aus ein­er großen Daten­menge gewon­nen und im Anschluss visu­al­isiert. Das umfassende Gebi­et der Date­n­analyse lässt sich in die Bere­iche der deskrip­tiv­en, der inferen­ziellen, der explo­rativ­en und kon­fir­ma­torischen Date­n­analyse unterteilen. Bei der deskrip­tiv­en Date­n­analyse wer­den die Infor­ma­tio­nen der Einzel­dat­en, welche zum Beispiel ein­er Totaler­he­bung ent­nom­men wur­den, so verdichtet und dargestellt, dass das Wesentliche deut­lich wird. Der Schw­er­punkt der Date­n­analyse ruht auf der Über­tra­gung der Stich­proben­be­funde der Date­n­analyse auf die Grundge­samtheit, wenn lediglich die Dat­en ein­er Stich­proben­er­he­bung (Teil­er­he­bung) zu Grunde liegen. Dabei wird von ein­er inferen­ziellen Date­n­analyse gesprochen. Bei der explo­rativ­en Date­n­analyse geht es darum, die ver­füg­bare Daten­menge so zu ver­ar­beit­en, dass Struk­turen in den Dat­en sowie Zusam­men­hänge ebendieser aufgezeigt und in beson­derem Maße her­vorge­hoben wer­den kön­nen. Im Gegen­satz dazu ist das Ziel der kon­fir­ma­torischen Date­n­analyse die Über­prü­fung von Zusammenhängen.

Meth­o­d­en und Ver­fahren der Date­n­analyse im Überblick

Bei der sta­tis­tis­chen Date­n­analyse wird in der Regel mit den Berech­nun­gen des Mit­tel­w­ertes und der Stan­dard­ab­we­ichung (oder Var­i­anz) begonnen. Des Weit­eren erfol­gt die Prü­fung der Dat­en auf Normalverteilung.

Hypothe­sen­test

Für die Anwen­dung des Hypothe­sen­tests wer­den immer zwei Hypothe­sen for­muliert: eine Null­hy­pothese Ho, die meis­tens bein­hal­tet, dass die ver­mutete Daten­struk­tur nicht existiert und die Alter­na­tivhy­pothese HI bzw. HA, die meis­tens bein­hal­tet, dass die ver­mutete Daten­struk­tur existiert. Der Hypothe­sen­test bezieht sich auf die Annahme ein­er wahren Null­hy­pothese[1]. Es muss bewiesen wer­den, dass die Null­hy­pothese falsch ist. Zuerst wer­den Werte wie der T‑Wert[2] oder der F‑Wert berech­net. Diese Werte wer­den mit einem der Sit­u­a­tion angepassten kri­tis­chen Wert ver­glichen. Ist dieser berech­nete Wert klein­er als der kri­tis­che Wert, gilt die Null­hy­pothese als wahr. In diesem Fall ist auch der P‑Wert, also die Wahrschein­lichkeit, mit der das auf die Null­hy­pothese bezo­gene Ergeb­nis ein­tritt, nur wenig klein­er als 0,05. Ist der P‑Wert hinge­gen sehr klein, wird die Null­hy­pothese ver­wor­fen. Es gilt als rel­a­tiv sich­er, dass die Null­hy­pothese falsch ist; jedoch ist nicht bekan­nt, welche Hypothese richtig ist. Wird die Null­hy­pothese nicht ver­wor­fen, darf im Umkehrschluss nicht auf die Richtigkeit ebendieser geschlossen wer­den[3]. In diesem Fall kann das Ergeb­nis nicht inter­pretiert werden.

Nor­malverteilung, P‑Test, T‑Test

Der P‑Wert (Sig­nifikanzw­ert) gibt an, wie extrem der auf der Basis der erhobe­nen Dat­en berech­nete Wert der Test­sta­tis­tik ist. Außer­dem deutet er an, wie wahrschein­lich es ist, ein solch­es Stich­proben­ergeb­nis oder ein noch extremeres zu erhal­ten, wenn die Null­hy­pothese wahr ist. Da der Wert ein Wahrschein­lichkeitswert ist, nimmt er Werte zwis­chen Null und Eins an. Mit dem P‑Wert wird deshalb angedeutet, wie extrem das Ergeb­nis ist: je klein­er der P‑Wert, desto mehr spricht das Ergeb­nis gegen die Null­hy­pothese. Üblicher­weise wird vor dem Test ein Sig­nifikanzniveau α fest­gelegt und die Null­hy­pothese dann ver­wor­fen, wenn der P‑Wert klein­er oder gle­ich α ist[4]. Um Entschei­dun­gen tre­f­fen zu kön­nen, ob die Null­hy­pothese abgelehnt oder beibehal­ten wer­den soll, haben sich feste Gren­zen etwa bei 5 %, 1 % oder 0,1 % etabliert. Wenn die Null­hy­pothese ver­wor­fen wird, wird das Resul­tat als sta­tis­tisch sig­nifikant beze­ich­net. Die Größe des P‑Werts gibt keine Aus­sage über die Größe des wahren Effekts.

Der T‑Test beze­ich­net eine Gruppe von Hypothe­sen­tests mit T‑verteilter Test­prüf­größe[5], die aber häu­fig nach Ein­stich­proben-T-Test und Zweis­tich­proben-T-Test unter­schieden wird. Voraus­set­zung für die Durch­führung des T‑Tests ist die Nor­malverteilung der zu unter­suchen­den Grundge­samtheit der Dat­en. Des Weit­eren muss ein genü­gend großer Stich­probe­num­fang vor­liegen. Sind die Dat­en nicht nor­malverteilt, kann der T‑Test nicht angewen­det wer­den und es wird nach dem Prinzip des U‑Tests ver­fahren. Beim Ein­stich­proben-T-Test wird mit Hil­fe des Mit­tel­w­ertes ein­er Stich­probe geprüft, ob sich der Mit­tel­w­ert der Grundge­samtheit von einem vorgegebe­nen Soll­w­ert unter­schei­det. Der klas­sis­che T‑Test (Zweis­tich­proben-T-Test) hinge­gen prüft, ob sich Mit­tel­w­erte zweier unab­hängiger Stich­proben wie die Mit­tel­w­erte zweier Grundge­samtheit­en zueinan­der ver­hal­ten. Dabei wird voraus­ge­set­zt, dass bei­de Stich­proben aus Grundge­samtheit­en gle­ich­er Var­i­anz entstam­men. Die Var­i­anz ist das Quadrat der Stan­dard­ab­we­ichung. Je größer die Var­i­anz ist, desto flach­er ver­läuft die Nor­malverteilungskurve. Wer­den zwei Stich­proben­größen miteinan­der ver­glichen, muss zusät­zlich die gewichtete Var­i­anz ermit­telt wer­den. Dabei hat die größere Stich­probe den entschei­den­deren Ein­fluss auf das Ergebnis.

 ANOVA (analy­sis of variance)

„Die Var­i­an­z­analyse, im Deutschen zumeist ANOVA genan­nt, sucht primär nach Unter­schieden zwis­chen Grup­pen und testet, ob das Aufteilen der Dat­en in unter­schiedliche Grup­pen die unerk­lärte Vari­abil­ität reduziert.“[6] Die nor­malverteil­ten Werte in jed­er Gruppe, die annäh­ernde Gle­ich­heit der Stan­dard­ab­we­ichun­gen sowie die Unab­hängigkeit der Mess­werte voneinan­der sind die Voraus­set­zun­gen für die Var­i­an­z­analyse. Es wird geprüft, ob sich die Mit­tel­w­erte mehrerer Grup­pen unter­schei­den. Im ein­fach­sten Fall lautet die Null­hy­pothese: Die Mit­tel­w­erte aller Grup­pen sind gle­ich. Dann ergibt sich fol­gende Alter­na­tivhy­pothese: Nicht alle Mit­tel­w­erte sind gle­ich. Mit den Prüf­größen des Ver­fahrens wird getestet, ob die Var­i­anz zwis­chen den Grup­pen größer ist als die Var­i­anz inner­halb der Grup­pen. Dadurch kann ermit­telt wer­den, ob die Grup­penein­teilung sin­nvoll ist oder nicht bzw. ob sich die Grup­pen sig­nifikant unter­schei­den oder nicht. Die Var­i­an­z­analyse ist in ihrer ein­fach­sten Form eine Alter­na­tive zum T‑Test. Das Ergeb­nis ist das gle­iche wie beim T‑Test, „denn die Ergeb­nisse ein­er ein­fak­to­riellen Var­i­an­z­analyse (one-way ANOVA) und eines T‑Tests sind iden­tisch, wenn die bei­den Stich­proben die gle­iche Var­i­anz haben.“[7]

Meth­o­d­en und Ver­fahren des Data-Min­ings im Überblick

„Knowl­edge Dis­cov­ery in Data­bas­es (KDD) ist ein nicht­triv­ialer mehrstu­figer Prozess zur Wis­sens­find­ung aus vorhan­de­nen Infor­ma­tio­nen.“[8] KDD, im Deutschen als Wis­sensent­deck­ung in Daten­banken beze­ich­net, ergänzt den fälschlicher­weise syn­onym ver­wen­de­ten Begriff Data-Min­ing um vor­bere­i­t­ende Unter­suchun­gen und Trans­for­ma­tio­nen der auszuw­er­tenden Dat­en. Das Ziel ist es bis­lang unbekan­nte fach­liche Zusam­men­hänge aus erhobe­nen, meist sehr großen Datenbestän­den, zu erkennen.

Fayyad, U., Piatet­sky-Shapiro, G., Smyth, P., From Data Min­ing to Knowl­edge Dis­cov­ery in Data­bas­es, Amer­i­can Asso­ci­a­tion for Arti­fi­cial Intel­li­gence, 1996, Al Mag­a­zine, Vol. 17, No. 3, S. 41, online unter: https://www.aaai.org/ojs/index.php/aimagazine/article/ViewFile/1230/1131

Die oben­ste­hende Abbil­dung gibt einen Überblick über die Schritte des KDD-Prozess­es nach Fayyad et al. Die nach­fol­gende Aufzäh­lung beschreibt das prak­tis­che Vorge­hen bei der Anwen­dung des KDD-Prozess­es:[9]

Data-Min­ing ist der eigentliche Analy­seschritt des KDD-Prozess­es. Der Data-Min­ing-Prozess[11] wiederum wird in die fol­gen­den Schritte gegliedert:

  •  die Daten­er­he­bung und Selek­tion sowie das Bes­tim­men bere­its vorhan­de­nen Wis­sens, Daten­ver­wal­tung (File/ Datenbank),
  •  die Daten­bere­ini­gung, beispiel­sweise durch Ent­fer­nen oder Ergänzen von unvoll­ständi­gen Daten­sätzen, Konsistenzprüfung,
  •  Diskretisierung numerisch­er Merk­male, Ableitung neuer Merk­male, Selek­tion rel­e­van­ter Merkmale,
  •  der eigentliche Analy­seschritt, basierend auf Merk­malsvek­toren[12], Gener­ierung von Mustern bzw. Modellen,
  •  Eval­u­a­tion sowie Kon­trolle der erre­icht­en Ziele, Vali­dierung (Sta­tis­tis­che Prü­fung der Modelle).

Typ­is­che Meth­o­d­en des Data-Min­ing sind:

  •  Grup­pierung von Objek­ten auf­grund von Ähnlichkeiten,
  •  Ele­mente wer­den den beste­hen­den Klassen zugeordnet,
  •  Iden­ti­fizierung von Zusam­men­hän­gen und Abhängigkeit­en in den Daten,
  •  Iden­ti­fizierung von Beziehun­gen zwis­chen Variablen,
  •  Iden­ti­fizierung von ungewöhn­lichen Datensätzen,
  •  Unter­sucht die Beziehung zwis­chen zwei Variablen,
  •  Trans­for­ma­tion des Daten­satzes in eine kom­pak­tere Beschrei­bung ohne wesentlichen Informationsverlust.

Dabei zählen die Aus­reißer­erken­nung sowie die Clus­ter­analyse zu den Beobach­tung­sprob­le­men; Klas­si­fika­tion und Regres­sion­s­analyse zählen zu den Prognoseproblemen.

Clus­ter­analyse & Klassifikation

Mit Hil­fe der Clus­ter­analyse sollen Ähn­lichkeitsstruk­turen in großen Datenbestän­den aufgezeigt wer­den, mit dem Ziel, neue Grup­pen in den Dat­en zu iden­ti­fizieren. Die gefun­de­nen Ähn­lichkeits­grup­pen kön­nen graphen­the­o­retisch, hier­ar­chisch, par­ti­tion­ierend oder opti­mierend sein. Die einem Clus­ter zuge­ord­neten Objek­te sollen dabei möglichst homogen sein, die unter­schiedlichen Clus­tern zuge­ord­neten Objek­te sollen sehr stark het­ero­gen sein[13]. Außer­dem kön­nen bei der Clus­ter­bil­dung mehrere Merk­male par­al­lel herange­zo­gen wer­den. Die Clus­ter­analyse erfol­gt in den nach­fol­gen­den Schritten.

Am Anfang wird jedes Objekt als einzel­ner Clus­ter betra­chtet. Danach wer­den die bei­den Einzelob­jek­te, die sich am ähn­lich­sten sind, miteinan­der vere­inigt. Die Vere­ini­gung reduziert die Clus­ter­an­zahl um Eins. Danach wer­den wiederum alle Dis­tanzen der einzel­nen Objek­te berech­net und die bei­den Objek­te mit dem kle­in­sten Abstand zu einem neuen Clus­ter zusam­menge­fasst. Dies kön­nte the­o­retisch solange wieder­holt wer­den, bis alle Objek­te in einem einzi­gen Clus­ter, einem soge­nan­nten Mega­clus­ter, vere­inigt sind. Für die Analyse der Dat­en ist es dage­gen viel bedeut­samer, die am sin­nvoll­sten erscheinende Clus­terung zu ermit­teln. Die Clus­ter­an­zahl wird durch die Betra­ch­tung der Var­i­anz inner­halb und zwis­chen den Grup­pen bes­timmt. Es wird fest­gelegt, welche Clus­terung am sin­nvoll­sten erscheint, da für die Funk­tion selb­st keine Abbruchbe­din­gung vorgegeben ist. In der Regel sind ver­schiedene Clus­tere­in­teilun­gen von Vorteil.

Voraus­set­zun­gen für die Anwen­dung der Clus­ter­analyse sind die metrisch skalierten Merk­male, welche ein­fach in die Analyse ein­fließen kön­nen; ordi­nal und nom­i­nal skalierte Merk­male müssen als Dum­my-Vari­ablen[14] skaliert wer­den. Merk­male, die in unter­schiedlichen Dimen­sio­nen skaliert sind, kön­nen zu ein­er Ergeb­nisverz­er­rung führen. Diese Werte müssen vor der Durch­führung ein­er Clus­ter­analyse, zum Beispiel durch eine Z‑Transformation[15], stan­dar­d­isiert wer­den. Des Weit­eren soll­ten die Merk­male nicht untere­inan­der korrelieren.

Die Dis­tanz zwis­chen zwei Einzelob­jek­ten wird durch das Dis­tanz­maß bes­timmt. Je größer das Maß, desto unähn­lich­er sind sich die Objek­te. Die ver­schiede­nen Clus­ter­meth­o­d­en[16] dienen der Bes­tim­mung der Dis­tanz zwis­chen zwei Clus­tern oder einem Clus­ter und einem Einzelob­jekt. Bei der Klas­si­fika­tion hinge­gen wer­den die Dat­en bere­its beste­hen­den Grup­pen zugeordnet.

Assozi­a­tion­s­analyse & Regressionsanalyse

„Durch eine Assozi­a­tion­s­analyse wer­den Regeln gener­iert, welche die Beziehun­gen zwis­chen den in den Daten­sätzen eines Datenbe­standes vork­om­menden Ele­menten (Items) beschreiben.“[17] Diese Abhängigkeit­en wer­den in der Form Wenn Item A, dann Item B bzw. A  B dargestellt. Ein Item ist dabei die Aus­prä­gung eines Attrib­ut­wertes eines Daten­satzes. Ein Beispiel für eine ein­fache Regel wäre: Wenn ein Kunde Bier kauft, dann kauft er in 70 Prozent der Fälle auch Chips. Diese Beziehun­gen wer­den nicht als Hypothe­sen angenom­men, son­dern sollen mit der Assozi­a­tion­s­analyse aus den Dat­en ent­deckt wer­den. Erst nach­dem ein auf­fäl­liges Muster gefun­den wurde, wird unter­sucht, ob es sich wirk­lich um eine Abhängigkeit han­delt und falls ja, wer­den Assozi­a­tion­sregeln dazu aufgestellt. Ken­ngrößen von Assozi­a­tion­sregeln sind Sup­port, Kon­fi­denz und Lift. „Je größer der Sup­port­wert ist, desto rel­e­van­ter ist die Regel.“[18]

Die Regres­sion­s­analyse ist das Analy­sev­er­fahren zur Errech­nung ein­er Regres­sion in Form ein­er Regres­sion­s­ger­aden bzw. ‑funk­tion. Die Regres­sion gibt an, welch­er gerichtete lin­eare Zusam­men­hang zwis­chen zwei oder mehreren Vari­ablen beste­ht[19]. Das Bes­timmtheits­maß (R²) drückt dabei aus, wie gut die Regres­sion­s­ger­ade den Zusam­men­hang zwis­chen unab­hängiger und abhängiger Vari­able wiedergibt. R² liegt zwis­chen 0 und 1, wobei der Wert R² = 1 bedeuten würde, dass jed­er beobachtete Daten­punkt direkt auf der Regres­sion­s­ger­aden liegt. Durch die Ermit­tlung ein­er Regres­sions­funk­tion kann noch keine Aus­sage über die Sig­nifikanz eines Zusam­men­hangs getrof­fen wer­den. Die Sig­nifikanz der Regres­sion wird durch den F‑Test ermittelt.

Zu Beginn der Regres­sion­s­analyse ste­ht die Auf­bere­itung der Dat­en. Fehlende Dat­en wer­den wegge­lassen bzw. aufge­füllt, Dat­en wer­den trans­formiert und die Inter­ak­tio­nen (bei lin­ear­er Regres­sion) wer­den berück­sichtigt. Mit­tels math­e­ma­tis­ch­er Ver­fahren wird eine Funk­tion f ermit­telt, so dass die Residuen[20] emin­i­mal wer­den. Die Mod­el­l­va­li­dierung, also die Über­prü­fung ob das Mod­ell eine gute Beschrei­bung des Zusam­men­hangs ist, umfasst die

Das vali­dierte Mod­ell kann zur Prog­nose von Werten von y bei gegebe­nen Werten von x herange­zo­gen wer­den. Zur Abschätzung der Unsicher­heit der Prog­nose wird neben dem prog­nos­tizierten y-Wert häu­fig auch ein Kon­fi­den­z­in­ter­vall angegeben.

Aus­reißer­erken­nung

Aus­reißer sind Mess­werte oder Befunde, die inkon­sis­tent zu dem Rest der Dat­en sind, zum Beispiel indem sie ungewöhn­liche Attrib­ut­werte haben oder nicht den Erwartun­gen entsprechen. Die Erwartung ist erfahrungs­gemäß der Streu­ungs­bere­ich um den Erwartungswert herum, in dem sich die meis­ten Mess­werte befind­en. „Robuste Gren­zen für die Erken­nung von Aus­reißern für viele Verteilungstypen kön­nen auch auf der Grund­lage der Quar­tile und der Quar­tild­is­tanz abgeleit­et wer­den.“[21] Werte explo­rativ­er Stu­di­en, die weit­er als das 1,5‑fache des Quar­ti­l­ab­standes außer­halb dieses Inter­valls liegen, wer­den als Aus­reißer beze­ich­net. Im Box­plot wer­den beson­ders hohe Aus­reißer geson­dert dargestellt.

Das Ver­fahren Local Out­lier Fac­tor sucht zum Beispiel Objek­te, die eine von ihren Nach­barn deut­lich abwe­ichende Dichte aufzeigen, dann wird an dieser Stelle von dichte­basiert­er Aus­reißerken­nunggesprochen. Iden­ti­fizierte Aus­reißer wer­den anschließend meist manuell ver­i­fiziert und aus dem Daten­satz aus­ge­blendet, da sie die Ergeb­nisse ander­er Ver­fahren ver­schlechtern kön­nen. Vor ein­er Entschei­dung zugun­sten der Ent­fer­nung von Werten ist daher in jedem Fall noch zu über­prüfen, welch­er Daten­ver­lust bei der Löschung oder Kennze­ich­nung der fehlen­den Werte entste­ht. Sinkt die Zahl der ver­füg­baren Daten­sätze unter das zum Fort­fahren notwendi­ge Niveau, so ist das Ent­fer­nen der Aus­reißer zu vermeiden.

Kor­re­la­tion­s­analyse

Eine wichtige Auf­gabe der Date­n­analyse ist die Analyse des Zusam­men­hangs zwis­chen einzel­nen Eigen­schaften. Die Stärke des Zusam­men­hangs von zwei quan­ti­ta­tiv­en Merk­malen wird in der deskrip­tiv­en Sta­tis­tik und Inferen­zs­ta­tis­tik als Kor­re­la­tion beze­ich­net und kann in lin­eare und nicht­lin­eare Kor­re­la­tion unter­schieden wer­den. Bei mul­ti­vari­at­en Daten­sätzen wird zusät­zlich für jedes Paar von Vari­ablen der Kor­re­la­tion­sko­ef­fizient berech­net.[22] „Zur Kor­re­la­tion­s­analyse wer­den vornehm­lich Ver­fahren der klas­sis­chen, mul­ti­vari­at­en, robusten und explo­rativ­en Sta­tis­tik einge­set­zt, aber auch ver­schieden­ste nicht­lin­eare Regres­sionsver­fahren, deren Approx­i­ma­tions­fehler als Kor­re­la­tion­s­maß ver­wen­det wer­den kön­nen.“[23] Die Nor­malverteilung der unter­sucht­en Dat­en ist die Voraus­set­zung für die Durch­führung der Korrelationsanalyse.

Zusam­men­fas­sung als Meth­ode des Data-Minings 

Durch die Trans­for­ma­tion eines Daten­satzes in eine kom­pak­tere Beschrei­bung sein­er Infor­ma­tio­nen, gewährleis­tet die Zusam­men­fas­sung eine ver­lust­freie Darstel­lung wesentlich­er Infor­ma­tion. Die Zusam­men­fas­sung erfol­gt textuell, visuell oder kombiniert.

[1] Vgl. Akre­mi, L., Baur, N., Fromm, S. (Hrsg.), Date­n­analyse mit SPSS für Fort­geschrit­tene 1 – Date­nauf­bere­itung und uni- und bivari­ate Sta­tis­tik, 3., über­ar­beit­ete und erweit­erte Auflage, Springer Fachme­di­en, Wies­baden, 2011, S. 247.

[2] „Der T‑Wert ergibt sich aus dem Quo­tien­ten des arith­metis­chen Mit­tels der Dif­feren­zen zwis­chen zwei zu ver­gle­ichen­den Vari­ablen und dem Schätzw­ert des Stan­dard­fehlers für dieses Mit­tel in der Grundge­samtheit.“ Zitiert aus Akre­mi, L., Baur, N., Fromm, S. (Hrsg.), 2011, S. 267.

[3] Vgl. Akre­mi, L., Baur, N., Fromm, S. (Hrsg.), Date­n­analyse mit SPSS für Fort­geschrit­tene 1 – Date­nauf­bere­itung und uni- und bivari­ate Sta­tis­tik, 3., über­ar­beit­ete und erweit­erte Auflage, Springer Fachme­di­en, Wies­baden, 2011, S. 200.

[4] Vgl. Akre­mi, L., Baur, N., Fromm, S. (Hrsg.), Date­n­analyse mit SPSS für Fort­geschrit­tene 1 – Date­nauf­bere­itung und uni- und bivari­ate Sta­tis­tik, 3., über­ar­beit­ete und erweit­erte Auflage, Springer Fachme­di­en, Wies­baden, 2011, S. 203.

[5] Vgl. Akre­mi, L., Baur, N., Fromm, S. (Hrsg.), Date­n­analyse mit SPSS für Fort­geschrit­tene 1 – Date­nauf­bere­itung und uni- und bivari­ate Sta­tis­tik, 3., über­ar­beit­ete und erweit­erte Auflage, Springer Fachme­di­en, Wies­baden, 2011, S. 257.

[6] Zitiert aus Dor­mann, C., Para­metrische Sta­tis­tik – Verteilun­gen, mix­i­mum like­li­hood und GLM in R, 2., über­ar­beit­ete und erweit­erte Auflage, Springer-Ver­lag, Berlin, 2013, S. 199.

[7] Zitiert aus Dor­mann, C., Para­metrische Sta­tis­tik – Verteilun­gen, mix­i­mum like­li­hood und GLM in R, 2., über­ar­beit­ete und erweit­erte Auflage, Springer-Ver­lag, Berlin, 2013, S. 202.

[8] Zitiert aus Hung, P. T., Data-Min­ing und KDD – ein Überblick, TU Dres­den, 2009, S. 3.

[9] Vgl. Hung, P. T., Data-Min­ing und KDD – ein Überblick, TU Dres­den, 2009, S. 9.

[10] Vgl. Queck­börn­er, S., Was ist Data Min­ing?, Tech­nis­che Uni­ver­sität Kaiser­slautern, o. J., S. 7.

[11] Vgl. Böhm, Chr., Vor­lesung „Knowl­edge Dis­cov­ery in Data­bas­es“, Lud­wig Max­i­m­il­ians Uni­ver­sität München, Insti­tut für Infor­matik, Lehr- und Forschung­sein­heit für Daten­banksys­teme, München, 2003, S. 7.

[12] Vgl. Böhm, Chr., Vor­lesung „Knowl­edge Dis­cov­ery in Data­bas­es“, Lud­wig Max­i­m­il­ians Uni­ver­sität München, Insti­tut für Infor­matik, Lehr- und Forschung­sein­heit für Daten­banksys­teme, München, 2003, S. 15.

[13] Vgl. Janssen, J., Laatz, W., Sta­tis­tis­che Date­n­analyse mit SPSS für Win­dows, 6., neu bear­beit­ete und erweit­erte Auflage, Springer-Ver­lag, Berlin, Hei­del­berg, 2007, S. 487.

[14] Vgl. Janssen, J., Laatz, W., Sta­tis­tis­che Date­n­analyse mit SPSS für Win­dows, 6., neu bear­beit­ete und erweit­erte Auflage, Springer-Ver­lag, Berlin, Hei­del­berg, 2007, S. 448.

[15] Vgl. Janssen, J., Laatz, W., Sta­tis­tis­che Date­n­analyse mit SPSS für Win­dows, 6., neu bear­beit­ete und erweit­erte Auflage, Springer-Ver­lag, Berlin, Hei­del­berg, 2007, S. 226.

[16] Vgl. Janssen, J., Laatz, W., Sta­tis­tis­che Date­n­analyse mit SPSS für Win­dows, 6., neu bear­beit­ete und erweit­erte Auflage, Springer-Ver­lag, Berlin, Hei­del­berg, 2007, S. 489.

[17] Zitiert aus Glu­chows­ki, P., F., Cha­moni, P., Ana­lytis­che Infor­ma­tion­ssys­teme: Busi­ness Intel­li­gence-Tech­nolo­gien und ‑Anwen­dun­gen 3., vollst. über­arb. Auflage, 2006, S. 276.

[18] Zitiert aus Glu­chows­ki, P., Cha­moni, P., Glu­chows­ki, P., F., Cha­moni, P., Ana­lytis­che Infor­ma­tion­ssys­teme: Busi­ness Intel­li­gence-Tech­nolo­gien und ‑Anwen­dun­gen 3., vollst. über­arb. Auflage, 2006, S. 277.

[19] Vgl. Glu­chows­ki, P., Cha­moni, P., Glu­chows­ki, P., F., Cha­moni, P., Ana­lytis­che Infor­ma­tion­ssys­teme: Busi­ness Intel­li­gence-Tech­nolo­gien und ‑Anwen­dun­gen 3., vollst. über­arb. Auflage, 2006, S. 276.

[20] Residuen: Dif­ferenz zwis­chen ein­er Regres­sion­s­ger­aden und den Mess­werten, vgl. Käh­ler, W.-M., 2011, S. 139.

[21] Zitiert aus Sachs, L., Hed­derich, J., Ange­wandte Sta­tis­tik – Meth­o­d­en­samm­lung mit R, 12., voll­ständig neu bear­beit­ete Auflage, Springer-Ver­lag, Berlin, Hei­del­berg, 2006, S. 344.

[22] Vgl. o.A., Uni Göt­tin­gen, Kapi­tel 3: Erste Schritte der Date­n­analyse, Göt­tin­gen, o. J., S. 23.

[23] Zitiert aus Run­k­ler, T. A., Data Min­ing – Mod­elle und Algo­rith­men intel­li­gen­ter Date­n­analyse, 2., aktu­al­isierte Auflage, Springer Fachme­di­en, Wies­baden, 2015, S. 59.