Module und Plug-ins > 2manage > SimClient > Data Mining und Visual Analytics

Inputdaten

Bei der Data-Mining-Methode des Klassifikationsbaums teilen sich die Eingabedaten in zwei Gruppen auf. Als erstes die Cluster-ID, welche die Clusterzuordnung des Clustering ist.

Weitere Eingaben werden hier nicht benötigt. Die zweite Kategorie sind die Faktorgrößen, welche zur Erklärung der Clusterzuordnung verwendet werden sollen. In Abbildung 1 ist das Eingabefeld beispielhaft dargestellt.

klassifikationsbaum_beispieleingabe

Abbildung 1 - Beispieleingabe Klassifikationsbaum

Parametrisierung

Als Parameter stehen dem Klassifikationsbaum die Maximale-Tiefe und die Minimale-Blatt-Größe zur Verfügung.

Bei der Maximalen-Tiefe handelt es sich um den Parameter, der angibt wie viele Ebenen der Klassifikationsbaum hat bzw. welche Tiefe.

Die Minimale-Blatt-Größe gibt an wie viele Experimente einer Entscheidungsregel minimal zugeordnet werden müssten, damit die Einteilung vorgenommen wird.

In Abbildung 2 ist eine beispielhafte Parametrisierung für einen Klassifikationsbaum mit einer maximalen Tiefe von 5 und einer minimalen Blattgröße von 50 abgebildet.

klassifikationsbaum_parameter

Abbildung 2 - Parametrisierung Klassifikationsbaum

Interpretationsbeispiel

Der Klassifikationsbaum ist ein Verfahren zur Regelextraktion für Realszenarien.

Durch ihn können nach der Identifikation des Clusters mit der gewünschten Performanz Regeln identifiziert werden, welche in dem Realweltszenario zu diesem Ergebnis führen.

Oder im Falle eines schlechten Clusters, welche Parametereinstellungen in dem System vermieden werden sollten.

In dem Beispiel in Abbildung 3 (Ausschnitt des Klassifikationsbaums) gehen wir davon aus, dass Cluster 1 durch vorherige Analysen als sehr gut in Bezug auf die Performanz eingestuft wurde.

Durch den Klassifikationsbaum ist es möglich Regeln abzuleiten, welche in dem Realszenario zu dieser Performanz führen. Dafür wird das „Blatt“ gesucht, welches einen Großteil der Experimente des Clusters 1 enthält.

Von diesem Blatt aus kann die Regel nun abgeleitet werden, indem wir dem roten Pfad bis zu dem letzten Blatt folgen.

Daraus ergeben sich folgende Einstellungen für das Szenario, wenn die Performanz des Cluster 1 erreicht werden soll:

Parameter	Wert
Anteil_Modell_B_an_gesamter_Produktion	<29.5%
Produktionsvolumen_insgesamt	>37.5 Einheiten pro Stunde
Anteil_Modell_A_an_gesamter_Produktion	<28.5%

klassifikationsbaum_baum

Abbildung 3 - Klassifikationsbaum

Abbildung 4 stellt einen kompletten Klassifikationsbaum mit der Tiefe von 5 dar. Dadurch wird deutlich, welche Größe die Klassifikationsbäume annehmen können.

Aber auch die Möglichkeiten verschiedene Regeln für unterschiedliche Szenarien abzuleiten sind dadurch vielfältig.

klassifikationsbaum_baum_komplett

Abbildung 4 - Kompletter Klassifikationsbaum