Der Großteil der Funktionalität des Programms kann über das Menü angesteuert werden. Über das
Menü "File" können Daten in Form von CSV-Dateien geladen, Bilder der aktuellen Visualisierung exportiert
und selektierte Daten ins CSV-Format exportiert werden.
Im Menü "Applications" können der linked 2D Scatterplot und die Outlier Detection aufgerufen werden.
Im Menü "View" können die Fenster für das Steuern der Farbgebung und der Achsenansicht geöffnet werden. Über
das Menü "Tools" können die Fenster für die statistischen Funktionen (Clustering, PCA, Distanzen) aufgerufen
werden.
Farbgebung
Im Panel "Color types" kann ausgewählt werden, ob die Datenpunkte gemäß einer Selektion oder gemäß der
Werte einer Dimension eingefärbt werden sollen.
Wird gemäß einer Selektion gefärbt, so kann man Farben für selektierte und nicht selektierte Datenpunkte
festlegen, in dem man mit der rechten Maustaste auf die dafür vorgesehenen Farbrechtecke klickt. Für
Datenpunkte, die Selektionswerte zwischen 0 und 1 haben, kann ein Farbverlauf definiert werden. "Linear
transition" legt dabei einen Farbverlauf zwischen der Farbe für selektierte Datenpunkte und jene für nicht
selektierte Datenpunkte fest. Bei "Advanced transition" können an jeder Stelle mittels Doppelklick
Farbpunkte eingefügt werden. Mit erneutem Doppelklick können diese wieder gelöscht werden und mit einem
rechten Mausklick kann die Farbe verändert werden. Diese Farbpunkte können auch verschoben werden.
Wird gemäß der Werte einer Dimension gefärbt, so kann zunächst festgelegt werden, nach welcher Dimension
gefärbt werden soll. Ansonsten sind alle Einstellungen analog zur Färbung nach Selektion vorzunehmen.
Anstatt der Farbe von selektierten und nicht selektierten Datenpunkten kann nun die Farbe für Datenpunkte mit
maximalen und minimalen Wert in der spezifizierten Dimension festgelegt werden. Der Farbverlauf für die Werte
dazwischen wird wieder analog festgelegt.
Achsenansicht
Zunächst können allgemeine Achseneinstellungen festgelegt werden (Anzeige von Dimensionsnamen und deren minimalen
bzw. maximalen Wert).
Im Panel "Axes specific properties" können die gewünschten Achsen selektiert für diese festgelegt werden, ob
sie sichtbar oder geflippt sein sollen. Weiters können die selektierten Achsen mit dem Button
"Move selected axis up" in der Ansicht vorgereiht und mit "Move selected axis down" in der Ansicht nach hinten
verschoben werden. Der Button "Show all axes" setzt alle Achsen auf sichtbar.
Clustering
Im Panel "Algorithm properties" kann eingestellt werden wie viele Cluster erzeugt werden sollen, wie
viele Iterationen der Algorithmus maximal laufen soll und ab welcher Update Schranke der Clusterzentren der
Algorithmus terminieren soll. (Letzteres Maß wird in Prozent vom Range der Daten angegeben.)
Beim "Dimension weighting" werden jene Dimensionen ausgewählt, nach denen geclustert werden soll. Dabei können
den Dimensionen verschiedene Gewichte zwischen 0 und 1 zugewiesen werden, um deren Einfluss auf das Clustering
festzulegen.
Der Button "Cluster" startet den Clusteralgorithmus und fügt die Clustering Ergebnisse zum Datensatz hinzu.
Principal component analysis (PCA)
Im Panel "Type of pca" wird festgelegt ob die PCA auf der klassischen oder einer robusten Schätzung der
Kovarianzmatrix beruht. Wurde die robuste Variante ausgewählt, so kann der User festlegen auf wieviel
Prozent der Daten sich die robuste Schätzung beziehen soll.
Im Panel "PCA parameters" werden die Dimensionen ausgewählt, für welche die PCA durchgeführt werden soll.
Mit einem Auswahlfeld kann festgelegt werden, wieviele Hauptkomponenten abgespeichert werden sollen. Für
die gewählte Anzahl der Hauptkomponenten wird die beschriebene Varianz in Prozent angegeben. Schließlich
kann noch der Name für die neuen Koordinatendimensionen der Datenpunkte, die abgespeichert werden,
festgelegt werden.
Der Button "Add principal components to data" fügt die Koordinatendimensionen zum Datensatz hinzu.
Distances
Dieses Fenster wird analog zu jenem der PCA bedient.
Outlier Detection
Zunächst wird ein Fenster zum berechnen der robusten Distanz geöffnet. Dieses entspricht
jenem der Distances, wobei allerdings keine Auswahl zwischen robuster und Mahalanobis Distanz vorgenommen
werden kann. Anstatt die Distanz nun in den Daten abzuspeichern, wird sie in einem speziellen Scatterplot angezeigt.
Auf der X Achse ist die ID der Einträge im Datensatz aufgetragen. Auf der Y Achse ist die
berechnete robuste Distanz geplottet. Eine Markierung zeigt die Entscheidungsgrenze, die Ausreißer von "normalen"
Datenpunkten trennt an. Durch den Schieberegler auf der linken Seite kann eingestellt werden, wie viele "normale"
Datenpunkte in Prozent im Datensatz erwartet werden. Demnach verändert sich die Grenze die das entsprechende Quantil
der Chi-Quadrat Verteilung mit einem Freiheitsgrad von p entspricht. p repräsentiert die Anzahl der Dimensionen, die
für die Berechnung der robusten Distanz herangezogen wurde.
Durch ein Menü kann man interaktiv auf den Ausreißern oder alternativ auf den "normalen" Daten weiterarbeiten.
|