Überblick
Im Rank-by-Feature Framework werden die 1- bzw. 2-dimensionalen Projektionen multidimensionale Datensätze nach verschiedenen Kriterien (Feature) geordnet (Rank). Diese Ordnung wird mittels Farbcodierung wiedergegeben, was es dem User ermöglicht, sehr intuitiv Zusammenhänge zwischen Dimensionen (2D) bzw. Eigenschaften einer Dimension (1D) zu erkennen.
Einige Kriterien:
Normalität (1D)
Der Anderson-Darling Test gibt an, wie stark die aktuelle Variable einer Standardnormalverteilung entspricht. Für viele statistische Tests ist diese Information sehr wertvoll (anova, t-test,...).
Dieses Kriterium haben wir in unsaere Implementierung aufgenommen.
Ausreisser (1D)
Ausreisser können durch Messfehler oder Störsignale verursacht werden (dann gilt es sie zu entfernen) oder es handelt sich um "echte" Ausreisser, denen besondere Beachtung zusteht.
Korrelationskoeffizient (2D)
Der Pearson-Korrelationskoeffizient gibt Auskunft über die lineare Abhängigkeit zweier Variablen. Der Wertebereich reicht von -1 (starke negative Korrelation) über 0 (keine Abhängigkeit) bis 1(starke positive Korrelation).
Auch dieses Kriterium haben wir in unserem Programm implementiert.
Weitere mögliche Kriterien sind in Kapitel 3 des Papers A Rank-by-Feature Framework nachzulesen.
|