zurück |
Source Code: aufg_12.m |
1. EinleitungGegeben seien zwei Zufallsvariablen X1, X2 mit Var(X1)=2 und Var(X2)=7. Berechnen Sie die Kovarianzmatrizen für die Korrelationen rho1=0.1, rho2=0.5, rho3=0.9 und rho4=1. Diagonalisieren Sie die Kovarianzmatrizen (Matlab: eig). Berechnen Sie jeweils die Spur (Summe der Diagonalelemente bzw. der Eigenwerte) der resultierenden Diagonalmatrizen und vergleichen Sie diese mit der Spur der Originalmatrix.Welcher Zusammenhang besteht zwischen der Korrelation und
2. LösungswegDer Korrelationskoeffizient ist ein skalierungsunabhängiges Maß für den linearen Zusammenhang zwischen Zufallsvariablen und wird folgendermaßen berechnet (vgl. Gleichung 134 auf Folie 124 im SME-Skriptum):![]() Daraus ergibt sich Formel 137 (Folie 125 im SME-Skriptum), mit der die Kovarianz berechnet werden kann. ![]() Die Kovarianzmatrix ist hier eine 2x2 Matrix. Man erhät sie, indem man die Varianzen Var(X1) und Var(X2) in die Hauptdiagonale einträgt und die nach obiger Formel berechneten Kovarianz (Zeile 33-36 im Matlab Skript) an die übrigen Positionen setzt (Symmetrie). Man erhält vier Matrizen (COV1, COV2, COV3, COV4) zu den jeweiligen Korrelationskoeffizienten. Mit Hilfe des Matlab-Befehls eig werden danach die Eigenvektoren und die Eigenwerte berechnet (Zeile 47-50 im Matlab Skript). Die Spur ergibt sich als Summe der Diagonalelemente und wird elementweise berechnet. 3. Ergebnisse und Resumeé3.1 Zusammenhang: Korreleation und Eigenwerte der KovarianzmatrixDie erhaltenen Eigenwerte der Kovarianzmatrizen sowie die Werte für die Spur der erhaltenen Diagonalmatrizen sind in untenstehender Tabelle zusammengefasst:
Die Spur der Kovarianzmatrix beträgt als Summe der Varianzen Var(X1)=2 und Var(X2)=7 ebenfalls 9. Das heisst, dass die Spur der ursprünglichen Kovarianzmatrizen COV1-4 gleich der Spur der Kovarianzmatrizen der diagonalisierten Verteilung ist, die man durch die EVD erhält. Eine bivariate Normalverteilung mit Kovaranzmatrix COV hat eine elliptische Form, wobei die Hauptachse in Richtung der größten Varianz liegt (Folie 127 im SME-Skriptum). Die Eigenwerte der Kovarianzmatrix entsprechen den Varianzen der Projektion auf die korrespondierenden Eigenvektoren (Folie 159 im SME-Skriptum). Je höher der Korrelationskoeffizient ist, desto größer ist der lineare Zusammenhang zwischen den Variablen. Aus der obigen Tabelle ist die Auswirkung auf die Eigenwerte klar ersichtlich. Bei einem Korrelationskoeffizient von 1, also einem perfekten linearen Zusammenhang, verschwindet der kleinere Eigenwert und die Ellipse degeniert zu einer Geraden. Diesen Zusammenhang verdeutlicht auch Abbildung 1: ![]() Abbildung 1: Perfekter linearer Zusammenhang bewirkt, dass ein Eigenwert 0 wird 3.2 Zusammenhang: Korrelation und Orientierung der EigenvektorenMit dem Matlab-Befehl mvnrnd(...) wurden zu den Kovarianzmatrizen jeweils 30 Samples erzeugt. Danach wurden noch die Eigenvektoren eingezeichnet, skaliert mit der Wurzel der zugehörigen Eigenwerte, um die Varianz der Daten stärker zum Ausdruck zu bringen. Zusätzlich wurden noch 30 Samples erzeugt für jede der Z-standardisierten Kovarianzmatrizen. Diese wurden aus den Varianzen Var(X1) = Var(X2) = 1 und den Kovarianzen Cov(X1,X2) = Corr(X1,X2) gebildet - in dem speziellen Fall der Z-Standardisierten Zufallsvariablen ist die Kovarianz gleich der Korrelation. Abbildungen 2 und 3 veranschaulichen das Ergebnis:![]() ![]() ![]() ![]() Abbildung 2: Var(X1)=2, Var(X2)=7; a: rho1=0.1; b: rho2=0.5; c: rho3=0.9; d: rho4=1; Durch den sehr geringen linearen Zusammenhang in 2a koinzidieren die Eigenvektoren beinahe mit den Koordinatenachsen (Dieser Fall tritt ein, wenn der Korrelationskoeffizient rho = 0 ist). Eine bivariate Normalverteilung weist allgemein eine elliptische Form auf und deren Hauptachsen werden durch die Eigenvektoren beschrieben. Der Eigenvektor zum größten Eigenwert (in der Abbildung rot eingezeichnet) liegt in Richtung der größten Varianz der diagonalisierten Verteilung, die durch die Eigenwerte bestimmt ist. Die Länge der Eigenvektoren wurde deshalb mit der Wurzel aus den korrespondierenden Eigenwerten skaliert, um diesen Zusammenhang zu verdeutlichen. Je stärker der lineare Zusammenhang von X1 und X2 wird, desto weiter werden die Eigenvektoren von den Koordinatenachsen weggedreht und der Eigenvektor zum größten Eigenwert verlängert sich durch die Skalierung mit dem größeren Eigenwert. Dabei wird die Drehung gegen den Uhrzeigersinn vollzogen, wenn der Korrelationskoeffizient positiv ist, ansonsten wird im Uhrzeigersinn gedreht. Hingegen zeigt der Eigenvektor zum kleineren Eigenwert orthogonal zur Hauptachsenrichtung in Richtung der kleineren Varianz und verringert sich bei perfektem linearen Zusammenhang durch die Skalierung mit der Wurzel aus dem Eigenwert (Abbildung 2d) zu 0 hin. Nachfolgend werden die Untersuchungen noch für dieselben Korrelationen jedoch mit Z-standardisierten Variablen durchgeführt. ![]() ![]() ![]() ![]() Abbildung 3: Z-standardisierte Variablen; a: rho1=0.1; b: rho2=0.5; c: rho3=0.9; d: rho4=1; Deutlich zu sehen ist hier, dass die Eigenvektoren immer auf dem 1. und 2. Median liegen. Einzige Ausnahme ist, wenn die Korrelationskoeffizienz 0 wird. Dann gibt es keine ausgezeichnete Richtung mit größter Varianz mehr. Der Korrelationskoeffizient rho=0 impliziert auch, dass die Kovarianzen 0 werden und weil die Zufallsvariable Z-standardisiert ist (Varianzen 1), ergibt sich als Kovarianzmatrix die Einheitsmatrix. Somit gibt es zwei nicht eindeutige Eigenvektoren mit Eigenwert 1. Dies bedeutet, dass jede beliebige Basis des R^2 eine Lösung ist. So können beispielsweise die Eigenvektoren mit den Koordinatenachsen koinzidieren (Basis {(1,0),(0,1)}), aber auch mit den Medianen (Basis {(1,1),(-1,1)}). Ist der Korrelationskoeffizient größer 0 kommt die Hauptachse der Ellipse - also der größere Eigenvektor - auf dem 1. Median zu liegen, ansonsten auf dem 2. Median. Der zweite Eigenvektor liegt orthogonal zum ersten Eigenvektor, also auf dem 2. Median resp. auf dem 1. Median in Richtung der kleineren Varianz. 3.3 Zusammenhang: Invertierbarkeit der Kovarianzmatrix und KorrelationskoeffizientDie Inverse der Kovarianzmatrix kann durch die Gleichung 174 auf Folie 158 berechnet werden:![]() Somit ist die Kovarianzmatrix invertierbar, genau dann, wenn für alle Eigenwerte lambda_i der Kovarianzmatrix gilt: lambda_i != 0. Ein Eigenwert der Kovarianzmatrix entspricht nun aber genau der Varianz der Projektion auf den zugehörigen Eigenvektor (Folie 159 im SME-Skriptum). Daraus folgt, dass ein Eigenwert nur dann 0 wird, wenn ein perfekter linearer Zusammenhang besteht, was wiederum durch einen Korrelationskoeffizienten von 1 ausgedrückt wird. Die Kovarianzmatrix ist also invertierbar, wenn |rho|!=1, wobei rho der Korrelationskoeffizient ist. In unserem Beispiel kann diese These mit dem Versuch bestätigt werden, die Kovarianzmatrix COV4 (Kovarianzmatrix zum Korrelationskoeffizienten rho4=1) zu invertieren. (Befehl: inv(COV4)) Matlab bricht die Berechnung mit folgenden Meldungen ab. Im ersten Fall mit Varianzen Var(X1)=2 und Var(X2)=7: Warning: Matrix is close to singular or badly scaled. Results may be inaccurate. RCOND = 1.440097e-017. Im Fall der Z-standardisierten Variablen: Warning: Matrix is singular to working precision |
nach oben |