zurück

Aufgabe UE-5

 Source Code: aufg_5.m

1. Einleitung

Ausgehend von zwei Klassen w1 und w2 mit normalverteilten Merkmalen X1~N(4,1) und X2~N(6,1) soll jeweils für die Klassenwahrscheinlichkeiten P(w1)=P(w2)= 0.5 sowie für P(w1)=0.9 und P(w2)=0.1 folgendes durchgeführt werden:
  • Berechnung der Fehlerrate für die Entscheidungsgrenze x*=4
  • Berechnung der Bayes error rate mit grafisch ermittelter Entscheidungsgrenze x_b
  • Plot des bedingten Fehlers P(error|x)

2. Lösungsweg

Der bedingte Fehler P(error|x) ergibt sich nach Bayes Theorem zu



Dieser entspricht also genau der a posteriori Wahrscheinlichkeit der Klasse, für die man sich nicht entscheidet.

Die Fehlerrate P(error) ist dann das Mittel über den bedingten Fehler von x, P(error|x), gewichtet mit der Wahrscheinlichkeit von x, p(x).



Da es sich um ein binäres Klassifikationsproblem handelt, kann die im Skriptum angführte Formel (71) auf Folie 81 verwendet werden, um die Fehlerrate P(error) zu berechnen.



Dabei wird mit Hilfe einer gegbenen Entscheidungsgrenze eine Teilung der X-Werte in zwei Entscheidungsregionen R1 und R2 durchgeführt. Der erste Teil der Formel berechnet die Wahrscheinlichkeit dass ein Wert der Klasse w2 falsch klassifiziert wird, gewichtet mit der Klassenwahrscheinlichkeit von w2. Dazu wird dann die Wahrscheinlichkeit addiert, mit der ein Wert der Klasse w1 in die Entscheigungsregion R2 gesteckt wird, gewichtet mit der Klassenwahrscheinlichkeit von w1.

Für die Bayes error rate muss die Bayes Decision Rule als bedingter Fehler einbezogen werden. Dabei entscheidet man immer für die a posteriori wahrscheinlichere Klasse.



Die Bayes error rate berechnet man wieder nach der Gleichung für P(error), indem man für P(error|x) die Bayes Decision Rule einsetzt und mit der Wahrscheinlichkeit p(x) gewichtet. Der Unterschied zur allgemeinen Fehlerrate besteht darin, dass die Bayes error rate immer die optimale Entscheidungsgrenze verwendet.


3. Ergebnisse und Resumeé

Zuerst wurden die Fehlerrate, Bayes error rate und conditional error für die Klassenwahrscheinlickkeiten P(w1)=P(w2)=0.5 nach den in Abschnitt 2 genannten Formeln berechnet. Die Fehlerrate (Zeile 54-57 im Matlab Skript) beläuft sich dabei für die Entscheidungsgrenze x*=4 auf 0.2614. Das heißt, dass mit einer Wahrscheinlickkeit von 26,14 % ein Merkmal falsch klassifiziert wird. Aus Abbildung 1 sieht man schon, dass x*=4 nicht die optimale Entscheidungsgrenze ist. Die optimale Entscheidungsgrenze liegt nach grafischer Ermittlung durch den Schnittpunkt der a posteriori Wahrscheinlichkeiten bei x_b=5.


Abbildung 1: Dichtefunktionen der Merkmale in den Klassen mit den a Posteriori Wahrscheinlichkeiten und optimaler Entscheidungsgrenze


Der bedingte Fehler (Zeile 43-52 im Matlab Skript)für die Entscheidungsgrenze x*=4 ist erwartungsgemäß recht groß und folgt den a posteriori Wahrscheinlichkeiten aus Abbildung 1. Man kann deutlich sehen, dass zuviele Merkmale aus Klasse 1 in die Entscheidungsregion 2 fallen, trotz höherer a posteriori Wahrscheinlichkeit.Unter Verwendung der Bayes decision rule kann der bedingte Fehler minimiert werden wie in Abbildung 2 ersichtlich ist. Dies impliziert natürlich auch eine Minimierung des mittleren Fehlers, der Bayes error rate, die sich nur mehr auf 15,87 % beläuft (Zeile 63-69 im Matlab Skript). Schön zu sehen ist auch die größere Fehlerrate (Fläche zwischen schwarzer und grüner Funktion


Abbildung 2: bedingter Fehler (schwarz) für x*=4 und unter Verwendung der Bayes Rule für x_b= 5 (grün)


Im zweiten Teil der Übung sollen dieselben Qualitätsmerkmale für dieselben Verteilungen berechnet werden, jedoch mit den Klassenwahrscheinlichkeiten P(w1) = 0.9 und P(w2) = 0.1.

Anhand der Posteriors kann grafisch die optimale Entscheidungsgrenze ermittelt werden. Diese liegt bei x_b=6.1 und ist in Abbildung 3 zusammen mit den Posteriors und den mit den Klassenwahrscheinlichkeiten gewichteten normalverteilten Merkmale dargestellt.


Abbildung 3: Posteriors und die optimale Entscheidungsgrenze x_b


Durch die nun unterschiedlichen Klassenwahrscheinlichkeiten wird die optimale Entscheidungsgrenze in Richtung der a priori weniger wahrscheinlichen Klasse verschoben. So befindet sie sich nun bei x_b=6.1 Abbildung 4 zeigt nun die Auswirkungen auf die Fehlerrate und die Bayes error rate.


Abbildung 4: schwarz: bedingter Fehler für Entscheidungsgrenze x*=4; grün: bedingter Fehler unter Verwendung der Bayes Regel


Bei einer Entscheidungsgrenze von x*=4 wird der bedingte Fehler(Zeile 138-147 im Matlab Skript) noch größer, was sich in einer Fehlerrate(Zeile 149-152 im Matlab Skript) von 0.4523 widerspiegelt.Hingegen wird unter Verwendung der Bayes decision Rule der mittlere Fehler - Bayes error rate (Zeile 160-166 im Matlab Skript) - auf 0.0701 reduziert. Wieder ersichtlich die nun noch größere Fehlerrate (Fläche zwischen bedingten Fehler für Entscheidungsgrenze x*=4 und x_b = 6.1).

Die zuvor präsentierten Ergebnisse für die Fehlerrate bzw. für die Bayes error rate für verschiedene Klassenwahrscheinlichkeiten sind hier noch einmal tabellarisch zusammengefasst:

Fehlerrate für optimale und nicht optimale Entscheidungsgrenzen
Fehlerrate x*=4 x_b
P(w1)=P(w2)=0.5 26,14 % 15,87 %
P(w1)=0.9,P(w2)=0.1 45,23 % 7,01 %


x_b steht dabei für die grafisch ermittelte optimale Entscheidungsgrenze.

 nach oben