Lineare Regression

Lineare Regression ist eine statistische Methode, die verwendet wird, um die Beziehung zwischen zwei oder mehr Variablen zu untersuchen. Im einfachsten Fall, der sogenannten einfachen linearen Regression, haben wir zwei Variablen: eine unabhängige Variable und eine abhängige Variable .

Die lineare Regression versucht dann, eine Gerade zu finden (daher der Name "linear"), die am besten zu den gegebenen Datenpunkten passt. Diese Gerade wird auch als Regressionsgerade bezeichnet und hat die allgemeine Form:

wobei die Steigung der Geraden und der y-Achsenabschnitt ist. Diese beiden Werte werden so gewählt, dass sie den quadratischen Fehler zwischen den tatsächlichen y-Werten der Datenpunkte und den durch die Gleichung vorhergesagten y-Werten minimieren.

In der Praxis haben wir oft mehr als eine unabhängige Variable, was zu einem Modell der multiplen linearen Regression führt. In diesem Fall wird die Gleichung zu:

wobei die Gewichte oder Koeffizienten sind, die den Einfluss jeder unabhängigen Variable auf die abhängige Variable darstellen.

Um diese Koeffizienten zu finden, können wir die Normalengleichung verwenden, eine Formel, die auf der Methode der kleinsten Quadrate basiert. Die Normalengleichung lautet:

wobei ein Vektor der Koeffizienten ist, ist die Matrix der unabhängigen Variablen und ist der Vektor der abhängigen Variablen.

Um zu lösen, multiplizieren wir beide Seiten mit :

Dies gibt uns den Vektor , der die Koeffizienten enthält, die den kleinsten quadratischen Fehler zwischen den tatsächlichen und den vorhergesagten Werten von ergeben.

Nehmen wir zum Beispiel an, wir haben folgende Datenpunkte für und : . Wir können diese in eine Matrixform umwandeln:

Durch Einsetzen in unsere Normalengleichung erhalten wir unsere Koeffizienten für das beste lineare Modell für diese Daten. In diesem Fall wäre es eine Gerade mit einer Steigung von 1 und einem y-Achsenabschnitt von 1.