Regresja liniowa

Artykuł dotyczy regresji liniowej, która jest metodą statystyki matematycznej leżącą u podstaw wielu algorytmów inteligencji obliczeniowej. Przeznaczony jest dla osób początkujących, które nie mają jeszcze większego doświadczenia z inteligencją obliczeniową.

Regresja liniowa

Regresja liniowa to metoda statystyki matematycznej, która leży u podstaw wielu algorytmów inteligencji obliczeniowej. Służy do estymowania wartości oczekiwanej analizowanej zmiennej losowej na podstawie zaobserwowanych wartości innych zmiennych losowych.

Formalnie: Niech \(Y\) będzie rozpatrywaną zmienną losową, a \(X_1, X_2, \ldots, X_n\) będą obserwowanymi zmiennymi losowymi, gdzie \(n\) oznacza liczbę obserwowanych zmiennych losowych.

Regresja liniowa jest liczona na podstawie próbki danych zawierającej zgromadzone obserwacje, czyli wartości obserwowanych zmiennych losowych. Każda obserwacja jest wektorem \(n\) liczb, oznaczanym przez \(\mathbf{x}=(x_1,x_2,\ldots,x_n)\in\mathbb{R}^n\), gdzie \(x_i\) oznacza wartość obserwowanej zmiennej losowej \(X_i\), dla \(i=1,2,\ldots,n\).

Zagadnienie regresji liniowej polega na przedstawieniu zmiennej losowej \(Y\) jako kombinacji liniowej obserwowanych zmiennych losowych \(X_1, X_2, \ldots, X_n\) w sposób minimalizujący błąd średniokwadratowy. Sprowadza się to do wyznaczenia współczynników liniowych \(\alpha_1, \alpha_2, \ldots, \alpha_n \in \mathbb{R}\), które definiują kombinację liniową \(\hat{Y} = \alpha_1 \cdot X_1 + \alpha_2 \cdot X_2 + \ldots \alpha_n \cdot X_n\) jak najlepiej przybliżającą zmienną losową \(Y\), to znaczy minimalizującą błąd średniokwadratowy \(\mbox{MSE} = Y – \hat{Y}\).

Prosta regresji liniowej

W przypadku jednowymiarowej regresji liniowej, kiedy zmienna losowa \(Y\) jest estymowana na podstawie wartości tylko jednej zmiennej losowej \(X\), zagadnienie regresji liniowej sprowadza się do wyznaczenia prostej regresji.

Ilustracja regresji liniowej

Rozpatrujemy zagadnienie regresji liniowej dotyczącej estymowania wartości zmiennej losowej \(Y\) na podstawie wartości zmiennej losowej \(X\). Prostą regresji wylicza się na podstawie zgromadzonej próbki danych zawierającej wartości \(x_i\) wraz z odpowiadającymi im wartościami \(y_i\) dla \(i=1,2,\ldots,n\). Poniższy rysunek przedstawia zgromadzone dane. Na osi odciętych OX zaznaczono wartości \(x_i\), a na osi rzędnych OY wartości \(y_i\).

regresja liniowa - dane wejściowe

Stosując metodę regresji liniowej można wyznaczyć równanie prostej minimalizującej błąd średniokwadratowy. Poniższy rysunek przedstawia prostą regresji wyznaczoną na podstawie zgromadzonych danych.

regresja liniowa - prosta regresji

Praktyczne przykłady regresji liniowej

Regresja liniowa stosowana jest w wielu problemach praktycznych. Dotyczą one zazwyczaj określenia zależności między obserwowanymi wartościami pewnych zmiennych losowych, a wartością analizowanej zmiennej losowej.

Praktyczny przykład zastosowania regresji liniowej może dotyczyć analizy wartości samochodu (określonej marki i określonego modelu) w zależności od jego wieku. Zmienną objaśnianą \(Y\) jest wartość pojazdu, a zmienną objaśniającą \(X\) jest wiek pojazdu. Zbiór danych użyty do wyznaczenia prostej regresji może pochodzić z ogłoszeń motoryzacyjnych – powinien składać się z par (wiek, wartość), które odpowiadają zaobserwowanym wartościom zmiennych losowych.

Rozszerzenia regresji liniowej

Dla analizy bardziej złożonych zbiorów danych metoda regresji liniowej jest często niewystarczająca, ale mogą być stosowane jej rozszerzenia, takie jak regresja nieliniowa. Pojęcie regresji nieliniowej obejmuje wiele metod, począwszy od regresji logarytmicznej, a skończywszy na regresji opartej na maszynach wektorów nośnych (ang. Support Vector Regression, SVR). Regresja liniowa jest też podstawą uogólnionego modelu liniowego (ang. Generalized Linear Model, GLM), który to w prostej linii prowadzi do sieci neuronowych, będących jedną z podstawowych metod inteligencji obliczeniowej.

W kolejnych artykułach przedstawię bardziej złożone modele regresji, zwłaszcza regresji nieliniowej, takie jak regresja logarytmiczna i regresja oparta na maszynach wektorów nośnych (ang. Support Vector Regression, SVR).