Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.
Model regresji liniowej
Niech dany będzie zbiór danych zaobserwowanych Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną a wektorem regresorów Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) który jest zmienną losową. Dokładniej, model ten jest postaci
Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) mimo znacząco różnego charakteru danych.
Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].
Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].
Poniższa tabela – oparta na pracy Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a to wyraz błędu.
Klasyczne testy statystyczne jako szczególne przypadki regresji liniowej
Nazwa zwyczajowa
Równoważny model liniowy
Opis słowny
test t Studenta dla jednej próby
Czy średnia (lub mediana) obserwacji jest ich dobrym predyktorem?
test Wilcoxona dla jednej próby
test t Studenta dla par obserwacji
Czy średnia (lub mediana) różnic obserwacji jest ich dobrym predyktorem?
Czy średnie grup oraz ich liniowy model są dobrym predyktorem obserwacji (lub ich rang)?
dwuczynnikowa ANOVA
Czy średnie grup oraz ich iloczynów są dobrym predyktorem obserwacji?
Przypisy
↑W.J.W.J.ConoverW.J.W.J., Ronald L.R.L.ImanRonald L.R.L., Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI: 10.2307/2683975, ISSN0003-1305, JSTOR: 2683975 [dostęp 2019-03-29].
↑5: Fitting models to data, [w:] Russell A.R.A.PoldrackRussell A.R.A., Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29] [zarchiwizowane z adresu 2019-03-29]. Brak numerów stron w książce
↑William W.W.W.RozeboomWilliam W.W.W., Good Science Is Abductive, not Hypothetico-Deductive, [w:] Lisa L.L.L.Harlow, Stanley A.S.A.Mulaik, James H.J.H.Steiger (red.), What If There Were No Significance Tests?, 1997. Brak numerów stron w książce