Linearna regresija
U statistici, linearna regresija se odnosi na svaki pristup modeliranju relacija između jedne ili više varijabli označene sa Y, te jedne ili više varijabli označene sa X, na način da takav model linearno ovisi o nepoznatim parametrima estimiranih iz podataka. Najčešće se linearna regresija odnosi na model u kojem je uvjetna srednja vrijednost od Y, uz danu vrijednost X, afina funkcija od X.
Mnogo rjeđe, linearna regresija se može odnositi na model u kojem medijan, ili neki drugi kvantil uvjetne distribucije Y za dani X se izražava kao linearna funkcija od X. Kao i svi drugi oblici regresijske analize, linearna regresija se fokusira na razdiobu uvjetne vjerojatnosti od Y za dani X, a ne na razdiobu zajedničke vjerojatnosti od Y i X, što je domena multivarijantne analize (engl. multivariate analysis)
Linerana regresija je bila prvi tip regresijske analize koja je detaljno proučavana i koja se ekstenzivno koristila u praktičnim primjenama. Razlog za ovo je taj što se modeli koji linerano ovise o svojim nepoznatim parametrima lakše modeliraju nego modeli sa nelinearnom ovisnošću o parametrima. Također, statistička svojstva rezultirajućih estimatora se lakše određuju.
Linearna regresija ima mnogo praktičnih primjena. Većina aplikacija linearne regresije pada u jednu od sljedeće dvije široke kategorije:
- Ako je cilj predviđanje ili prognoza, linearna regresija se može koristiti za podešavanje preditivnog modela prema promatranom skupu podataka vrijednosti Y i X. Nakon razvoja ovakvog modela, ako je data vrijednost za X bez pripadajuće vrijednosti Y, podešeni model se može koristiti za predviđanje vrijednosti Y.
- Ako imamo varijablu Y i veći broj varijabli X1, ..., Xp koje mogu biti povezane sa Y, možemo koristiti lineranu regresijsku analizu za kvantificiranje jačine relacije između Y and the Xj, za procjenu koji je Xj uopće vezan za Y, te da bi identificirali koji podskupovi od Xj sadrže redundantne informacije o Y, tako da, kad je jedan od njih poznat, ostali više ne daju korisne informacije.
Linearni regresijski modeli se često podešavaju uz pomoć metode najmanjih kvadrata, iako se mogu koristit i drugi načini, kao što je minimiziranje "nedostatka podešenja" (eng. lack of fit) u nekim drugim normama, ili minimiziranjem penalizirane verzije funkcije gubitaka najmanjih kvadrata, kao kod Tikhonove regularizacije.
Nasuprot tome, pristup metodom najmanjih kvadrata se može iskoristiti za podešavanje neliearnih modela. Prema tome, pojmovi "najmanjih kvadrata" i "linearni model" jesu usko povezani, ali nisu sinonimi.
Uvod
Uz zadani skup podataka [math]\displaystyle{ \{y_i,\, x_{i1}, \ldots, x_{ip}\}_{i=1}^n }[/math] od n statističkih jedinica, model linearne regresije pretpostavlja da se relacija između zavisne varijable [math]\displaystyle{ y_i }[/math] i p-vektora regresora [math]\displaystyle{ x_i }[/math] može aproksimativno uzeti kao linearna. "Aproksimativno" se ovdje odnosi na "smetnje" εi — nepromatranu slučajnu varijablu koja dodaje šum u linearnu relaciju između zavisne varijable i regresora. Stoga, model ima oblik
- [math]\displaystyle{ y_i = \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \varepsilon_i = x'_i\beta + \varepsilon_i, \qquad i = 1, \ldots, n, }[/math]
gdje je [math]\displaystyle{ x_i'\beta }[/math] unutarnji produkt između vektora [math]\displaystyle{ x_i }[/math] i [math]\displaystyle{ \beta }[/math].
Često su ovih n jednadžni složene u vektorski oblik kao
- [math]\displaystyle{ Y = X\beta + \varepsilon, \, }[/math]
gdje je
- [math]\displaystyle{ Y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}, \quad X = \begin{pmatrix} x'_1 \\ x'_2 \\ \vdots \\ x'_n \end{pmatrix} = \begin{pmatrix} x_{11} & \cdots & x_{1p} \\ x_{21} & \cdots & x_{2p} \\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{np} \end{pmatrix}, \quad \beta = \begin{pmatrix} \beta_1 \\ \vdots \\ \beta_p \end{pmatrix}, \quad \varepsilon = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix}. }[/math]
Neke napomene vezane uz terminologiju:
- [math]\displaystyle{ y_i\, }[/math] se naziva regresand, zavisna varijabla, endogena varijabla, variabla odgovora ili mjerena varijabla. Odluka o tome koja se varijabla u skupu podataka modelira kao zavisna varijabla, a koja kao nezavisna može se temeljiti na pretpostavci da je jedna od varijabli posljedica ili pod utjecajem druge varijable.
Reference
- Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
- Charles Darwin. The Variation of Animals and Plants under Domestication. (1869) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
- Draper, N.R. and Smith, H. Applied Regression Analysis Wiley Series in Probability and Statistics (1998)
- Francis Galton. "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263 (1886). (Facsimile at: [1])
- Robert S. Pindyck and Daniel L. Rubinfeld (1998, 4h ed.). Econometric Models and Economic Forecasts,, ch. 1 (Intro, incl. appendices on Σ operators & derivation of parameter est.) & Appendix 4.3 (mult. regression in matrix form).
Vanjske poveznice
- https://web.archive.org/web/20070420165256/http://homepage.mac.com/nshoffner/nsh/CalcBookAll/Chapter%201/1functions.html
- Investment Volatility: A Critique of Standard Beta Estimation and a Simple Way Forward, C.TofallisDownloadable version of paper, subsequently published in the European Journal of Operational Research 2008.
- Scale-adaptive nonparametric regression (with Matlab software).
- In Situ Adaptive Tabulation: Combining many linear regressions to approximate any nonlinear function.
- Earliest Known uses of some of the Words of Mathematics. See: [2] for "error", [3] for "Gauss-Markov theorem", [4] for "method of least squares", and [5] for "regression".
- Perpendicular Regression Of a Line at MathPages
- Online regression by eye (simulation).
- Leverage Effect Interactive simulation to show the effect of outliers on the regression results
- Linear regression as an optimisation problem
- Visual Statistics with Multimedia
- Multiple Regression by Elmer G. Wiens. Online multiple and restricted multiple regression package.
- CAUSEweb.org Many resources for teaching statistics including Linear Regression.
- [6] "Mahler's Guide to Regression"
- Linear Regression - Notes, PPT, Videos, Mathcad, Matlab, Mathematica, Maple at Numerical Methods for STEM undergraduate
- Restricted regression - Lecture in the Department of Statistics, University of Udine