Adatelemzés: lineáris és nem lineáris regresszió egy modellen bemutatva

Tartalomjegyzék

1 Általános statisztikai jellemzők
2 Modellek illesztése

Általános statisztikai jellemzők

(Átlag szórás, kovariancia...)

Modellek illesztése

Lineáris regresszió

A most leírt modell tulajdonságai a következők:

prediktor változó: x
az y-ok függetlenek
adott x-re kapott y-ok normál eloszlásúak olyan átlaggal, ami az x lineáris függvényeként kapható meg

Feladat: adott x-re y-t megmondani. A straight line regression model (egyenes vonal illesztő modell) alakja a köv:

$y = \alpha + \beta \cdot x + \epsilon$ , vagy indexesen $(x_1, y_1), (x_2, y_2) \ldots: y_i = \alpha + \beta \cdot x_i + \epsilon_i$

A normál analízis során azt feltételezzük, hogy epsilon_i-k független és azonosan 0 átlagú és szigma^2 szórású normál eloszlást követő változók. Az alfa+beta*x a determinisztikus rész, az epsilon_i a random zaj. Az előbbi érdekel minket.

Az illesztés során a legkisebb négyzetek módszerét használhatjuk.

Legkisebb négyzetek módszere

Tegyük fel, hogy $(x_i, y_i), i = 1 \ldots N$ mérési adatokra akarunk függvényt illeszteni, melynek paraméterei $a_j, j = 1 \ldots M$ , azaz

$y(x) = x(x;a_1,a_2,\ldots,a_m)$

A legkisebb négyzetek módszere a következő módon keresi a paramétereket:

${min}_{a_1 \ldots a_m}\left( \sum_{i=1}^N [y_i - y(x_i;a_1,\ldots,a_m)]^2 \right)$

Ez azért jó, mert megadja a paraméterek legvalószínűbb halmazát. Természetesen lehetne más költségfüggvényt is használni. Pontosabban arra a kérdésre ad választ, hogy mely paramétervektor esetén a maximális a valószínűsége annak, hogy az adott mérési eredményeket kapjuk. Ez a maximális valószínűségű paraméterbecslés.

Ha csak az $y_i$ adatok mérési hibáját vesszük figyelembe és az a hiba Gauss eloszlású, valamint a hiba eloszlásának szórása azonos mindegyik mérési pontban (ha ezek nem teljesülnek, akkor a módszer nem a legnagyobb valószínűséghez tartozó paramétereket adja), akkor a fenti valószínűség átírható így: