Adatelemzés: lineáris és nem lineáris regresszió egy modellen bemutatva

Innen: TételWiki
A lap korábbi változatát látod, amilyen Csega (vitalap | szerkesztései) 2011. június 14., 18:18-kor történt szerkesztése után volt. (Általános statisztikai jellemzők)

Általános statisztikai jellemzők

Alapfogalmak:

  • Átlag: ha van N darab adatpontunk (egy X vektorba rendezve), mindegyiket x_i, i = 1\ldots N-vel jelöljük, akkor az átlag: E[X] = \mu = \bar{x} = \frac{1}{N} \sum_{i=1}^N x_i
  • Szórás: ha van N db, \mu átlagú adatpontunk, akkor ezek szórása: \sigma = \sqrt{E\left[ X - \mu \right]^2}
  • Kovariancia: a kovariancia megadja két egymástól különböző változó (X,Y) együttmozgását: Cov(X,Y) = E \left[ \left( X - E[X] \right) \left( Y - E[Y] \right) \right] = E[XY] - E[X]\cdot E[Y]
  • Kovariancia mátrix: egy n adatpontból álló X és egy m adatpontból álló Y véletlen (random) vektor n*m-es kovariancia mátrixa: Cov(X,Y) = E\left[ \left( X - E[X] \right) \left( Y - E[Y] \right)' \right] = E[XY'] - E[X]E[Y]', ahol E[XY'], E[Y]' és E[X] vektorok és általános esetben mindegyik elemük az X és Y vektor eredeti elemének szórása (amennyiben a vektor komponensei különböző szórású valószínűségi változók).
  • Keresztkorreláció: a keresztkorreláció segítségével megvizsgálhatjuk két adatsor hasonlóságát különböző időeltolásokra. Folytonos függvény esetén a definíció: (f \star g)(t)\ \stackrel{\mathrm{def}}{=} \int_{-\infty}^{\infty} f^*(\tau)\ g(t+\tau)\,d\tau, diszkrét adatpontok esetén pedig: (f \star g)[n]\ \stackrel{\mathrm{def}}{=} \sum_{m=-\infty}^{\infty} f^*[m]\ g[n+m]. Két fehér zaj függvény vagy vektor keresztkorrelációs függvénye egy Dirac-delta.
  • Normált kereszt-korreláció:
  • Autokorreláció:

(Átlag szórás, kovariancia...)

Modellek illesztése

Lineáris regresszió

A most leírt modell tulajdonságai a következők:

  • prediktor változó: x
  • az y-ok függetlenek
  • adott x-re kapott y-ok normál eloszlásúak olyan átlaggal, ami az x lineáris függvényeként kapható meg
  • Feladat: adott x-re y-t megmondani. A straight line regression model (egyenes vonal illesztő modell) alakja a köv:

y = \alpha + \beta \cdot x + \epsilon, vagy indexesen (x_1, y_1), (x_2, y_2) \ldots: y_i = \alpha + \beta \cdot x_i + \epsilon_i

A normál analízis során azt feltételezzük, hogy epsilon_i-k független és azonosan 0 átlagú és szigma^2 szórású normál eloszlást követő változók. Az alfa+beta*x a determinisztikus rész, az epsilon_i a random zaj. Az előbbi érdekel minket.

Az illesztés során a legkisebb négyzetek módszerét használhatjuk.

Legkisebb négyzetek módszere

Tegyük fel, hogy (x_i, y_i), i = 1 \ldots N mérési adatokra akarunk függvényt illeszteni, melynek paraméterei a_j, j = 1 \ldots M, azaz

y(x) = x(x;a_1,a_2,\ldots,a_m)

A legkisebb négyzetek módszere a következő módon keresi a paramétereket:

{min}_{a_1 \ldots a_m}\left( \sum_{i=1}^N [y_i - y(x_i;a_1,\ldots,a_m)]^2 \right)

Ez azért jó, mert megadja a paraméterek legvalószínűbb halmazát. Természetesen lehetne más költségfüggvényt is használni, de ez a modell arra a kérdésre ad választ, hogy mely paramétervektor esetén a maximális a valószínűsége annak, hogy az adott mérési eredményeket kapjuk. Ez a maximális valószínűségű paraméterbecslés.

Ha csak az y_i adatok mérési hibáját vesszük figyelembe és az a hiba Gauss eloszlású, valamint a hiba eloszlásának szórása azonos mindegyik mérési pontban (ha ezek nem teljesülnek, akkor a módszer nem a legnagyobb valószínűséghez tartozó paramétereket adja), akkor a fenti valószínűség átírható így:

P \propto \prod_{i=1}^N \left\{ exp \left[ -\frac{1}{2} \left( \frac{y_i - y(x_i)}{\sigma} \right)^2 \right] \Delta y \right\}

Ennek keressük a maximumát (vagy ha vesszük a negatív logaritmuást, akkor a minimumát):

-log(P) = \left[ \sum_{i=1}^N \frac{[y_i - y(x_i)]^2}{\sigma} \right] - N log(\Delta y)

Mivel N, \sigma és \Delta y állandók, ez pont a legkisebb négyzetek módszerét adja és P értéke megmondja, hogy mennyire jó az illesztés.

A Khí-négyzet módszer

Ha a mérési pontok hibájának szórása nem egyforma (de továbbra is normál eloszlást követnek), akkor a legkisebb négyzetek módszerét könnyen általánosíthatjuk. Ez a Khí-négyzet illesztés, amelynek költségfüggvénye a következő:

\chi^2 = \sum_{i=1}^N \left( \frac{y_i - y(x_i;a_1, \ldots a_M}{\sigma_i} \right)^2

Tekinthetjük úgy, hogy a \sigma_i szórásokkal súlyozzuk az eltéréseket, vagy másképpen egységnyi szórásúra normálunk minden pontnál.

Mivel a mérési pontokról feltételeztük, hogy normál eloszlást követnek, \chi^2 ilyen véletlen változók négyzetének összege. Az ilyen típusú valószínűségi változók nem Gauss eloszlást, hanem az úgynevezett (N - M) szabadsági fokú Khí-négyzet eloszlást követik. Ha az a_j paraméterek lineárisan szerepelnek akkor ez az eloszlás analitikusan megadható, így megmondható annak valószínűsége (Q), hgoy az adott paraméterekkel jellemzett modellen végzett mérés \chi^2-nél nagyobb eltérést ad. (Q \approx 0,1 tipikus,  Q \approx 0,01 elfogadható,  Q < 0,001 rossz modellre vagy hibabecslésre utal). Fontos, hogy a mérési hibák becslése jó legyen, különben megtévesztő eredményre juthatunk.

Annak feltétele, hogy a \chi^2-nek minimuma van az, hogy az a_j paraméterek szerinti deriváltja 0 legyen.

0 = \frac{\partial \chi^2}{\partial a_j} = \sum_{i=1}^N \left( \frac{y_i - y(x_i)}{\sigma_i^2} \right) \left( \frac{\partial y(x_i;a_1 \ldots a_M}{\partial a_k} \right) j = 1 \ldots M

Ez általában M nemlináris egyenletből álló rendszerre vezet, de ha az a_j paraméterek lineárisan szerepelnek az y(x; a_1 \ldots a_M) kifejezésben, akkor az egyenletek is lineárisak lesznek.

Példa: egyenes illesztés

Legegyszerűbb példa a lineáris regresszióra az egyenesillesztés.

y(x) = y(x;a,b) = a + bx

A költségfüggvényünk most:

\chi^2(a,b) = \sum_{i=1}^N \left( \frac{y_i - a - bx_i}{\sigma_i} \right)^2

A minimumban a deriváltak eltűnnek:

0 = \frac{\partial \chi^2}{\partial a} = -2\sum_{i=1}^N \frac{y_i - a - bx_i}{\sigma_i^2}

0 = \frac{\partial \chi^2}{\partial b} = -2\sum_{i=1}^N \frac{x_i(y_i - a - bx_i)}{\sigma_i^2}

A fenti kifejezésekben a szummákat szétbonthatjuk az alábbi jelölések segítségével:

S \equiv \sum_{i=1}^N \frac{1}{\sigma_i^2} S_x \equiv \sum_{i=1}^N \frac{x_i}{\sigma_i^2} S_y \equiv \sum_{i=1}^N \frac{y_i}{\sigma_i^2} S_{xx} \equiv \sum_{i=1}^N \frac{x_i^2}{\sigma_i^2} S_{xy} \equiv \sum_{i=1}^N \frac{x_iy_i}{\sigma_i^2}

Így a minimum feltétele a következő:

aS + bS_x = S_y

aS_x + bS_{xx} = S_{xy}

Az egyenletrendszer megoldása pedig:

\Delta \equiv SS_{xx} - S_x^2

a = \frac{S_{xx}S_y - S_xS_{xy}}{\Delta}

b = \frac{SS_{xy}-S_xS_y}{\Delta}

A hibaterjedés törvényét figyelembe véve a teljes szórás:

\sigma_f^2 = \sum_{i=1}^N \sigma_i^2 \left( \frac{\partial f}{\partial y_i} \right)^2

Amibe a-t és b-t behelyettesítve:

\sigma_a^2 = \frac{S_{xx}}{\Delta}

\sigma_b^2 = \frac{S}{\Delta}

Ezek a hibák természetesen csak a mérési hibák hatását fejezik ki, ettől a pontok szórhatnak messze az egyenestől. Az illesztés jóságát az (N-2) szabadsági fokú khí-négyzet eloszlás adja meg a \chi^2 helyen.

Ha a mérés hibája nem ismert, akkor a fenti képletek a \sigma_i = 1 behelyettesítéssel használhatók (úgy tekintjük, hogy mindegyik pont hibája megegyezik).

Nem-lineáris regresszió

MSc záróvizsga tételek
Tételek Soktest rendszerek | Transzportfolyamatok | Véletlen gráfok generálása, tulajdonságai | Elsőrendű és folytonos fázisátalakulások | Válasz- és korrelációs függvények, fluktuáció-disszipáció tétel | Sztochasztikus folyamatok | A statisztikus fizikai szimulációk alapjai és a Monte Carlo módszer | Dinamikai rendszerek, kaotikus viselkedés | Adatelemzés: lineáris és nem lineáris regresszió egy modellen bemutatva | Adatelemzés: bootstrap modellek | TCP hálózat működése | Adatelemzés: ARCH, GARCH folyamatok | Numerikus módszerek | Vizualizációs módszerek