„Adatelemzés: lineáris és nem lineáris regresszió egy modellen bemutatva” változatai közötti eltérés
a (→Legkisebb négyzetek módszere) |
a (→Legkisebb négyzetek módszere) |
||
32. sor: | 32. sor: | ||
:<math>\mathrm{min}_{\alpha, \beta}\left( \sum_{i=1}^N [y_i - \alpha - \beta x_i]^2 \right)</math> | :<math>\mathrm{min}_{\alpha, \beta}\left( \sum_{i=1}^N [y_i - \alpha - \beta x_i]^2 \right)</math> | ||
− | azaz a legkisebb négyzetes eltérést eredményező paraméter értékeket keressük. Legegyszerűbben úgy találhatjuk meg ezt a minimumot, hogy a paraméterek szerint lederiváljuk a költségfüggvényt, és a kapott kifejezést 0-val tesszük egyenlővé: | + | azaz a legkisebb négyzetes eltérést eredményező paraméter értékeket keressük. Legegyszerűbben úgy találhatjuk meg ezt a minimumot, hogy a paraméterek szerint lederiváljuk a költségfüggvényt, és a kapott kifejezést 0-val tesszük egyenlővé, és a kapott egyenletrendszert megoldjuk. Az eredmény: |
:<math>\hat{\beta} = \frac{\sum_i^n ( x_i - \bar{x} )( y_i-\bar{y})}{\sum_i^n ( x_i - \bar{x} )^2} = \frac{\bar{xy} - \bar{x} \bar{y}}{\bar{x^2} - \bar{x}^2}</math> | :<math>\hat{\beta} = \frac{\sum_i^n ( x_i - \bar{x} )( y_i-\bar{y})}{\sum_i^n ( x_i - \bar{x} )^2} = \frac{\bar{xy} - \bar{x} \bar{y}}{\bar{x^2} - \bar{x}^2}</math> | ||
38. sor: | 38. sor: | ||
:<math>\hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}</math> | :<math>\hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}</math> | ||
− | ahol a felülvonás átlagolást jelent az n mérésen, a kalap pedig a módszer által adott becslést az adott paraméterre. Az x és y értékek korrelációját r adja: | + | ahol a felülvonás átlagolást jelent az n mérésen, a kalap pedig a módszer által adott becslést az adott paraméterre. Természetesen a levezetés általánosítható arra az esetre is, ha x több komponensű. Általánosabb költségfüggvényű módszerek is egyszerűen származtathatóak. Az x és y értékek korrelációját r adja: |
− | :<math>\frac{\bar{xy} - n\bar{x} \bar{y}}{(n-1)\sigma_x \sigma_y}</math> | + | :<math>r = \frac{\bar{xy} - n\bar{x} \bar{y}}{(n-1)\sigma_x \sigma_y}</math> |
− | ahol <math>\sigma</math> a minta standard hibája. r értéke 1 ha tökéletes lineáris korreláció van, -1 ha tökéletes antikorreláció. | + | ahol <math>\sigma</math> a minta standard hibája. r értéke 1 ha tökéletes lineáris korreláció van, -1 ha tökéletes antikorreláció. A fit jóságát R^2 adja: |
− | + | :<math>R^2 = 1 - \frac{\sum (y_i - \bar{y})^2}{\sum (y_i - \hat{\alpha} - \hat{beta}x_i}</math> | |
+ | |||
+ | <math>R^2</math>-et 1 ha tökéletesen lineárisak az adatok, általában a 0,95 körüli érték elfogadható fit szokott lenni. | ||
=== A Khí-négyzet módszer === | === A Khí-négyzet módszer === |
A lap 2011. június 15., 12:01-kori változata
Tartalomjegyzék
Általános statisztikai jellemzők
Alapfogalmak:
- Átlag: ha van N darab adatpontunk (egy X vektorba rendezve), mindegyiket -vel jelöljük, akkor az átlag:
- Szórás: ha van N db, átlagú adatpontunk, akkor ezek szórása:
- Kovariancia: a kovariancia megadja két egymástól különböző változó (X,Y) együttmozgását:
- Kovariancia mátrix: egy n adatpontból álló X és egy m adatpontból álló Y véletlen (random) vektor n*m-es kovariancia mátrixa: , ahol , és vektorok és általános esetben mindegyik elemük az X és Y vektor eredeti elemének szórása (amennyiben a vektor komponensei különböző szórású valószínűségi változók).
- Keresztkorreláció: a keresztkorreláció segítségével megvizsgálhatjuk két adatsor hasonlóságát különböző időeltolásokra. Folytonos függvény esetén a definíció: , diszkrét adatpontok esetén pedig: . Két fehér zaj függvény vagy vektor keresztkorrelációs függvénye egy Dirac-delta.
- Normált kereszt-korreláció:
- Autokorreláció:
(Átlag szórás, kovariancia...)
Modellek illesztése
Lineáris regresszió
A most leírt modell tulajdonságai a következők:
- prediktor változó: x
- az y-ok függetlenek
- adott x-re kapott y-ok normál eloszlásúak olyan átlaggal, ami az x lineáris függvényeként kapható meg
- Feladat: adott x-re y-t megmondani. A straight line regression model (egyenes vonal illesztő modell) alakja a köv:
, vagy indexesen
A normál analízis során azt feltételezzük, hogy epsilon_i-k független és azonosan 0 átlagú és szigma^2 szórású normál eloszlást követő változók. Az alfa+beta*x a determinisztikus rész, az epsilon_i a random zaj. Az előbbi érdekel minket.
Az illesztés során a legkisebb négyzetek módszerét használhatjuk.
Legkisebb négyzetek módszere
A legkisebb négyzetek módszere bevezet egy metrikát arra nézve, hogy egy adott becslés az ismertelen paraméterekre mennyire optimális. Ezt a mértéket következő költségfüggvény adja meg:
azaz a legkisebb négyzetes eltérést eredményező paraméter értékeket keressük. Legegyszerűbben úgy találhatjuk meg ezt a minimumot, hogy a paraméterek szerint lederiváljuk a költségfüggvényt, és a kapott kifejezést 0-val tesszük egyenlővé, és a kapott egyenletrendszert megoldjuk. Az eredmény:
ahol a felülvonás átlagolást jelent az n mérésen, a kalap pedig a módszer által adott becslést az adott paraméterre. Természetesen a levezetés általánosítható arra az esetre is, ha x több komponensű. Általánosabb költségfüggvényű módszerek is egyszerűen származtathatóak. Az x és y értékek korrelációját r adja:
ahol a minta standard hibája. r értéke 1 ha tökéletes lineáris korreláció van, -1 ha tökéletes antikorreláció. A fit jóságát R^2 adja:
-et 1 ha tökéletesen lineárisak az adatok, általában a 0,95 körüli érték elfogadható fit szokott lenni.
A Khí-négyzet módszer
Ha a mérési pontok hibájának szórása nem egyforma (de továbbra is normál eloszlást követnek), akkor a legkisebb négyzetek módszerét könnyen általánosíthatjuk. Ez a Khí-négyzet illesztés, amelynek költségfüggvénye a következő:
Tekinthetjük úgy, hogy a szórásokkal súlyozzuk az eltéréseket, vagy másképpen egységnyi szórásúra normálunk minden pontnál.
Mivel a mérési pontokról feltételeztük, hogy normál eloszlást követnek, ilyen véletlen változók négyzetének összege. Az ilyen típusú valószínűségi változók nem Gauss eloszlást, hanem az úgynevezett (N - M) szabadsági fokú Khí-négyzet eloszlást követik. Ha az paraméterek lineárisan szerepelnek akkor ez az eloszlás analitikusan megadható, így megmondható annak valószínűsége (Q), hgoy az adott paraméterekkel jellemzett modellen végzett mérés -nél nagyobb eltérést ad. ( tipikus, elfogadható, rossz modellre vagy hibabecslésre utal). Fontos, hogy a mérési hibák becslése jó legyen, különben megtévesztő eredményre juthatunk.
Annak feltétele, hogy a -nek minimuma van az, hogy az paraméterek szerinti deriváltja 0 legyen.
Ez általában M nemlináris egyenletből álló rendszerre vezet, de ha az paraméterek lineárisan szerepelnek az y(x; a_1 \ldots a_M) kifejezésben, akkor az egyenletek is lineárisak lesznek.
Példa: egyenes illesztés
Legegyszerűbb példa a lineáris regresszióra az egyenesillesztés.
A költségfüggvényünk most:
A minimumban a deriváltak eltűnnek:
A fenti kifejezésekben a szummákat szétbonthatjuk az alábbi jelölések segítségével:
Így a minimum feltétele a következő:
Az egyenletrendszer megoldása pedig:
A hibaterjedés törvényét figyelembe véve a teljes szórás:
Amibe a-t és b-t behelyettesítve:
Ezek a hibák természetesen csak a mérési hibák hatását fejezik ki, ettől a pontok szórhatnak messze az egyenestől. Az illesztés jóságát az (N-2) szabadsági fokú khí-négyzet eloszlás adja meg a helyen.
Ha a mérés hibája nem ismert, akkor a fenti képletek a behelyettesítéssel használhatók (úgy tekintjük, hogy mindegyik pont hibája megegyezik).
Maximum Likelihood
A maximum likelyhood a legvalószínűbb becslést adja egy tetszőleges eloszlás paramétereire. Ha megfigyelésünk van, és egy modellt szeretnénk fittelni, akkor a legjob