„Adatelemzés: lineáris és nem lineáris regresszió egy modellen bemutatva” változatai közötti eltérés
(→Példa: egyenes illesztés) |
(→Példa: egyenes illesztés) |
||
72. sor: | 72. sor: | ||
A fenti kifejezésekben a szummákat szétbonthatjuk az alábbi jelölések segítségével: | A fenti kifejezésekben a szummákat szétbonthatjuk az alábbi jelölések segítségével: | ||
+ | |||
+ | <math>S \equiv \sum_{i=1}^N \frac{1}{\sigma_i^2}</math> <math>S_x \equiv \sum_{i=1}^N \frac{x_i}{\sigma_i^2}</math> <math>S_y \equiv \sum_{i=1}^N \frac{y_i}{\sigma_i^2}</math> <math>S_{xx} \equiv \sum_{i=1}^N \frac{x_i^2}{\sigma_i^2}</math> <math>S_{xy} \equiv \sum_{i=1}^N \frac{x_iy_i}{\sigma_i^2}</math> | ||
+ | |||
+ | Így a minimum feltétele a következő: | ||
+ | |||
+ | <math>aS + bS_x = S_y</math> | ||
+ | |||
+ | <math>aS_x + bS_{xx} = S_{xy}</math> | ||
+ | |||
+ | Az egyenletrendszer megoldása pedig: | ||
+ | |||
+ | <math>\Delta \equiv SS_{xx} - S_x^2</math> | ||
+ | |||
+ | <math>a = \frac{S_{xx}S_y - S_xS_{xy}}{\Delta}</math> | ||
+ | |||
+ | <math>b = \frac{SS_{xy}-S_xS_y}{\Delta}</math> | ||
+ | |||
+ | A hibaterjedés törvényét figyelembe véve a teljes szórás: | ||
+ | |||
+ | <math>\sigma_f^2 = \sum_{i=1}^N \sigma_i^2 \left( \frac{\partial f}{\partial y_i} \right)^2</math> | ||
+ | |||
+ | Amibe a-t és b-t behelyettesítve: | ||
+ | |||
+ | <math>\sigma_a^2 = \frac{S_{xx}}{\Delta}</math> | ||
+ | |||
+ | <math>\sigma_b^2 = \frac{S}{\Delta}</math> | ||
+ | |||
+ | Ezek a hibák természetesen csak a mérési hibák hatását fejezik ki, ettől a pontok szórhatnak messze az egyenestől. Az illesztés jóságát az (N-2) szabadsági fokú khí-négyzet eloszlás adja meg a <math>\chi^2</math> helyen. | ||
+ | |||
+ | Ha a mérés hibája nem ismert, akkor a fenti képletek a <math>\sigma_i = 1</math> behelyettesítéssel használhatók (úgy tekintjük, hogy mindegyik pont hibája megegyezik). | ||
=== Nem-lineáris regresszió === | === Nem-lineáris regresszió === |
A lap 2011. június 14., 11:49-kori változata
Tartalomjegyzék
Általános statisztikai jellemzők
(Átlag szórás, kovariancia...)
Modellek illesztése
Lineáris regresszió
A most leírt modell tulajdonságai a következők:
- prediktor változó: x
- az y-ok függetlenek
- adott x-re kapott y-ok normál eloszlásúak olyan átlaggal, ami az x lineáris függvényeként kapható meg
- Feladat: adott x-re y-t megmondani. A straight line regression model (egyenes vonal illesztő modell) alakja a köv:
, vagy indexesen
A normál analízis során azt feltételezzük, hogy epsilon_i-k független és azonosan 0 átlagú és szigma^2 szórású normál eloszlást követő változók. Az alfa+beta*x a determinisztikus rész, az epsilon_i a random zaj. Az előbbi érdekel minket.
Az illesztés során a legkisebb négyzetek módszerét használhatjuk.
Legkisebb négyzetek módszere
Tegyük fel, hogy mérési adatokra akarunk függvényt illeszteni, melynek paraméterei , azaz
A legkisebb négyzetek módszere a következő módon keresi a paramétereket:
Ez azért jó, mert megadja a paraméterek legvalószínűbb halmazát. Természetesen lehetne más költségfüggvényt is használni, de ez a modell arra a kérdésre ad választ, hogy mely paramétervektor esetén a maximális a valószínűsége annak, hogy az adott mérési eredményeket kapjuk. Ez a maximális valószínűségű paraméterbecslés.
Ha csak az adatok mérési hibáját vesszük figyelembe és az a hiba Gauss eloszlású, valamint a hiba eloszlásának szórása azonos mindegyik mérési pontban (ha ezek nem teljesülnek, akkor a módszer nem a legnagyobb valószínűséghez tartozó paramétereket adja), akkor a fenti valószínűség átírható így:
Ennek keressük a maximumát (vagy ha vesszük a negatív logaritmuást, akkor a minimumát):
Mivel N, és állandók, ez pont a legkisebb négyzetek módszerét adja és P értéke megmondja, hogy mennyire jó az illesztés.
A Khí-négyzet módszer
Ha a mérési pontok hibájának szórása nem egyforma (de továbbra is normál eloszlást követnek), akkor a legkisebb négyzetek módszerét könnyen általánosíthatjuk. Ez a Khí-négyzet illesztés, amelynek költségfüggvénye a következő:
Tekinthetjük úgy, hogy a szórásokkal súlyozzuk az eltéréseket, vagy másképpen egységnyi szórásúra normálunk minden pontnál.
Mivel a mérési pontokról feltételeztük, hogy normál eloszlást követnek, ilyen véletlen változók négyzetének összege. Az ilyen típusú valószínűségi változók nem Gauss eloszlást, hanem az úgynevezett (N - M) szabadsági fokú Khí-négyzet eloszlást követik. Ha az paraméterek lineárisan szerepelnek akkor ez az eloszlás analitikusan megadható, így megmondható annak valószínűsége (Q), hgoy az adott paraméterekkel jellemzett modellen végzett mérés -nél nagyobb eltérést ad. ( tipikus, elfogadható, rossz modellre vagy hibabecslésre utal). Fontos, hogy a mérési hibák becslése jó legyen, különben megtévesztő eredményre juthatunk.
Annak feltétele, hogy a -nek minimuma van az, hogy az paraméterek szerinti deriváltja 0 legyen.
Ez általában M nemlináris egyenletből álló rendszerre vezet, de ha az paraméterek lineárisan szerepelnek az y(x; a_1 \ldots a_M) kifejezésben, akkor az egyenletek is lineárisak lesznek.
Példa: egyenes illesztés
Legegyszerűbb példa a lineáris regresszióra az egyenesillesztés.
A költségfüggvényünk most:
A minimumban a deriváltak eltűnnek:
A fenti kifejezésekben a szummákat szétbonthatjuk az alábbi jelölések segítségével:
Így a minimum feltétele a következő:
Az egyenletrendszer megoldása pedig:
A hibaterjedés törvényét figyelembe véve a teljes szórás:
Amibe a-t és b-t behelyettesítve:
Ezek a hibák természetesen csak a mérési hibák hatását fejezik ki, ettől a pontok szórhatnak messze az egyenestől. Az illesztés jóságát az (N-2) szabadsági fokú khí-négyzet eloszlás adja meg a helyen.
Ha a mérés hibája nem ismert, akkor a fenti képletek a behelyettesítéssel használhatók (úgy tekintjük, hogy mindegyik pont hibája megegyezik).