„Adatelemzés: lineáris és nem lineáris regresszió egy modellen bemutatva” változatai közötti eltérés
(→A Khí-négyzet módszer) |
a (→A Khí-négyzet módszer) |
||
44. sor: | 44. sor: | ||
Ha a mérési pontok hibájának szórása nem egyforma (de továbbra is normál eloszlást követnek), akkor a legkisebb négyzetek módszerét könnyen általánosíthatjuk. Ez a Khí-négyzet illesztés, amelynek költségfüggvénye a következő: | Ha a mérési pontok hibájának szórása nem egyforma (de továbbra is normál eloszlást követnek), akkor a legkisebb négyzetek módszerét könnyen általánosíthatjuk. Ez a Khí-négyzet illesztés, amelynek költségfüggvénye a következő: | ||
− | <math>\ | + | <math>\khi^2 = \sum_{i=1}^N \left( \frac{y_i - y(x_i;a_1, \ldots a_M}{\sigma_i} \right)^2</math> |
Tekinthetjük úgy, hogy a <math>\sigma_i</math> szórásokkal súlyozzuk az eltéréseket, vagy másképpen egységnyi szórásúra normálunk minden pontnál. | Tekinthetjük úgy, hogy a <math>\sigma_i</math> szórásokkal súlyozzuk az eltéréseket, vagy másképpen egységnyi szórásúra normálunk minden pontnál. | ||
− | Mivel a mérési pontokról feltételeztük, hogy normál eloszlást követnek, <math>\ | + | Mivel a mérési pontokról feltételeztük, hogy normál eloszlást követnek, <math>\khi^2</math> ilyen véletlen változók négyzetének összege. Az ilyen típusú valószínűségi változók nem Gauss eloszlást, hanem az úgynevezett (N - M) szabadsági fokú Khí-négyzet eloszlást követik. Ha az <math>a_j</math> paraméterek lineárisan szerepelnek akkor ez az eloszlás analitikusan megadható, így megmondható annak valószínűsége (Q), hgoy az adott paraméterekkel jellemzett modellen végzett mérés <math>\khi^2</math>-nél nagyobb eltérést ad. <math>\left( Q \approx 0,1</math> tipikus, <math> Q \approx 0,01</math> elfogadható, <math> Q < 0,001</math> rossz modellre vagy hibabecslésre utal <math> \right)</math>. Fontos, hogy a mérési hibák becslése jó legyen, különben megtévesztő eredményre juthatunk. |
− | Annak feltétele, hogy a <math>\ | + | Annak feltétele, hogy a <math>\khi^2</math>-nek minimuma van az, hogy az <math>a_j</math> paraméterek szerinti deriváltja 0 legyen. |
=== Nem-lineáris regresszió === | === Nem-lineáris regresszió === |
A lap 2011. június 14., 12:12-kori változata
Tartalomjegyzék
Általános statisztikai jellemzők
(Átlag szórás, kovariancia...)
Modellek illesztése
Lineáris regresszió
A most leírt modell tulajdonságai a következők:
- prediktor változó: x
- az y-ok függetlenek
- adott x-re kapott y-ok normál eloszlásúak olyan átlaggal, ami az x lineáris függvényeként kapható meg
- Feladat: adott x-re y-t megmondani. A straight line regression model (egyenes vonal illesztő modell) alakja a köv:
, vagy indexesen
A normál analízis során azt feltételezzük, hogy epsilon_i-k független és azonosan 0 átlagú és szigma^2 szórású normál eloszlást követő változók. Az alfa+beta*x a determinisztikus rész, az epsilon_i a random zaj. Az előbbi érdekel minket.
Az illesztés során a legkisebb négyzetek módszerét használhatjuk.
Legkisebb négyzetek módszere
Tegyük fel, hogy mérési adatokra akarunk függvényt illeszteni, melynek paraméterei , azaz
A legkisebb négyzetek módszere a következő módon keresi a paramétereket:
Ez azért jó, mert megadja a paraméterek legvalószínűbb halmazát. Természetesen lehetne más költségfüggvényt is használni, de ez a modell arra a kérdésre ad választ, hogy mely paramétervektor esetén a maximális a valószínűsége annak, hogy az adott mérési eredményeket kapjuk. Ez a maximális valószínűségű paraméterbecslés.
Ha csak az adatok mérési hibáját vesszük figyelembe és az a hiba Gauss eloszlású, valamint a hiba eloszlásának szórása azonos mindegyik mérési pontban (ha ezek nem teljesülnek, akkor a módszer nem a legnagyobb valószínűséghez tartozó paramétereket adja), akkor a fenti valószínűség átírható így:
Ennek keressük a maximumát (vagy ha vesszük a negatív logaritmuást, akkor a minimumát):
Mivel N, és állandók, ez pont a legkisebb négyzetek módszerét adja és P értéke megmondja, hogy mennyire jó az illesztés.
A Khí-négyzet módszer
Ha a mérési pontok hibájának szórása nem egyforma (de továbbra is normál eloszlást követnek), akkor a legkisebb négyzetek módszerét könnyen általánosíthatjuk. Ez a Khí-négyzet illesztés, amelynek költségfüggvénye a következő:
Értelmezés sikertelen (Hiányzó <code>texvc</code> végrehajtható fájl; a beállítást lásd a math/README fájlban.): \khi^2 = \sum_{i=1}^N \left( \frac{y_i - y(x_i;a_1, \ldots a_M}{\sigma_i} \right)^2
Tekinthetjük úgy, hogy a szórásokkal súlyozzuk az eltéréseket, vagy másképpen egységnyi szórásúra normálunk minden pontnál.
Mivel a mérési pontokról feltételeztük, hogy normál eloszlást követnek, Értelmezés sikertelen (Hiányzó <code>texvc</code> végrehajtható fájl; a beállítást lásd a math/README fájlban.): \khi^2 ilyen véletlen változók négyzetének összege. Az ilyen típusú valószínűségi változók nem Gauss eloszlást, hanem az úgynevezett (N - M) szabadsági fokú Khí-négyzet eloszlást követik. Ha az paraméterek lineárisan szerepelnek akkor ez az eloszlás analitikusan megadható, így megmondható annak valószínűsége (Q), hgoy az adott paraméterekkel jellemzett modellen végzett mérés Értelmezés sikertelen (Hiányzó <code>texvc</code> végrehajtható fájl; a beállítást lásd a math/README fájlban.): \khi^2 -nél nagyobb eltérést ad. Értelmezés sikertelen (Hiányzó <code>texvc</code> végrehajtható fájl; a beállítást lásd a math/README fájlban.): \left( Q \approx 0,1 tipikus, elfogadható, rossz modellre vagy hibabecslésre utal Értelmezés sikertelen (Hiányzó <code>texvc</code> végrehajtható fájl; a beállítást lásd a math/README fájlban.): \right) . Fontos, hogy a mérési hibák becslése jó legyen, különben megtévesztő eredményre juthatunk.
Annak feltétele, hogy a Értelmezés sikertelen (Hiányzó <code>texvc</code> végrehajtható fájl; a beállítást lásd a math/README fájlban.): \khi^2 -nek minimuma van az, hogy az paraméterek szerinti deriváltja 0 legyen.