„Adatelemzés: bootstrap modellek '12” változatai közötti eltérés

Innen: TételWiki
(Új oldal, tartalma: „<!-- Ennek részletesen utána kell nézni a vmelyik adatos kövnyebn h mik tartoznak itt még egy témakörbe... ilyen adatújraosztásos, hibabecslős módszerek... úgy…”)
 
(Cross-validation)
 
(Egy közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva)
6. sor: 6. sor:
 
Egy ''X'' valószínűségi változó eloszlását különféle paraméterekkel jellemezhetjük: várható érték, szórás, ferdeség, stb. Ezeket a paramétereket egy ''n'' elemű minta alapján statisztikai függvények segítségével becsüljük. Pl.: a várható értéket a mintaátlaggal becsüljük, az empirikus és a korrigált empirikus szórás a szórás becslései. A becslésektől elvárjuk, hogy (legalább aszimptotikusan) torzítatlanok legyenek, valamint a becslés standard hibája a mintaszám növelésével nullához tartson. Ha kicsi a mintaszámunk, akkor nemcsak, hogy pontatlan lesz a becslésünk, de a pontosság jellemzőit sem tudjuk megbecsülni (pl.: konfidencia-intervallum) a klasszikus statisztika eszközeivel.
 
Egy ''X'' valószínűségi változó eloszlását különféle paraméterekkel jellemezhetjük: várható érték, szórás, ferdeség, stb. Ezeket a paramétereket egy ''n'' elemű minta alapján statisztikai függvények segítségével becsüljük. Pl.: a várható értéket a mintaátlaggal becsüljük, az empirikus és a korrigált empirikus szórás a szórás becslései. A becslésektől elvárjuk, hogy (legalább aszimptotikusan) torzítatlanok legyenek, valamint a becslés standard hibája a mintaszám növelésével nullához tartson. Ha kicsi a mintaszámunk, akkor nemcsak, hogy pontatlan lesz a becslésünk, de a pontosság jellemzőit sem tudjuk megbecsülni (pl.: konfidencia-intervallum) a klasszikus statisztika eszközeivel.
  
Mikor nevezhető kicsinek a mintaszám? Akkor, ha a becslés pontossági jellemzőinek (torzítás, standard hiba, konfidencia-intervallum) az ''n'' elemű mintából történő becslésekor indokolatlan a határeloszlásra való áttérés (a "klasszikus" képletek nem alkalmazhatók). A probléma megoldására találták ki az újra mintavételező módzsereket
+
Mikor nevezhető kicsinek a mintaszám? Akkor, ha a becslés pontossági jellemzőinek (torzítás, standard hiba, konfidencia-intervallum) az ''n'' elemű mintából történő becslésekor indokolatlan a határeloszlásra való áttérés (a "klasszikus" képletek nem alkalmazhatók). A probléma megoldására találták ki az újra mintavételező módszereket
  
 
==Bootstrap módszer==
 
==Bootstrap módszer==
51. sor: 51. sor:
  
 
Két modell összehasonlításához az így kapott négyzetes hibákat kell összehasonlítani, amelyikre kisebb, az jobban leírja az adatokat.
 
Két modell összehasonlításához az így kapott négyzetes hibákat kell összehasonlítani, amelyikre kisebb, az jobban leírja az adatokat.
 +
 +
----
 +
Újra mintavételező technikák wikin: [http://en.wikipedia.org/wiki/Resampling_%28statistics%29 Resampling (statistics)] (found by Adrian)
  
 
{{MSc 2012 záróvizsga}}
 
{{MSc 2012 záróvizsga}}

A lap jelenlegi, 2012. június 13., 12:16-kori változata

Egy X valószínűségi változó eloszlását különféle paraméterekkel jellemezhetjük: várható érték, szórás, ferdeség, stb. Ezeket a paramétereket egy n elemű minta alapján statisztikai függvények segítségével becsüljük. Pl.: a várható értéket a mintaátlaggal becsüljük, az empirikus és a korrigált empirikus szórás a szórás becslései. A becslésektől elvárjuk, hogy (legalább aszimptotikusan) torzítatlanok legyenek, valamint a becslés standard hibája a mintaszám növelésével nullához tartson. Ha kicsi a mintaszámunk, akkor nemcsak, hogy pontatlan lesz a becslésünk, de a pontosság jellemzőit sem tudjuk megbecsülni (pl.: konfidencia-intervallum) a klasszikus statisztika eszközeivel.

Mikor nevezhető kicsinek a mintaszám? Akkor, ha a becslés pontossági jellemzőinek (torzítás, standard hiba, konfidencia-intervallum) az n elemű mintából történő becslésekor indokolatlan a határeloszlásra való áttérés (a "klasszikus" képletek nem alkalmazhatók). A probléma megoldására találták ki az újra mintavételező módszereket

Bootstrap módszer

Legyen X egy valószínűségi változó, x = (x_1, x_2, ..., x_n) pedig egy n elemű minta X-re, s(x) pedig X valamely paraméterének becslése. A bootstrap-szimuláció során visszatevéssel egy új, szintén n elemű mintát veszünk: x^* = (x_1^*, x_2^*, ..., x_n^*). Pl.: n=5-re: x^* = (x_2, x_4, x_1, x_2, x_1)\,. Az x*-ra is alkalmazzuk s(x)-et, így s(x*)-ot kapjuk. Az eljárást N-szer megismételjük, így kapjuk s(x)-ek egy sorozatát: s(x_1^*), s(x_2^*), ... s(x_N^*). Ha N elég nagy, akkor az s(x) becslés bootstrap-utánzatainak empirikus eloszlása jól modellezi az adott statisztika elméleti eloszlását.

Jackknife módszer

Ha van egy n elemű mintánk, annak az átlagát \bar{x} jelöli. Ugyanakkor kiszámolhatjuk az átlagot akkor is, ha a j-edik elemet kivágjuk (erre utal a módszer elnevezése is):

\bar{x}_{-j} = \frac{1}{n-1} \sum_{i \neq j}^n x_i

Vegyük észre, hogy ha ismert \bar{x} és \bar{x}_{-j} is, akkor ki tudjuk számolni xj-t: x_j = n \bar{x} - (n-1) \bar{x}_{-j}

Tegyük fel, hogy az eloszlás egy \theta paraméterét akarjuk meghatározni. n pontra ennek a becslése:

\hat{\theta} = \phi (x_1, x_2, ..., x_n)

Az előző ötletet felhasználva \theta egy részleges becslését kapjuk, ha kivesszük a j-edik elemet:

\hat{\theta}_j = \phi (x_1, x_2, ..., x_{j-1}, x_{j+1}, ... x_n)

Szintén az előző ötlet alapján kiszámolhatjuk a j-edik pszeudoértéket:

\hat{\theta^*}_j = n \hat{\theta} - (n-1) \hat{\theta}_j

A fentiek alapján a \theta jackknife becslése:

\hat{\theta^*} = \frac{1}{n} \sum_{i=1}^n \hat{\theta^*}_i

A \theta paraméter varianciáját a pszeudoértékekből becsülhetjük:

Var(\hat{\theta^*}) = \frac{\sum_{j=1}^n (\hat{\theta^*}_j - \hat{\theta^*} )^2}{n(n-1)}

Cross-validation

A cross-validation egy olyan statisztikai módszer, melyben a rendelkezésre álló adatokat két csoportba osztjuk: egy tanító halmazra, amelyre az analízist végezzük, és egy teszt halmazra, amin kiértékeljük az analízis eredményét. A leginkább használt típusa a k-fold cross-validation, amiben az adatokat k darab, közel egyforma méretű csoportba osztjuk. A módszer k darab iterációt használ, és minden iterációban egy másik csoportot választunk tanító halmaznak, a többi pedig a teszt halmaz lesz. A leggyakoribb a k=10 eset.

A cross-validation-t kétféle célból használhatjuk:

  1. Megbecsüljük egy modell hatékonyságát a rendelkezésre álló adatokon
  2. Összehasonlítsunk két vagy több modellt, és eldöntsük, melyik írja le jobban az adatainkat

A módszer menete a következő (az i-edik iterációban, i = 1, ..., k):

  1. Az i-edik csoportra illesztjük a modellt (a modell lehet lineáris, polinom, stb.)
  2. A modellt alkalmazzuk a teszt halmazra, és kiszámítjuk az eltérést a modelltől (négyzetes hiba)
  3. i-t léptetjük

Két modell összehasonlításához az így kapott négyzetes hibákat kell összehasonlítani, amelyikre kisebb, az jobban leírja az adatokat.


Újra mintavételező technikák wikin: Resampling (statistics) (found by Adrian)

MSc záróvizsga tételek 2012
Tételek Soktest rendszerek '12 | Transzportfolyamatok '12 | Véletlen gráfok generálása, tulajdonságai '12 | Elsőrendű és folytonos fázisátalakulások '12 | Válasz- és korrelációs függvények, fluktuáció-disszipáció tétel '12 | Sztochasztikus folyamatok '12 | A statisztikus fizikai szimulációk alapjai és a Monte Carlo módszer '12 | Dinamikai rendszerek, kaotikus viselkedés '12 | Adatelemzés: lineáris és nem lineáris regresszió egy modellen bemutatva '12 | Adatelemzés: bootstrap modellek '12 | TCP hálózat működése '12 | Adatelemzés: ARCH, GARCH folyamatok '12 | Numerikus módszerek '12 | Vizualizációs módszerek '12