„Adatelemzés: bootstrap modellek” változatai közötti eltérés

A lap 2011. június 12., 16:22-kori változata

Egy X valószínűségi változó eloszlását különféle paraméterekkel jellemezhetjük: várható érték, szórás, ferdeség, stb. Ezeket a paramétereket egy n elemű minta alapján statisztikai függvények segítségével becsüljük. Pl.: a várható értéket a mintaátlaggal becsüljük, az empirikus és a korrigált empirikus szórás a szórás becslései. A becslésektől elvárjuk, hogy (legalább aszimptotikusan) torzítatlanok legyenek, valamint a becslés standard hibája a mintaszám növelésével nullához tartson. Ha kicsi a mintaszámunk, akkor nemcsak, hogy pontatlan lesz a becslésünk, de a pontosság jellemzőit sem tudjuk megbecsülni (pl.: konfidencia-intervallum) a klasszikus statisztika eszközeivel.

Mikor nevezhető kicsinek a mintaszám? Akkor, ha a becslés pontossági jellemzőinek (torzítás, standard hiba, konfidencia-intervallum) az n elemű mintából történő becslésekor indokolatlan a határeloszlásra való áttérés (a "klasszikus" képletek nem alkalmazhatók). A probléma megoldására találták ki az újra mintavételező módzsereket

Bootstrap módszer

Legyen X egy valószínűségi változó, $x = (x_1, x_2, ..., x_n)$ pedig egy n elemű minta X-re, s(x) pedig X valamely paraméterének becslése. A bootstrap-szimuláció során visszatevéssel egy új, szintén n elemű mintát veszünk: $x^* = (x_1^*, x_2^*, ..., x_n^*)$ . Pl.: n=5-re: $x^* = (x_2, x_4, x_1, x_2, x_1)\,$ . Az x^*-ra is alkalmazzuk s(x)-et, így s(x^*)-ot kapjuk. Az eljárást N-szer megismételjük, így kapjuk s(x)-ek egy sorozatát: $s(x_1^*), s(x_2^*), ... s(x_N^*)$ . Ha N elég nagy, akkor az s(x) becslés bootstrap-utánzatainak empirikus eloszlása jól modellezi az adott statisztika elméleti eloszlását.

Jackknife módszer

Ha van egy n elemű mintánk, annak az átlagát $\bar{x}$ jelöli. Ugyanakkor kiszámolhatjuk az átlagot akkor is, ha a j-edik elemet kivágjuk (erre utal a módszer elnevezése is):

$\bar{x}_{-j} = \frac{1}{n-1} \sum_{i \neq j}^n x_i$

Vegyük észre, hogy ha ismert $\bar{x} \text{és} \bar{x}_{-j}$ is, akkor ki tudjuk számolni x_j-t: $x_j = n \bar{x} - (n-1) \bar{x}_{-j}$

Tegyük fel, hogy az eloszlás egy $\theta$ paraméterét akarjuk meghatározni. n pontra ennek a becslése:

$\hat{\theta} = \phi (x_1, x_2, ..., x_n)$

Az előző ötletet felhasználva $\theta$ egy részleges becslését kapjuk, ha kivesszük a j-edik elemet:

$\hat{\theta}_j = \phi (x_1, x_2, ..., x_{j-1}, x_{j+1}, ... x_n)$

Szintén az előző ötlet alapján kiszámolhatjuk a j-edik pszeudoértéket:

$\hat{\theta^*}_j = n \hat{\theta} - (n-1) \hat{\theta}_j$

A fentiek alapján a $\theta$ jackknife becslése:

$\hat{\theta^*} = \frac{1}{n} \sum_{i=1}^n \hat{\theta^*}_i$

A $\theta$ paraméter varianciáját a pszeudoértékekből becsülhetjük:

$Var(\hat{\theta^*}) = \frac{\sum_{j=1}^n (\hat{\theta^*}_j - \hat{\theta^*} )^2}{n(n-1)}$

Cross-validation

A cross-validation egy olyan statisztikai módszer, melyben a rendelkezésre álló adatokat két csoportba osztjuk: egy tanító halmazra, amelyre az analízist végezzük, és egy teszt halmazra, amin kiértékeljük az analízis eredményét. A leginkább használt típusa a k-fold cross-validation, amiben az adatokat k darab, közel egyforma méretű csoportba osztjuk. A módszer k darab iterációt használ, és minden iterációban egy másik csoportot választunk tanító halmaznak, a többi pedig a teszt halmaz lesz. A leggyakoribb a k=10 eset.

A cross-validation-t kétféle célból használhatjuk:

Megbecsüljük egy modell hatékonyságát a rendelkezésre álló adatokon
Összehasonlítsunk két vagy több modellt, és eldöntsük, melyik írja le jobban az adatainkat

A módszer menete a következő (az i-edik iterációban, i = 1, ..., k):

Az i-edik csoportra illesztjük a modellt (a modell lehet lineáris, polinom, stb.)
A modellt alkalmazzuk a teszt halmazra, és kiszámítjuk az eltérést a modelltől (négyzetes hiba)
i-t léptetjük

Két modell összehasonlításához az így kapott négyzetes hibákat kell összehasonlítani, amelyikre kisebb, az jobban leírja az adatokat.

MSc záróvizsga tételek

Tételek

@@ 39. sor: / 39. sor: @@
 ==Cross-validation==
+A cross-validation egy olyan statisztikai módszer, melyben a rendelkezésre álló adatokat két csoportba osztjuk: egy tanító halmazra, amelyre az analízist végezzük, és egy teszt halmazra, amin kiértékeljük az analízis eredményét. A leginkább használt típusa a ''k-fold cross-validation'', amiben az adatokat ''k'' darab, közel egyforma méretű csoportba osztjuk. A módszer ''k'' darab iterációt használ, és minden iterációban egy másik csoportot választunk tanító halmaznak, a többi pedig a teszt halmaz lesz. A leggyakoribb a ''k''=10 eset.
+A cross-validation-t kétféle célból használhatjuk:
+# Megbecsüljük egy modell hatékonyságát a rendelkezésre álló adatokon
+# Összehasonlítsunk két vagy több modellt, és eldöntsük, melyik írja le jobban az adatainkat
+A módszer menete a következő (az ''i''-edik iterációban, i = 1, ..., k):
+# Az ''i''-edik csoportra illesztjük a modellt (a modell lehet lineáris, polinom, stb.)
+# A modellt alkalmazzuk a teszt halmazra, és kiszámítjuk az eltérést a modelltől (négyzetes hiba)
+# ''i''-t léptetjük
+Két modell összehasonlításához az így kapott négyzetes hibákat kell összehasonlítani, amelyikre kisebb, az jobban leírja az adatokat.
 {{MSc záróvizsga}}

„Adatelemzés: bootstrap modellek” változatai közötti eltérés

A lap 2011. június 12., 16:22-kori változata

Bootstrap módszer

Jackknife módszer

Cross-validation

Navigációs menü

Személyes eszközök

Névterek

Változatok

Nézetek

Több

Keresés

Navigáció

Eszközök

Nyomtatás/ exportálás