Ako porovnať dve proporcie?
Porovnanie dvoch proporcií je často potrebné na zistenie, či sa navzájom výrazne líšia. Predpokladajme napríklad, že robíte randomizovanú kontrolnú štúdiu so 40 ľuďmi, z ktorých polovica bola zaradená na liečbu a druhá polovica bola zaradená do skupiny s placebom. 140 z experimentálnej skupiny sa zlepšilo, zatiaľ čo 12,50 z kontrolnej skupiny sa tiež zlepšilo. Líšia sa tieto dve proporcie navzájom? Je liečba účinná? Keď budete vedieť porovnávať proporcie, budete schopní na tieto otázky odpovedať.
- 1Nastavte nulovú hypotézu a alternatívnu hypotézu. Nulová hypotéza ( H0 {\ Displaystyle H_ {0}} ) vždy obsahuje rovnosť a je tou, ktorú sa pokúšate vyvrátiť. Alternatívna (výskumná) hypotéza nikdy neobsahuje rovnosť a je to tá, ktorú sa pokúšate potvrdiť. Tieto dve hypotézy sú uvedené tak, že sa navzájom vylučujú a súhrnne sú vyčerpávajúce. Vzájomne sa vylučujúce znamená, že ak je jedno pravdivé, druhé musí byť nepravdivé a naopak. Kolektívne vyčerpávajúci znamená, že musí nastať aspoň jeden z výsledkov. Vaše hypotézy sú formulované podľa toho, či sú 1- alebo 2-chvostové:
- Jednostranný: Výskumná otázka: Je jeden podiel väčší ako druhý? Vaše hypotézy by boli uvedené nasledovne: {H0: p^1≤p^2Ha: p^1> p^2 {\ displaystyle {\ begin {cases} H_ {0}: {\ hat {p}} _ {1 } \ leq {\ hat {p}} _ {2} \\ H_ {a}: {\ hat {p}} _ {1}> {\ hat {p}} _ {2} \ end {cases}} } . Jednosmerný používajte, ak vás zaujíma rozdiel iba v jednom smere. Napríklad v tomto prípade nás zaujíma iba to, či liečba funguje, to znamená, že podiel je v liečebnej skupine väčší. Ak liečebnú skupinu označíme ako 1 a kontrolnú skupinu ako 2, hypotézy sú {H0: p^1≤p^2Ha: p^1> p^2 {\ displaystyle {\ begin {cases} H_ {0}: {\ hat {p}} _ {1} \ leq {\ hat {p}} _ {2} \\ H_ {a}: {\ hat {p}} _ {1}> {\ hat {p}} _ {2} \ end {cases}}}.
- Dvojstranný: Výskumná otázka: Je podiel vzorky odlišný od hypotetického podielu populácie? Vaše hypotézy by boli vyjadrené nasledovne: {H0: p^= p0Ha: p^≠ p0 {\ displaystyle {\ begin {cases} H_ {0}: {\ hat {p}} = p_ {0} \\ H_ { a}: {\ hat {p}} \ neq p_ {0} \ end {cases}}} .
- Ak nie je a priori dôvod domnievať sa, že akýkoľvek rozdiel je jednosmerný, dáva sa prednosť dvojstrannému testu, pretože ide o prísnejší test.
- 2Nastavte vhodnú úroveň významnosti ( α {\ Displaystyle \ alpha} alias „alfa“). Podľa definície je hladina alfa pravdepodobnosťou odmietnutia nulovej hypotézy, ak je nulová hypotéza pravdivá. Alpha je najčastejšie nastavená na 0,05, hoci namiesto toho je možné použiť akékoľvek iné hodnoty (medzi 0 a 1, výlučne). Medzi ďalšie bežne používané hodnoty alfa patria 0,01 a 0,10.
- 3Vypočítajte dva pomery vzorky. Podiel je počet „úspechov“ vydelený celkovou vzorkou v skupine. V tomto prípade {p^1 = 1820 = 0,9p^2 = 1520 = 0,75 {\ displaystyle {\ begin {cases} {\ hat {p}} _ {1} = {\ frac {18} { 20}} = 0,9 \\ {\ hat {p}} _ {2} = {\ frac {15} {20}} = 0,75 \ end {cases}}} .
- 4Vypočítajte celkový podiel vzorky. Celkový podiel vzorky, p^{\ displaystyle {\ hat {p}}} , je celkový počet „úspechov“ vydelený celkovou vzorkou medzi všetkými skupinami. Vzorec je p^= n1p^1+n2p^2n1+n2 {\ displaystyle {\ hat {p}} = {\ frac {n_ {1} {\ hat {p}} _ {1}+n_ {2} { \ hat {p}} _ {2}} {n_ {1}+n_ {2}}}} , kde n1 {\ displaystyle n_ {1}} a n2 {\ displaystyle n_ {2}} sú vzorové veľkosti pre skupiny 1, respektíve 2. V tomto prípade p^= 18+1520+20 = 0,825 {\ displaystyle {\ hat {p}} = {\ frac {18+15} {20+20}} = 0,825} .
- 5Vypočítajte štandardnú chybu rozdielu. Štandardné chyba, SE, sa vypočíta ako p ^ (1-p ^) (1N1 + 1N2) {\ displaystyle {\ sqrt {{\ hat {p}} (1 - {\ hat {p}}) \ left ({\ frac {1} {n_ {1}}}+{\ frac {1} {n_ {2}}} \ right)}}} . V tomto prípade SE = 0,825 (1−0,825) (120+120) = 0,120156 {\ displaystyle SE = {\ sqrt {0,825 (1-0,825) \ left ({\ frac {1} {20}}+ {\ frac {1} {20}} \ right)}} = 0,120156} .
- 6Vypočítajte štatistiku testu, z. Vzorec je z = p^1 − p^2SE {\ displaystyle z = {\ frac {{\ \ hat {p}} _ {1}-{\ hat {p}} _ {2}} {SE}}} . V tomto prípade z = 0,9−0,750.120156 = 1,248 {\ displaystyle z = {\ frac {0,9-0,75} {0,120156}} = 1,248} .
- 7Skonvertujte štatistiku testu na hodnotu p. p-hodnota je pravdepodobnosť, že náhodne vybraná vzorka z n bude mať štatistiku vzorky najmenej tak odlišnú od získanej. p-hodnota je oblasť chvosta pod normálnou krivkou v smere alternatívnej hypotézy. Ak sa napríklad použije pravostranný test, hodnota p je oblasť s pravým okrajom alebo oblasť napravo od hodnoty z. Ak sa použije test s dvoma chvostmi, hodnota p je plocha v oboch chvostoch. P-hodnotu je možné nájsť jednou z niekoľkých metód:
- Tabuľka pravdepodobnosti normálneho rozdelenia z. Príklady možno nájsť na internete, napríklad tento. Je dôležité prečítať si popis tabuľky a všimnúť si, aká pravdepodobnosť je v tabuľke uvedená. Niektoré tabuľky uvádzajú kumulatívnu (ľavú stranu) oblasť, iné uvádzajú oblasť pravého chvosta, ďalšie uvádzajú iba oblasť od priemeru po kladnú hodnotu z.
- Excel. Funkcia Excel = norm.s.dist (z, kumulatívne). Kumulatívne nahraďte číselnú hodnotu za a „true“. Tento vzorec programu Excel poskytuje kumulatívnu plochu naľavo od danej hodnoty z. Ak potrebujete správnu oblasť chvosta, odčítajte od 1.
- V tomto prípade potrebujeme oblasť pravého chvosta, takže hodnota p = 1- NORM.S.DIST (1 248, TRUE) = 0,106.
- Kalkulačka prístrojov Texas Instrument, ako napríklad TI-83 alebo TI-84.
- Online kalkulačky normálnej distribúcie, ako je táto.
- 8Rozhodnite sa medzi nulovou hypotézou alebo alternatívnou hypotézou. Ak je hodnota <α {\ displaystyle p_ {value} <\ alpha} , odmietnite H0 {\ displaystyle H_ {0}} . V opačnom prípade neodmietnite H0 {\ displaystyle H_ {0}} . V tomto prípade, keďže hodnota p = 0,106 {\ displaystyle p_ {hodnota} = 0,106} je väčšia ako α = 0,05 {\ displaystyle \ alpha = 0,05} , experimentátor nedokáže odmietnuť H0 {\ displaystyle H_ {0} } .
- 9Uveďte záver o výskumnej otázke. V tomto prípade experimentátor neodmietne nulovú hypotézu a nemá dostatočné dôkazy na podporu tvrdenia, že liečba je účinná. Podiel ľudí, ktorí sa zlepšili v liečbe, 90%, sa výrazne nelíši od podielu ľudí, ktorí sa zlepšili na placebe, 75%.
- 10Vypočítajte interval spoľahlivosti pre percentuálny rozdiel. Vzorec je Rozdiel ± Z ∗ SE {\ displaystyle {\ text {Difference}} \ pm Z*SE} .
- Vyberte si úroveň dôvery. Najčastejšie sa používa 95%, čo zodpovedá α = 0,05 {\ Displaystyle \ alpha = 0,05} .
- Určte z-skóre zodpovedajúce hladine alfa. Vzorec programu Excel je = norm.s.inv (1 - alfa / 2). Pre α = 0,05 {\ Displaystyle \ alpha = 0,05} máme z = norm.s.inv (1-0,02,5) = 1,96.
- Spodnú hranicu intervalu spoľahlivosti vypočítajte ako rozdiel − Z ∗ SE {\ displaystyle {\ text {Difference}}-Z*SE} . V tomto prípade je dolná hranica 0,15 –1,96 ∗ 0,120156 = −0,086 {\ Displaystyle 0,15-1,96*0,120156 = -0,086} .
- Vypočítajte hornú hranicu intervalu spoľahlivosti ako rozdiel − Z ∗ SE {\ displaystyle {\ text {Difference}}-Z*SE} . V tomto prípade je dolná hranica 0,15+1,96 ∗ 0,120156 = 0,386 {\ Displaystyle 0,15+1,96*0,120156 = 0,386} .
- 95% interval spoľahlivosti pre rozdiel zadajte v pomere 0,150 ± 0,236 {\ Displaystyle 0,150 \ pm 0,236} alebo -0,086 až 0,386.
- Interpretujte výsledok. V tomto prípade sme si na 95% istí, že skutočný pomerný rozdiel je -0,086 až 0,386. Pretože tento rozsah obsahuje 0, neexistuje dostatok dôkazov o tom, že tieto dve proporcie sú odlišné.
- Môžete určiť minimálnu veľkosť vzorky potrebnú na zistenie rozdielu v proporciách. V tomto prípade je rozdiel v týchto dvoch pomeroch 0,90−0,75 = 0,15 {\ Displaystyle 0,90-0,75 = 0,15} , ale nebol štatisticky významný vzhľadom na celkovú veľkosť vzorky 40. Aká veľkosť vzorky je potrebná na zistenie rozdielu?
- Pre významný rozdiel musí byť hodnota p menšia ako α = 0,05 {\ Displaystyle \ alpha = 0,05} .
- Štatistika z zodpovedajúca pvalue = 0,05 {\ Displaystyle p_ {hodnota} = 0,05} je 1,96. To sa dá v Exceli vypočítať ako = NORM.S.INV (1-0,02,5).
- Zapojte to do vzorca pre štatistiku z: 1,96 = p1 - p2SE = p1 - p2p (1 - p) (1n1+1n2) = p1 - p24p (1 - p) n {\ displaystyle 1,96 = {\ frac {p_ {1} -p_ {2}} {SE}} = {\ frac {p_ {1} -p_ {2}} {\ sqrt {p (1-p) \ left ({\ frac {1} {n_ {1}}}+{\ frac {1} {n_ {2}}} \ right)}}} = {\ frac {p_ {1} -p_ {2}} {\ sqrt {\ frac {4p (1-p)} {n}}}}} , za predpokladu, že n1 = n2 = n2 {\ displaystyle n_ {1} = n_ {2} = {\ frac {n} {2}}} . Takže p1 − p2 = 1964 p (1 − p) n = 3,92 p (1 − p) n {\ displaystyle p_ {1} -p_ {2} = 1,96 {\ sqrt {\ frac {4p (1- p)} {n}}} = {\ frac {3,92 {\ sqrt {p (1-p)}}}} {\ sqrt {n}}}} . Takže n = 15,3664p (1 − p) (p1 − p2) 2 {\ displaystyle n = {\ frac {15,3664p (1-p)} {(p_ {1} -p_ {2})^{2 }}}} je minimálna potrebná veľkosť vzorky.
- Všimnite si toho, že prvá derivácia p (1 − p) {\ displaystyle p (1-p)} je 1−2p {\ displaystyle 1-2p} a rovná sa 0, keď p = 0,5 {\ Displaystyle p = 0,5 }, zatiaľ čo druhá derivácia p je -2. Z tohto dôvodu, p = 0,5 {\ displaystyle p = 0,5} predstavuje maximálne funkcie p (1-p) {\ displaystyle p (1-p)} . Ak teda nevieme, čo je p {\ Displaystyle p} , použitím p = 0,5 {\ displaystyle p = 0,5} zaistíme, že n bude dostatočne veľké na akúkoľvek možnú hodnotu p. Takže n = 3,8416 (p1 − p2) 2 {\ displaystyle n = {\ frac {3,8416} {(p_ {1} -p_ {2})^{2}}}} je minimálna potrebná veľkosť vzorky zistiť odchýlku podiel P1-P2 {\ displaystyle p_ {1} -p_ {2}} . V tomto prípade, ak by sme chceli zistiť pomerný rozdiel 0,15, potrebovali by sme veľkosť vzorky n najmenej 3 84160,152 = 171 {\ Displaystyle {\ frac {3,8416} {0,15^{2} }} = 171} .
Prečítajte si tiež: Ako urobiť bunkovú kultúru?
Otázky a odpovede
- Ako ste vypočítali „rozdiel“ v kroku 10? Neviem prísť na to, odkiaľ máš 0,15.0,15 je rozdiel medzi dvoma pomermi uvedenými v kroku 9.