Shpërndarja Pearson (shpërndarja chi-square). Metodat klasike të statistikës: testi chi-katror shpërndarja në katror Ksi
Shpërndarja chi-square është një nga më të përdorurat në statistika për testimin e hipotezave statistikore. Bazuar në shpërndarjen chi-square, është ndërtuar një nga testet më të fuqishme të përshtatshmërisë - testi chi-square Pearson.
Kriteri i marrëveshjes është kriteri për testimin e hipotezës për ligjin e supozuar të një shpërndarjeje të panjohur.
Testi χ2 (chi-square) përdoret për të testuar hipotezën e shpërndarjeve të ndryshme. Ky është dinjiteti i tij.
Formula e llogaritjes së kriterit është e barabartë me
ku m dhe m’ janë respektivisht frekuenca empirike dhe teorike
shpërndarjen në fjalë;
n është numri i shkallëve të lirisë.
Për të kontrolluar, duhet të krahasojmë frekuencat empirike (të vëzhguara) dhe teorike (të llogaritura nën supozimin e një shpërndarje normale).
Nëse frekuencat empirike përkojnë plotësisht me frekuencat e llogaritura ose të pritura, S (E – T) = 0 dhe kriteri χ2 do të jetë gjithashtu i barabartë me zero. Nëse S (E – T) nuk është e barabartë me zero, kjo do të tregojë një mospërputhje midis frekuencave të llogaritura dhe frekuencave empirike të serisë. Në raste të tilla, është e nevojshme të vlerësohet rëndësia e kriterit χ2, i cili teorikisht mund të ndryshojë nga zero në pafundësi. Kjo bëhet duke krahasuar vlerën e përftuar në fakt të χ2ф me vlerën e saj kritike (χ2st) Hipoteza zero, pra supozimi se mospërputhja midis frekuencave empirike dhe teorike ose të pritshme është e rastësishme, hidhet poshtë nëse χ2ф është më e madhe ose e barabartë me χ2st për nivelin e pranuar të rëndësisë (a) dhe numrin e shkallëve të lirisë (n).
Shpërndarja e vlerave të mundshme të ndryshores së rastësishme χ2 është e vazhdueshme dhe asimetrike. Varet nga numri i shkallëve të lirisë (n) dhe i afrohet një shpërndarjeje normale ndërsa numri i vëzhgimeve rritet. Prandaj zbatimi i kriterit χ2 në vlerësim shpërndarje diskrete shoqërohet me disa gabime që ndikojnë në vlerën e tij, veçanërisht në mostrat e vogla. Për të marrë vlerësime më të sakta, një mostër e shpërndarë në seri variacionesh, duhet të ketë të paktën 50 opsione. Zbatimi i saktë i kriterit χ2 kërkon gjithashtu që frekuencat e varianteve në klasat ekstreme të mos jenë më të vogla se 5; nëse janë më pak se 5 të tilla, atëherë ato kombinohen me frekuencat e klasave fqinje në mënyrë që shuma e përgjithshme të jetë më e madhe ose e barabartë me 5. Sipas kombinimit të frekuencave, numri i klasave (N) zvogëlohet. Numri i shkallëve të lirisë përcaktohet nga numri dytësor i klasave, duke marrë parasysh numrin e kufizimeve në lirinë e ndryshimit.
Meqenëse saktësia e përcaktimit të kriterit χ2 varet në masë të madhe nga saktësia e llogaritjes së frekuencave teorike (T), frekuencat teorike të pa rrumbullakosura duhet të përdoren për të marrë diferencën midis frekuencave empirike dhe të llogaritura.
Si shembull, le të marrim një studim të publikuar në një faqe interneti të dedikuar për përdorimin e metodat statistikore në shkencat humane.
Testi Chi-square ju lejon të krahasoni shpërndarjet e frekuencës pavarësisht nëse ato shpërndahen normalisht apo jo.
Frekuenca i referohet numrit të ndodhive të një ngjarjeje. Zakonisht, shpeshtësia e shfaqjes së ngjarjeve trajtohet kur variablat maten në një shkallë emrash dhe karakteristikat e tjera të tyre, përveç shpeshtësisë, janë të pamundura ose problematike për t'u përzgjedhur. Me fjalë të tjera, kur një variabël ka karakteristika cilësore. Gjithashtu, shumë studiues priren të konvertojnë rezultatet e testit në nivele (të larta, mesatare, të ulëta) dhe të ndërtojnë tabela të shpërndarjeve të rezultateve për të zbuluar numrin e njerëzve në këto nivele. Për të vërtetuar se në një nga nivelet (në një nga kategoritë) numri i njerëzve është vërtet më i madh (më pak) përdoret gjithashtu koeficienti Chi-square.
Le të shohim shembullin më të thjeshtë.
Një test u krye mes adoleshentëve më të rinj për të identifikuar vetëvlerësimin. Rezultatet e testit u shndërruan në tre nivele: të larta, të mesme, të ulëta. Frekuencat u shpërndanë si më poshtë:
Lartë (B) 27 persona.
Mesatarisht (C) 12 persona.
E ulët (L) 11 persona
Është e qartë se shumica e fëmijëve kanë vetëbesim të lartë, por kjo duhet të vërtetohet statistikisht. Për ta bërë këtë, ne përdorim testin Chi-square.
Detyra jonë është të kontrollojmë nëse të dhënat e marra empirike ndryshojnë nga ato teorikisht po aq të mundshme. Për ta bërë këtë, ju duhet të gjeni frekuencat teorike. Në rastin tonë, frekuencat teorike janë frekuenca po aq të mundshme, të cilat gjenden duke mbledhur të gjitha frekuencat dhe pjesëtuar me numrin e kategorive.
Në rastin tonë:
(B + C + H)/3 = (27+12+11)/3 = 16,6
Formula për llogaritjen e testit chi-square:
χ2 = ∑(E - T)I / T
Ne ndërtojmë tabelën:
Gjeni shumën e kolonës së fundit:
Tani ju duhet të gjeni vlerën kritike të kriterit duke përdorur tabelën e vlerave kritike (Tabela 1 në Shtojcën). Për ta bërë këtë, na duhet numri i shkallëve të lirisë (n).
n = (R - 1) * (C - 1)
ku R është numri i rreshtave në tabelë, C është numri i kolonave.
Në rastin tonë, ekziston vetëm një kolonë (që nënkupton frekuencat origjinale empirike) dhe tre rreshta (kategori), kështu që formula ndryshon - ne i përjashtojmë kolonat.
n = (R - 1) = 3-1 = 2
Për probabilitetin e gabimit p≤0.05 dhe n = 2, vlera kritike është χ2 = 5.99.
Vlera empirike e fituar është më e madhe se vlera kritike - dallimet në frekuenca janë të rëndësishme (χ2= 9,64; p≤0,05).
Siç mund ta shihni, llogaritja e kriterit është shumë e thjeshtë dhe nuk kërkon shumë kohë. Vlera praktike e testit chi-square është e madhe. Kjo metodë është më e vlefshme kur analizohen përgjigjet ndaj pyetësorëve.
Le të shohim një shembull më kompleks.
Për shembull, një psikolog dëshiron të dijë nëse është e vërtetë që mësuesit janë më të njëanshëm ndaj djemve sesa ndaj vajzave. ato. më shumë gjasa për të lavdëruar vajzat. Për ta bërë këtë, psikologu analizoi karakteristikat e studentëve të shkruar nga mësuesit për shpeshtësinë e shfaqjes së tre fjalëve: "aktiv", "i zellshëm", "i disiplinuar" dhe gjithashtu u numëruan sinonimet e fjalëve. Të dhënat për shpeshtësinë e shfaqjes së fjalëve u futën në tabelë:
Për të përpunuar të dhënat e marra përdorim testin chi-square.
Për ta bërë këtë, ne do të ndërtojmë një tabelë të shpërndarjes së frekuencave empirike, d.m.th. ato frekuenca që ne vëzhgojmë:
Teorikisht presim që frekuencat të shpërndahen në mënyrë të barabartë, d.m.th. frekuenca do të shpërndahet proporcionalisht ndërmjet djemve dhe vajzave. Le të ndërtojmë një tabelë të frekuencave teorike. Për ta bërë këtë, shumëzoni shumën e rreshtit me shumën e kolonës dhe ndani numrin që rezulton me shumën totale (s).
Tabela përfundimtare për llogaritjet do të duket si kjo:
χ2 = ∑(E - T)I / T
n = (R - 1), ku R është numri i rreshtave në tabelë.
Në rastin tonë, chi-katror = 4,21; n = 2.
Duke përdorur tabelën e vlerave kritike të kriterit, gjejmë: me n = 2 dhe një nivel gabimi 0.05, vlera kritike është χ2 = 5.99.
Vlera që rezulton është më e vogël se vlera kritike, që do të thotë se hipoteza zero pranohet.
Përfundim: mësuesit nuk i kushtojnë rëndësi gjinisë së fëmijës kur shkruajnë karakteristika për të.
konkluzioni.
K. Pearson dha një kontribut të rëndësishëm në zhvillim statistika matematikore(një numër i madh konceptesh themelore). Pozicioni kryesor filozofik i Pearson është formuluar si më poshtë: konceptet e shkencës janë ndërtime artificiale, mjete për të përshkruar dhe renditur përvojën shqisore; rregullat për lidhjen e tyre në fjali shkencore janë të izoluara nga gramatika e shkencës, e cila është filozofia e shkencës. Disiplina universale - statistikat e aplikuara - na lejon të lidhim koncepte dhe fenomene të ndryshme, megjithëse sipas Pearson është subjektive.
Shumë nga ndërtimet e K. Pearson janë të lidhura drejtpërdrejt ose të zhvilluara duke përdorur materiale antropologjike. Ai zhvilloi metoda të shumta të klasifikimit numerik dhe kritereve statistikore të përdorura në të gjitha fushat e shkencës.
Letërsia.
1. Bogolyubov A. N. Matematikë. Mekanika. Libër referencë biografike. - Kiev: Naukova Dumka, 1983.
2. Kolmogorov A. N., Yushkevich A. P. (eds.). Matematika e shekullit XIX. - M.: Shkencë. - T. I.
3. 3. Borovkov A.A. Statistikat e matematikës. M.: Nauka, 1994.
4. 8. Feller V. Hyrje në teorinë e probabilitetit dhe zbatimet e saj. - M.: Mir, T.2, 1984.
5. 9. Harman G., Analiza moderne e faktorëve. - M.: Statistikat, 1972.
Përpara fundi i XIX shekulli, shpërndarja normale u konsiderua si ligji universal i ndryshimit të të dhënave. Megjithatë, K. Pearson vuri në dukje se frekuencat empirike mund të ndryshojnë shumë nga shpërndarja normale. U ngrit pyetja se si të vërtetohet kjo. Kërkohej jo vetëm një krahasim grafik, i cili është subjektiv, por edhe një justifikim i rreptë sasior.
Kështu u shpik kriteri χ 2(katrori chi), i cili teston rëndësinë e mospërputhjes midis frekuencave empirike (të vëzhguara) dhe teorike (të pritshme). Kjo ndodhi në vitin 1900, por kriteri është ende në përdorim sot. Për më tepër, ai është përshtatur për të zgjidhur një gamë të gjerë problemesh. Para së gjithash, kjo është analiza e të dhënave kategorike, d.m.th. ato që shprehen jo nga sasia, por nga përkatësia në ndonjë kategori. Për shembull, klasa e makinës, gjinia e pjesëmarrësit në eksperiment, lloji i bimës, etj. Veprimet matematikore si mbledhja dhe shumëzimi nuk mund të zbatohen në të dhëna të tilla; frekuencat mund të llogariten vetëm për to.
Ne shënojmë frekuencat e vëzhguara Rreth (vëzhguar), e pritshme - E (E pritshme). Si shembull, le të marrim rezultatin e rrokullisjes së një bilete 60 herë. Nëse është simetrike dhe uniforme, probabiliteti për të marrë ndonjë anë është 1/6 dhe për këtë arsye numri i pritshëm i marrjes së secilës anë është 10 (1/6∙60). Frekuencat e vëzhguara dhe të pritura i shkruajmë në një tabelë dhe vizatojmë një histogram.
Hipoteza zero është se frekuencat janë të qëndrueshme, domethënë, të dhënat aktuale nuk kundërshtojnë të dhënat e pritura. Një hipotezë alternative është se devijimet në frekuenca shkojnë përtej luhatjeve të rastësishme, mospërputhjet janë statistikisht të rëndësishme. Për të nxjerrë një përfundim rigoroz, na duhet.
- Një masë përmbledhëse e mospërputhjes midis frekuencave të vëzhguara dhe të pritshme.
- Shpërndarja e kësaj mase nëse hipoteza se nuk ka dallime është e vërtetë.
Le të fillojmë me distancën midis frekuencave. Nëse merrni vetëm ndryshimin O - E, atëherë një masë e tillë do të varet nga shkalla e të dhënave (frekuencave). Për shembull, 20 - 5 = 15 dhe 1020 - 1005 = 15. Në të dyja rastet, ndryshimi është 15. Por në rastin e parë, frekuencat e pritura janë 3 herë më pak se ato të vëzhguara, dhe në rastin e dytë - vetëm 1.5 %. Ne kemi nevojë për një masë relative që nuk varet nga shkalla.
Le t'i kushtojmë vëmendje fakteve të mëposhtme. Në përgjithësi, numri i kategorive në të cilat maten frekuencat mund të jetë shumë më i madh, kështu që gjasat që një vëzhgim i vetëm të bjerë në një kategori ose në një tjetër është mjaft i vogël. Nëse po, atëherë shpërndarja e një ndryshoreje të tillë të rastësishme do t'i bindet ligjit të ngjarjeve të rralla, i njohur si Ligji i Poisson-it. Në ligjin e Poisson-it, siç dihet, vlera e pritjes matematikore dhe varianca përputhen (parametri λ ). Kjo do të thotë se frekuenca e pritur për disa kategori të ndryshores nominale E i do të jetë i njëkohshëm dhe shpërndarja e tij. Më tej, ligji i Poisson-it priret në normalitet me një numër të madh vëzhgimesh. Duke kombinuar këto dy fakte, marrim se nëse hipoteza për marrëveshjen midis frekuencave të vëzhguara dhe të pritura është e saktë, atëherë, me një numër të madh vëzhgimesh, shprehje
Është e rëndësishme të mbani mend se normaliteti do të shfaqet vetëm në frekuenca mjaft të larta. Në statistika, përgjithësisht pranohet që numri i përgjithshëm i vëzhgimeve (shuma e frekuencave) duhet të jetë së paku 50 dhe frekuenca e pritur në çdo gradim duhet të jetë së paku 5. Vetëm në këtë rast, vlera e treguar më sipër ka një shpërndarje normale standarde . Le të supozojmë se plotësohet ky kusht.
Shpërndarja normale standarde ka pothuajse të gjitha vlerat brenda ±3 (rregulli tre-sigma). Kështu, ne morëm ndryshimin relativ në frekuenca për një gradim. Ne kemi nevojë për një masë të përgjithësueshme. Ju nuk mund të shtoni vetëm të gjitha devijimet - ne marrim 0 (mendoni pse). Pearson sugjeroi mbledhjen e katrorëve të këtyre devijimeve.
Kjo është shenja Testi Chi-square Pearson. Nëse frekuencat vërtet korrespondojnë me ato të pritura, atëherë vlera e kriterit do të jetë relativisht e vogël (pasi shumica e devijimeve janë rreth zeros). Por nëse kriteri rezulton i madh, atëherë kjo tregon dallime të rëndësishme midis frekuencave.
Kriteri Pearson bëhet "i madh" kur shfaqja e një vlere të tillë ose edhe më të madhe bëhet e pamundur. Dhe për të llogaritur një probabilitet të tillë, është e nevojshme të dihet shpërndarja e kriterit kur eksperimenti përsëritet shumë herë, kur hipoteza e marrëveshjes së frekuencës është e saktë.
Siç mund të shihet lehtë, vlera chi-katror varet gjithashtu nga numri i termave. Sa më shumë të ketë, aq më e madhe është vlera që duhet të ketë kriteri, sepse çdo term do të kontribuojë në total. Prandaj, për çdo sasi të pavarur kushtet, do të ketë shpërndarjen e vet. Rezulton se χ 2është një familje e tërë shpërndarjesh.
Dhe këtu kemi ardhur në një moment delikat. Çfarë është një numër të pavarur kushtet? Duket sikur çdo term (d.m.th. devijim) është i pavarur. Kështu mendoi edhe K. Pearson, por ai doli të ishte gabim. Në fakt, numri i termave të pavarur do të jetë një më pak se numri i gradimeve të ndryshores nominale n. Pse? Sepse nëse kemi një mostër për të cilën shuma e frekuencave tashmë është llogaritur, atëherë njëra nga frekuencat mund të përcaktohet gjithmonë si diferencë midis numrit total dhe shumës së të gjitha të tjerave. Prandaj ndryshimi do të jetë disi më i vogël. Ronald Fisher e vuri re këtë fakt 20 vjet pasi Pearson zhvilloi kriterin e tij. Edhe tavolinat duhej të ribëheshin.
Me këtë rast, Fisher prezantoi një koncept të ri në statistika - shkalla e lirisë(gradat e lirisë), që paraqet numrin e termave të pavarur në shumë. Koncepti i shkallëve të lirisë ka një shpjegim matematikor dhe shfaqet vetëm në shpërndarjet që lidhen me normalen (Student's, Fisher-Snedecor dhe vetë chi-square).
Për të kuptuar më mirë kuptimin e shkallëve të lirisë, le t'i drejtohemi një analoge fizike. Le të imagjinojmë një pikë që lëviz lirshëm në hapësirë. Ka 3 shkallë lirie, sepse mund të lëvizë në çdo drejtim në hapësirën tredimensionale. Nëse një pikë lëviz përgjatë ndonjë sipërfaqeje, atëherë ajo tashmë ka dy shkallë lirie (para dhe mbrapa, majtas dhe djathtas), megjithëse vazhdon të jetë në hapësirën tredimensionale. Një pikë që lëviz përgjatë një burimi është përsëri në hapësirën tre-dimensionale, por ka vetëm një shkallë lirie, sepse mund të lëvizë përpara ose prapa. Siç mund ta shihni, hapësira ku ndodhet objekti nuk korrespondon gjithmonë me lirinë reale të lëvizjes.
Përafërsisht në të njëjtën mënyrë, shpërndarja e një kriteri statistikor mund të varet nga një numër më i vogël elementësh sesa termat e nevojshëm për ta llogaritur atë. Në përgjithësi, numri i shkallëve të lirisë është më i vogël se numri i vëzhgimeve nga numri i varësive ekzistuese.
Kështu, shpërndarja e katrorit chi ( χ 2) është një familje shpërndarjesh, secila prej të cilave varet nga parametri i shkallës së lirisë. Dhe përkufizimi zyrtar i testit chi-square është si më poshtë. Shpërndarja χ 2(chi-katror) s k shkallët e lirisë është shpërndarja e shumës së katrorëve k variabla normale të rastësishme standarde të pavarura.
Më tej, ne mund të kalojmë në vetë formulën me të cilën llogaritet funksioni i shpërndarjes chi-square, por, për fat, gjithçka është llogaritur prej kohësh për ne. Për të marrë probabilitetin e interesit, mund të përdorni ose tabelën e duhur statistikore ose një funksion të gatshëm në Excel.
Është interesante të shihet se si ndryshon forma e shpërndarjes chi-katrore në varësi të numrit të shkallëve të lirisë.
Me rritjen e shkallës së lirisë, shpërndarja e katrorit chi priret të jetë normale. Kjo shpjegohet me veprimin e teoremës së kufirit qendror, sipas së cilës shuma e një numri të madh të ndryshoreve të rastësishme të pavarura ka një shpërndarje normale. Nuk thotë asgjë për katrorët)).
Testimi i hipotezës duke përdorur testin chi-square Pearson
Tani kemi ardhur në testimin e hipotezave duke përdorur metodën chi-square. Në përgjithësi, teknologjia mbetet. Hipoteza zero është se frekuencat e vëzhguara korrespondojnë me ato të pritura (d.m.th. nuk ka asnjë ndryshim midis tyre sepse ato janë marrë nga e njëjta popullatë). Nëse është kështu, atëherë shpërndarja do të jetë relativisht e vogël, brenda kufijve të luhatjeve të rastësishme. Masa e dispersionit përcaktohet duke përdorur testin chi-square. Më pas, ose krahasohet vetë kriteri me vlerën kritike (për nivelin përkatës të rëndësisë dhe shkallët e lirisë), ose, çfarë është më e sakta, llogaritet vlera p-vëzhguar, d.m.th. probabiliteti i përftimit të vlerës së njëjtë apo edhe më të madhe të kriterit nëse hipoteza zero është e vërtetë.
Sepse ne jemi të interesuar për pajtimin e frekuencave, atëherë hipoteza do të hidhet poshtë kur kriteri është më i madh se niveli kritik. ato. kriteri është i njëanshëm. Sidoqoftë, ndonjëherë (ndonjëherë) është e nevojshme të testohet hipoteza e dorës së majtë. Për shembull, kur të dhënat empirike janë shumë të ngjashme me të dhënat teorike. Atëherë kriteri mund të bjerë në një rajon të pamundur, por në të majtë. Fakti është se në kushte natyrore, nuk ka gjasa të merren frekuenca që praktikisht përkojnë me ato teorike. Gjithmonë ka ndonjë rastësi që jep një gabim. Por nëse nuk ka një gabim të tillë, atëherë ndoshta të dhënat janë falsifikuar. Por megjithatë, hipoteza e anës së djathtë zakonisht testohet.
Le të kthehemi te problemi i zareve. Le të llogarisim vlerën e testit chi-square duke përdorur të dhënat e disponueshme.
Tani le të gjejmë vlerën kritike në 5 gradë lirie ( k) dhe niveli i rëndësisë 0.05 ( α ) sipas tabelës së vlerave kritike të shpërndarjes së katrorit chi.
Kjo do të thotë, kuantili 0.05 është një shpërndarje chi në katror (bishti i djathtë) me 5 gradë lirie χ 2 0,05; 5 = 11,1.
Le të krahasojmë vlerat aktuale dhe të tabeluara. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Kriteri i llogaritur doli të jetë më i vogël, që do të thotë se hipoteza e barazisë (marrëveshjes) e frekuencave nuk hidhet poshtë. Në figurë, situata duket kështu.
Nëse vlera e llogaritur binte brenda rajonit kritik, hipoteza zero do të refuzohej.
Do të ishte më e saktë të llogaritet edhe vlera p. Për ta bërë këtë, duhet të gjeni vlerën më të afërt në tabelë për një numër të caktuar të shkallëve të lirisë dhe të shikoni nivelin përkatës të rëndësisë. Por kjo shekullit të kaluar. Ne do të përdorim një kompjuter, në veçanti MS Excel. Excel ka disa funksione që lidhen me chi-square.
Më poshtë është një përshkrim i shkurtër i tyre.
CH2.OBR- vlera kritike e kriterit me një probabilitet të caktuar në të majtë (si në tabelat statistikore)
CH2.OBR.PH– vlera kritike e kriterit për një probabilitet të caktuar në të djathtë. Funksioni në thelb kopjon atë të mëparshëm. Por këtu mund të tregoni menjëherë nivelin α , në vend që ta zbresim atë nga 1. Kjo është më e përshtatshme, sepse në shumicën e rasteve, është bishti i djathtë i shpërndarjes që nevojitet.
CH2.DIST– P-vlera në të majtë (dendësia mund të llogaritet).
CH2.DIST.PH– P-vlera në të djathtë.
CHI2.TESTI– kryen menjëherë një test chi-square për dy diapazon frekuencash. Numri i shkallëve të lirisë merret të jetë një më pak se numri i frekuencave në kolonë (siç duhet të jetë), duke kthyer një vlerë p.
Le të llogarisim për eksperimentin tonë vlerën kritike (tabelore) për 5 shkallë lirie dhe alfa 0,05. Formula Excel do të duket si kjo:
CH2.OBR(0.95;5)
CH2.OBR.PH(0.05;5)
Rezultati do të jetë i njëjtë - 11.0705. Kjo është vlera që shohim në tabelë (e rrumbullakosur në 1 dhjetor).
Le të llogarisim në fund vlerën p për kriterin 5 gradë lirie χ 2= 3.4. Ne kemi nevojë për probabilitetin në të djathtë, kështu që ne marrim funksionin me shtimin e HH (bishti i djathtë)
CH2.DIST.PH(3.4;5) = 0.63857
Kjo do të thotë se me 5 gradë lirie probabiliteti për të marrë vlerën e kriterit është χ 2= 3.4 dhe më shumë është pothuajse 64%. Natyrisht, hipoteza nuk hidhet poshtë (p-vlera është më e madhe se 5%), frekuencat janë në përputhje shumë të mirë.
Tani le të kontrollojmë hipotezën për pajtimin e frekuencave duke përdorur testin chi-square dhe funksionin Excel CHI2.TEST.
Pa tabela, pa llogaritje të rënda. Duke specifikuar kolonat me frekuenca të vëzhguara dhe të pritshme si argumente funksioni, marrim menjëherë vlerën p. Bukuria.
Tani imagjinoni se po luani zare me një djalë të dyshimtë. Shpërndarja e pikëve nga 1 në 5 mbetet e njëjtë, por ai rrotullon 26 gjashtëshe (numri i përgjithshëm i gjuajtjeve bëhet 78).
Vlera p në këtë rast rezulton të jetë 0.003, që është shumë më pak se 0.05. Ka arsye të mira për të dyshuar në vlefshmërinë e zareve. Ja se si duket kjo probabilitet në një grafik të shpërndarjes chi-square.
Vetë kriteri chi-square këtu rezulton të jetë 17.8, i cili, natyrisht, është më i madh se ai i tabelës (11.1).
Shpresoj se kam qenë në gjendje të shpjegoj se cili është kriteri i marrëveshjes χ 2(Pearson chi-square) dhe si mund të përdoret për të testuar hipotezat statistikore.
Më në fund, edhe një herë për një kusht të rëndësishëm! Testi chi-square funksionon si duhet vetëm kur numri i të gjitha frekuencave kalon 50, dhe vlera minimale e pritur për çdo gradim nuk është më e vogël se 5. Nëse në ndonjë kategori frekuenca e pritur është më e vogël se 5, por shuma e të gjitha frekuencave tejkalon 50, atëherë kategoria e tillë kombinohet me atë më të afërt në mënyrë që frekuenca e tyre totale të kalojë 5. Nëse kjo nuk është e mundur, ose shuma e frekuencave është më e vogël se 50, atëherë duhet të përdoren metoda më të sakta të testimit të hipotezave. Ne do të flasim për ta një herë tjetër.
Më poshtë është një video se si të testoni një hipotezë në Excel duke përdorur testin chi-square.
Le të jenë U 1, U 2, ..,U k standard i pavarur vlerat normale. Shpërndarja e ndryshores së rastësishme K = U 1 2 +U 2 2 + .. + U k 2 quhet shpërndarja chi-katrore me k shkallët e lirisë (shkruani K~χ 2 (k)). Kjo është një shpërndarje unimodale me anshmëri pozitive dhe karakteristikat e mëposhtme: modaliteti M=k-2 vlera e pritur m=k dispersion D=2k (Fig.). Me një vlerë mjaft të madhe të parametrit k shpërndarja χ 2 (k) ka një shpërndarje afërsisht normale me parametra
Gjatë zgjidhjes së problemeve të statistikave matematikore, përdoren pikat kritike χ 2 (k), në varësi të probabilitetit të dhënë α dhe numrit të shkallëve të lirisë. k(Shtojca 2). Pika kritike Χ 2 kr = Χ 2 (k; α) është kufiri i rajonit në të djathtë të të cilit shtrihet 100- α % e sipërfaqes nën lakoren e densitetit të shpërndarjes. Probabiliteti që vlera e ndryshores së rastësishme K~χ 2 (k) gjatë testimit të bjerë në të djathtë të pikës χ 2 (k) nuk e kalon α P(K≥χ 2 kp)≤ α). Për shembull, për variablin e rastësishëm K~χ 2 (20) vendosim probabilitetin α=0.05. Duke përdorur tabelën e pikave kritike të shpërndarjes chi-katrore (tabelat), gjejmë χ 2 kp = χ 2 (20;0.05) = 31.4. Kjo do të thotë se probabiliteti i kësaj ndryshoreje të rastësishme K pranoni një vlerë më të madhe se 31.4, më pak se 0.05 (Fig.).
Oriz. Grafiku i densitetit të shpërndarjes χ 2 (k) për vlera të ndryshme të numrit të shkallëve të lirisë k
Pikat kritike χ 2 (k) përdoren në kalkulatorët e mëposhtëm:
- Kontrollimi i pranisë së multikolinearitetit (rreth multikolinearitetit).
Prandaj, për të kontrolluar drejtimin e komunikimit, zgjidhni analiza e korrelacionit, në veçanti, testimi i hipotezës duke përdorur koeficientin e korrelacionit Pearson me testim të mëtejshëm për rëndësinë duke përdorur testin t.
Për çdo vlerë të nivelit të rëndësisë α Χ 2 mund të gjendet duke përdorur funksionin MS Excel: =HI2OBR(α;gradë lirie)
n-1 | .995 | .990 | .975 | .950 | .900 | .750 | .500 | .250 | .100 | .050 | .025 | .010 | .005 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0.00004 | 0.00016 | 0.00098 | 0.00393 | 0.01579 | 0.10153 | 0.45494 | 1.32330 | 2.70554 | 3.84146 | 5.02389 | 6.63490 | 7.87944 |
2 | 0.01003 | 0.02010 | 0.05064 | 0.10259 | 0.21072 | 0.57536 | 1.38629 | 2.77259 | 4.60517 | 5.99146 | 7.37776 | 9.21034 | 10.59663 |
3 | 0.07172 | 0.11483 | 0.21580 | 0.35185 | 0.58437 | 1.21253 | 2.36597 | 4.10834 | 6.25139 | 7.81473 | 9.34840 | 11.34487 | 12.83816 |
4 | 0.20699 | 0.29711 | 0.48442 | 0.71072 | 1.06362 | 1.92256 | 3.35669 | 5.38527 | 7.77944 | 9.48773 | 11.14329 | 13.27670 | 14.86026 |
5 | 0.41174 | 0.55430 | 0.83121 | 1.14548 | 1.61031 | 2.67460 | 4.35146 | 6.62568 | 9.23636 | 11.07050 | 12.83250 | 15.08627 | 16.74960 |
6 | 0.67573 | 0.87209 | 1.23734 | 1.63538 | 2.20413 | 3.45460 | 5.34812 | 7.84080 | 10.64464 | 12.59159 | 14.44938 | 16.81189 | 18.54758 |
7 | 0.98926 | 1.23904 | 1.68987 | 2.16735 | 2.83311 | 4.25485 | 6.34581 | 9.03715 | 12.01704 | 14.06714 | 16.01276 | 18.47531 | 20.27774 |
8 | 1.34441 | 1.64650 | 2.17973 | 2.73264 | 3.48954 | 5.07064 | 7.34412 | 10.21885 | 13.36157 | 15.50731 | 17.53455 | 20.09024 | 21.95495 |
9 | 1.73493 | 2.08790 | 2.70039 | 3.32511 | 4.16816 | 5.89883 | 8.34283 | 11.38875 | 14.68366 | 16.91898 | 19.02277 | 21.66599 | 23.58935 |
10 | 2.15586 | 2.55821 | 3.24697 | 3.94030 | 4.86518 | 6.73720 | 9.34182 | 12.54886 | 15.98718 | 18.30704 | 20.48318 | 23.20925 | 25.18818 |
11 | 2.60322 | 3.05348 | 3.81575 | 4.57481 | 5.57778 | 7.58414 | 10.34100 | 13.70069 | 17.27501 | 19.67514 | 21.92005 | 24.72497 | 26.75685 |
12 | 3.07382 | 3.57057 | 4.40379 | 5.22603 | 6.30380 | 8.43842 | 11.34032 | 14.84540 | 18.54935 | 21.02607 | 23.33666 | 26.21697 | 28.29952 |
13 | 3.56503 | 4.10692 | 5.00875 | 5.89186 | 7.04150 | 9.29907 | 12.33976 | 15.98391 | 19.81193 | 22.36203 | 24.73560 | 27.68825 | 29.81947 |
14 | 4.07467 | 4.66043 | 5.62873 | 6.57063 | 7.78953 | 10.16531 | 13.33927 | 17.11693 | 21.06414 | 23.68479 | 26.11895 | 29.14124 | 31.31935 |
15 | 4.60092 | 5.22935 | 6.26214 | 7.26094 | 8.54676 | 11.03654 | 14.33886 | 18.24509 | 22.30713 | 24.99579 | 27.48839 | 30.57791 | 32.80132 |
16 | 5.14221 | 5.81221 | 6.90766 | 7.96165 | 9.31224 | 11.91222 | 15.33850 | 19.36886 | 23.54183 | 26.29623 | 28.84535 | 31.99993 | 34.26719 |
17 | 5.69722 | 6.40776 | 7.56419 | 8.67176 | 10.08519 | 12.79193 | 16.33818 | 20.48868 | 24.76904 | 27.58711 | 30.19101 | 33.40866 | 35.71847 |
18 | 6.26480 | 7.01491 | 8.23075 | 9.39046 | 10.86494 | 13.67529 | 17.33790 | 21.60489 | 25.98942 | 28.86930 | 31.52638 | 34.80531 | 37.15645 |
19 | 6.84397 | 7.63273 | 8.90652 | 10.11701 | 11.65091 | 14.56200 | 18.33765 | 22.71781 | 27.20357 | 30.14353 | 32.85233 | 36.19087 | 38.58226 |
20 | 7.43384 | 8.26040 | 9.59078 | 10.85081 | 12.44261 | 15.45177 | 19.33743 | 23.82769 | 28.41198 | 31.41043 | 34.16961 | 37.56623 | 39.99685 |
21 | 8.03365 | 8.89720 | 10.28290 | 11.59131 | 13.23960 | 16.34438 | 20.33723 | 24.93478 | 29.61509 | 32.67057 | 35.47888 | 38.93217 | 41.40106 |
22 | 8.64272 | 9.54249 | 10.98232 | 12.33801 | 14.04149 | 17.23962 | 21.33704 | 26.03927 | 30.81328 | 33.92444 | 36.78071 | 40.28936 | 42.79565 |
23 | 9.26042 | 10.19572 | 11.68855 | 13.09051 | 14.84796 | 18.13730 | 22.33688 | 27.14134 | 32.00690 | 35.17246 | 38.07563 | 41.63840 | 44.18128 |
24 | 9.88623 | 10.85636 | 12.40115 | 13.84843 | 15.65868 | 19.03725 | 23.33673 | 28.24115 | 33.19624 | 36.41503 | 39.36408 | 42.97982 | 45.55851 |
25 | 10.51965 | 11.52398 | 13.11972 | 14.61141 | 16.47341 | 19.93934 | 24.33659 | 29.33885 | 34.38159 | 37.65248 | 40.64647 | 44.31410 | 46.92789 |
26 | 11.16024 | 12.19815 | 13.84390 | 15.37916 | 17.29188 | 20.84343 | 25.33646 | 30.43457 | 35.56317 | 38.88514 | 41.92317 | 45.64168 | 48.28988 |
27 | 11.80759 | 12.87850 | 14.57338 | 16.15140 | 18.11390 | 21.74940 | 26.33634 | 31.52841 | 36.74122 | 40.11327 | 43.19451 | 46.96294 | 49.64492 |
28 | 12.46134 | 13.56471 | 15.30786 | 16.92788 | 18.93924 | 22.65716 | 27.33623 | 32.62049 | 37.91592 | 41.33714 | 44.46079 | 48.27824 | 50.99338 |
29 | 13.12115 | 14.25645 | 16.04707 | 17.70837 | 19.76774 | 23.56659 | 28.33613 | 33.71091 | 39.08747 | 42.55697 | 45.72229 | 49.58788 | 52.33562 |
30 | 13.78672 | 14.95346 | 16.79077 | 18.49266 | 20.59923 | 24.47761 | 29.33603 | 34.79974 | 40.25602 | 43.77297 | 46.97924 | 50.89218 | 53.67196 |
Numri i shkallëve të lirisë k | Niveli i rëndësisë a | |||||
0,01 | 0,025 | 0.05 | 0,95 | 0,975 | 0.99 | |
1 | 6.6 | 5.0 | 3.8 | 0.0039 | 0.00098 | 0.00016 |
2 | 9.2 | 7.4 | 6.0 | 0.103 | 0.051 | 0.020 |
3 | 11.3 | 9.4 | 7.8 | 0.352 | 0.216 | 0.115 |
4 | 13.3 | 11.1 | 9.5 | 0.711 | 0.484 | 0.297 |
5 | 15.1 | 12.8 | 11.1 | 1.15 | 0.831 | 0.554 |
6 | 16.8 | 14.4 | 12.6 | 1.64 | 1.24 | 0.872 |
7 | 18.5 | 16.0 | 14.1 | 2.17 | 1.69 | 1.24 |
8 | 20.1 | 17.5 | 15.5 | 2.73 | 2.18 | 1.65 |
9 | 21.7 | 19.0 | 16.9 | 3.33 | 2.70 | 2.09 |
10 | 23.2 | 20.5 | 18.3 | 3.94 | 3.25 | 2.56 |
11 | 24.7 | 21.9 | 19.7 | 4.57 | 3.82 | 3.05 |
12 | 26.2 | 23.3 | 21 .0 | 5.23 | 4.40 | 3.57 |
13 | 27.7 | 24.7 | 22.4 | 5.89 | 5.01 | 4.11 |
14 | 29.1 | 26.1 | 23.7 | 6.57 | 5.63 | 4.66 |
15 | 30.6 | 27.5 | 25.0 | 7.26 | 6.26 | 5.23 |
16 | 32.0 | 28.8 | 26.3 | 7.96 | 6.91 | 5.81 |
17 | 33.4 | 30.2 | 27.6 | 8.67 | 7.56 | 6.41 |
18 | 34.8 | 31.5 | 28.9 | 9.39 | 8.23 | 7.01 |
19 | 36.2 | 32.9 | 30.1 | 10.1 | 8.91 | 7.63 |
20 | 37.6 | 34.2 | 31.4 | 10.9 | 9.59 | 8.26 |
21 | 38.9 | 35.5 | 32.7 | 11.6 | 10.3 | 8.90 |
22 | 40.3 | 36.8 | 33.9 | 12.3 | 11.0 | 9.54 |
23 | 41.6 | 38.1 | 35.2 | 13.1 | 11.7 | 10.2 |
24 | 43.0 | 39.4 | 36.4 | 13.8 | 12.4 | 10.9 |
25 | 44.3 | 40.6 | 37.7 | 14.6 | 13.1 | 11.5 |
26 | 45.6 | 41.9 | 38.9 | 15.4 | 13.8 | 12.2 |
27 | 47.0 | 43.2 | 40.1 | 16.2 | 14.6 | 12.9 |
28 | 48.3 | 44.5 | 41.3 | 16.9 | 15.3 | 13.6 |
29 | 49.6 | 45.7 | 42.6 | 17.7 | 16.0 | 14.3 |
30 | 50.9 | 47.0 | 43.8 | 18.5 | 16.8 | 15.0 |
Shpërndarjet Pearson (chi-squared), Student dhe Fisher
Duke përdorur shpërndarjen normale, përcaktohen tre shpërndarje që tani përdoren shpesh në përpunimin e të dhënave statistikore. Këto shpërndarje shfaqen shumë herë në pjesët e mëvonshme të librit.
Shpërndarja Pearson (chi - katror) – shpërndarja e një ndryshoreje të rastësishme
Ku variablat e rastësishëm X 1 , X 2 ,…, X n të pavarura dhe kanë të njëjtën shpërndarje N(0,1). Në këtë rast, numri i termave, d.m.th. n, quhet "numri i shkallëve të lirisë" të shpërndarjes chi-katrore.
Shpërndarja chi-square përdoret kur vlerësohet varianca (duke përdorur një interval besimi), kur testohen hipotezat e marrëveshjes, homogjenitetit, pavarësisë, kryesisht për variabla cilësorë (të kategorizuar) që marrin një numër të kufizuar vlerash dhe në shumë detyra të tjera. Analiza statistikore të dhëna
Shpërndarja t T-ja e studentit është shpërndarja e një ndryshoreje të rastësishme
ku janë variablat e rastësishëm U Dhe X i pavarur, U ka një shpërndarje normale standarde N(0.1), dhe X– shpërndarja chi – katror c n shkallët e lirisë. Ku n quhet “numri i shkallëve të lirisë” i shpërndarjes së Studentit.
Shpërndarja Studentore u prezantua në vitin 1908 nga statisticieni anglez W. Gosset, i cili punonte në një fabrikë birre. Për marrjen e vendimeve ekonomike dhe teknike në këtë fabrikë u përdorën metoda probabiliste dhe statistikore, ndaj drejtuesit e saj e ndaluan V. Gosset të botonte artikuj shkencorë me emrin e tij. Në këtë mënyrë mbroheshin sekretet tregtare dhe “know-how” në formën e metodave probabiliste dhe statistikore të zhvilluara nga V. Gosset. Megjithatë, ai pati mundësinë të botonte me pseudonimin “Studenti”. Historia Gosset-Student tregon se edhe njëqind vjet më parë, menaxherët britanikë ishin në dijeni të madhështisë efikasiteti ekonomik metodat probabilistiko-statistikore.
Aktualisht, shpërndarja Studenti është një nga shpërndarjet më të njohura që përdoret në analizën e të dhënave reale. Përdoret kur vlerësohet pritshmëria matematikore, vlera e parashikimit dhe karakteristikat e tjera duke përdorur intervale besimi, testimi i hipotezave për vlerat e pritjeve matematikore, koeficientët e regresionit, hipotezat e homogjenitetit të mostrës, etj. .
Shpërndarja Fisher është shpërndarja e një ndryshoreje të rastësishme
ku janë variablat e rastësishëm X 1 Dhe X 2 janë të pavarura dhe kanë shpërndarje chi-katrore me numrin e shkallëve të lirisë k 1 Dhe k 2 përkatësisht. Në të njëjtën kohë, çifti (k 1 , k 2 ) - një palë "shkallë lirie" të shpërndarjes së Fisher, përkatësisht, k 1 është numri i shkallëve të lirisë së numëruesit, dhe k 2 – numri i shkallëve të lirisë së emëruesit. Shpërndarja e një ndryshoreje të rastësishme F emëruar pas statisticienit të madh anglez R. Fisher (1890-1962), i cili e përdori atë në mënyrë aktive në veprat e tij.
Shpërndarja Fisher përdoret kur testohen hipotezat për përshtatshmërinë e modelit në analizën e regresionit, barazinë e variancave dhe në probleme të tjera të statistikave të aplikuara.
Shprehjet për funksionet chi-square, Student dhe Fisher, dendësia dhe karakteristikat e tyre, si dhe tabelat e nevojshme për përdorimin e tyre praktik, mund të gjenden në literaturën e specializuar (shih, për shembull,).
23. Koncepti i chi-square dhe shpërndarjes studentore, dhe pamje grafike
1) Një shpërndarje (chi-katror) me n shkallë lirie është shpërndarja e shumës së katrorëve të n variablave standarde të pavarura të rastit.
Shpërndarja (chi-katror)- shpërndarja e një ndryshoreje të rastësishme (dhe pritshmëria matematikore e secilës prej tyre është 0, dhe devijimi standard është 1)
ku janë variablat e rastësishëm janë të pavarura dhe kanë të njëjtën shpërndarje. Në këtë rast, numri i termave, d.m.th. , quhet "numri i shkallëve të lirisë" i shpërndarjes chi-katrore. Numri chi-katror përcaktohet nga një parametër, numri i shkallëve të lirisë. Ndërsa numri i shkallëve të lirisë rritet, shpërndarja ngadalë i afrohet normales.
Pastaj shuma e katrorëve të tyre
është një ndryshore e rastësishme e shpërndarë sipas të ashtuquajturit ligj chi-katror me k = n shkallë lirie; nëse termat lidhen me ndonjë relacion (për shembull, ), atëherë numri i shkallëve të lirisë k = n – 1.
Dendësia e kësaj shpërndarjeje
Këtu është funksioni gama; në veçanti, Г(n + 1) = n! .
Prandaj, shpërndarja chi-katrore përcaktohet nga një parametër - numri i shkallëve të lirisë k.
Vërejtje 1. Me rritjen e numrit të shkallëve të lirisë, shpërndarja chi-katror gradualisht i afrohet normales.
Vërejtje 2. Duke përdorur shpërndarjen chi-square, përcaktohen shumë shpërndarje të tjera të hasura në praktikë, p.sh., shpërndarja e një ndryshoreje të rastësishme - gjatësia e një vektori të rastit (X1, X2,..., Xn), koordinatat e të cilat janë të pavarura dhe të shpërndara sipas ligjit normal.
Shpërndarja χ2 u konsiderua për herë të parë nga R. Helmert (1876) dhe K. Pearson (1900).
Math.prit.=n; D=2n
2) Shpërndarja e nxënësve
Konsideroni dy variabla të rastësishme të pavarura: Z, i cili ka një shpërndarje normale dhe është i normalizuar (d.m.th., M(Z) = 0, σ(Z) = 1) dhe V, i cili shpërndahet sipas ligjit chi-katror me k. shkallët e lirisë. Pastaj vlera
ka një shpërndarje të quajtur shpërndarje t ose shpërndarje Studenti me k shkallë lirie. Në këtë rast, k quhet "numri i shkallëve të lirisë" të shpërndarjes Student.
Ndërsa numri i shkallëve të lirisë rritet, shpërndarja e Studentëve i afrohet shpejt normales.
Kjo shpërndarje u prezantua në vitin 1908 nga statisticieni anglez W. Gosset, i cili punonte në një fabrikë birre. Për marrjen e vendimeve ekonomike dhe teknike në këtë fabrikë u përdorën metoda probabiliste dhe statistikore, ndaj drejtuesit e saj e ndaluan V. Gosset të botonte artikuj shkencorë me emrin e tij. Në këtë mënyrë mbroheshin sekretet tregtare dhe “know-how” në formën e metodave probabiliste dhe statistikore të zhvilluara nga V. Gosset. Megjithatë, ai pati mundësinë të botonte me pseudonimin “Studenti”. Historia Gosset-Student tregon se edhe njëqind vjet më parë, menaxherët e Mbretërisë së Bashkuar ishin të vetëdijshëm për efikasitetin më të madh ekonomik të metodave probabiliste dhe statistikore të vendimmarrjes.