Shpërndarja Pearson (shpërndarja chi-square). Metodat klasike të statistikës: testi chi-katror shpërndarja në katror Ksi

Shpërndarja chi-square është një nga më të përdorurat në statistika për testimin e hipotezave statistikore. Bazuar në shpërndarjen chi-square, është ndërtuar një nga testet më të fuqishme të përshtatshmërisë - testi chi-square Pearson.

Kriteri i marrëveshjes është kriteri për testimin e hipotezës për ligjin e supozuar të një shpërndarjeje të panjohur.

Testi χ2 (chi-square) përdoret për të testuar hipotezën e shpërndarjeve të ndryshme. Ky është dinjiteti i tij.

Formula e llogaritjes së kriterit është e barabartë me

ku m dhe m’ janë respektivisht frekuenca empirike dhe teorike

shpërndarjen në fjalë;

n është numri i shkallëve të lirisë.

Për të kontrolluar, duhet të krahasojmë frekuencat empirike (të vëzhguara) dhe teorike (të llogaritura nën supozimin e një shpërndarje normale).

Nëse frekuencat empirike përkojnë plotësisht me frekuencat e llogaritura ose të pritura, S (E – T) = 0 dhe kriteri χ2 do të jetë gjithashtu i barabartë me zero. Nëse S (E – T) nuk është e barabartë me zero, kjo do të tregojë një mospërputhje midis frekuencave të llogaritura dhe frekuencave empirike të serisë. Në raste të tilla, është e nevojshme të vlerësohet rëndësia e kriterit χ2, i cili teorikisht mund të ndryshojë nga zero në pafundësi. Kjo bëhet duke krahasuar vlerën e përftuar në fakt të χ2ф me vlerën e saj kritike (χ2st) Hipoteza zero, pra supozimi se mospërputhja midis frekuencave empirike dhe teorike ose të pritshme është e rastësishme, hidhet poshtë nëse χ2ф është më e madhe ose e barabartë me χ2st për nivelin e pranuar të rëndësisë (a) dhe numrin e shkallëve të lirisë (n).

Shpërndarja e vlerave të mundshme të ndryshores së rastësishme χ2 është e vazhdueshme dhe asimetrike. Varet nga numri i shkallëve të lirisë (n) dhe i afrohet një shpërndarjeje normale ndërsa numri i vëzhgimeve rritet. Prandaj zbatimi i kriterit χ2 në vlerësim shpërndarje diskrete shoqërohet me disa gabime që ndikojnë në vlerën e tij, veçanërisht në mostrat e vogla. Për të marrë vlerësime më të sakta, një mostër e shpërndarë në seri variacionesh, duhet të ketë të paktën 50 opsione. Zbatimi i saktë i kriterit χ2 kërkon gjithashtu që frekuencat e varianteve në klasat ekstreme të mos jenë më të vogla se 5; nëse janë më pak se 5 të tilla, atëherë ato kombinohen me frekuencat e klasave fqinje në mënyrë që shuma e përgjithshme të jetë më e madhe ose e barabartë me 5. Sipas kombinimit të frekuencave, numri i klasave (N) zvogëlohet. Numri i shkallëve të lirisë përcaktohet nga numri dytësor i klasave, duke marrë parasysh numrin e kufizimeve në lirinë e ndryshimit.

Meqenëse saktësia e përcaktimit të kriterit χ2 varet në masë të madhe nga saktësia e llogaritjes së frekuencave teorike (T), frekuencat teorike të pa rrumbullakosura duhet të përdoren për të marrë diferencën midis frekuencave empirike dhe të llogaritura.

Si shembull, le të marrim një studim të publikuar në një faqe interneti të dedikuar për përdorimin e metodat statistikore në shkencat humane.

Testi Chi-square ju lejon të krahasoni shpërndarjet e frekuencës pavarësisht nëse ato shpërndahen normalisht apo jo.

Frekuenca i referohet numrit të ndodhive të një ngjarjeje. Zakonisht, shpeshtësia e shfaqjes së ngjarjeve trajtohet kur variablat maten në një shkallë emrash dhe karakteristikat e tjera të tyre, përveç shpeshtësisë, janë të pamundura ose problematike për t'u përzgjedhur. Me fjalë të tjera, kur një variabël ka karakteristika cilësore. Gjithashtu, shumë studiues priren të konvertojnë rezultatet e testit në nivele (të larta, mesatare, të ulëta) dhe të ndërtojnë tabela të shpërndarjeve të rezultateve për të zbuluar numrin e njerëzve në këto nivele. Për të vërtetuar se në një nga nivelet (në një nga kategoritë) numri i njerëzve është vërtet më i madh (më pak) përdoret gjithashtu koeficienti Chi-square.

Le të shohim shembullin më të thjeshtë.

Një test u krye mes adoleshentëve më të rinj për të identifikuar vetëvlerësimin. Rezultatet e testit u shndërruan në tre nivele: të larta, të mesme, të ulëta. Frekuencat u shpërndanë si më poshtë:

Lartë (B) 27 persona.

Mesatarisht (C) 12 persona.

E ulët (L) 11 persona

Është e qartë se shumica e fëmijëve kanë vetëbesim të lartë, por kjo duhet të vërtetohet statistikisht. Për ta bërë këtë, ne përdorim testin Chi-square.

Detyra jonë është të kontrollojmë nëse të dhënat e marra empirike ndryshojnë nga ato teorikisht po aq të mundshme. Për ta bërë këtë, ju duhet të gjeni frekuencat teorike. Në rastin tonë, frekuencat teorike janë frekuenca po aq të mundshme, të cilat gjenden duke mbledhur të gjitha frekuencat dhe pjesëtuar me numrin e kategorive.

Në rastin tonë:

(B + C + H)/3 = (27+12+11)/3 = 16,6

Formula për llogaritjen e testit chi-square:

χ2 = ∑(E - T)I / T

Ne ndërtojmë tabelën:

Gjeni shumën e kolonës së fundit:

Tani ju duhet të gjeni vlerën kritike të kriterit duke përdorur tabelën e vlerave kritike (Tabela 1 në Shtojcën). Për ta bërë këtë, na duhet numri i shkallëve të lirisë (n).

n = (R - 1) * (C - 1)

ku R është numri i rreshtave në tabelë, C është numri i kolonave.

Në rastin tonë, ekziston vetëm një kolonë (që nënkupton frekuencat origjinale empirike) dhe tre rreshta (kategori), kështu që formula ndryshon - ne i përjashtojmë kolonat.

n = (R - 1) = 3-1 = 2

Për probabilitetin e gabimit p≤0.05 dhe n = 2, vlera kritike është χ2 = 5.99.

Vlera empirike e fituar është më e madhe se vlera kritike - dallimet në frekuenca janë të rëndësishme (χ2= 9,64; p≤0,05).

Siç mund ta shihni, llogaritja e kriterit është shumë e thjeshtë dhe nuk kërkon shumë kohë. Vlera praktike e testit chi-square është e madhe. Kjo metodë është më e vlefshme kur analizohen përgjigjet ndaj pyetësorëve.

Le të shohim një shembull më kompleks.

Për shembull, një psikolog dëshiron të dijë nëse është e vërtetë që mësuesit janë më të njëanshëm ndaj djemve sesa ndaj vajzave. ato. më shumë gjasa për të lavdëruar vajzat. Për ta bërë këtë, psikologu analizoi karakteristikat e studentëve të shkruar nga mësuesit për shpeshtësinë e shfaqjes së tre fjalëve: "aktiv", "i zellshëm", "i disiplinuar" dhe gjithashtu u numëruan sinonimet e fjalëve. Të dhënat për shpeshtësinë e shfaqjes së fjalëve u futën në tabelë:

Për të përpunuar të dhënat e marra përdorim testin chi-square.

Për ta bërë këtë, ne do të ndërtojmë një tabelë të shpërndarjes së frekuencave empirike, d.m.th. ato frekuenca që ne vëzhgojmë:

Teorikisht presim që frekuencat të shpërndahen në mënyrë të barabartë, d.m.th. frekuenca do të shpërndahet proporcionalisht ndërmjet djemve dhe vajzave. Le të ndërtojmë një tabelë të frekuencave teorike. Për ta bërë këtë, shumëzoni shumën e rreshtit me shumën e kolonës dhe ndani numrin që rezulton me shumën totale (s).

Tabela përfundimtare për llogaritjet do të duket si kjo:

χ2 = ∑(E - T)I / T

n = (R - 1), ku R është numri i rreshtave në tabelë.

Në rastin tonë, chi-katror = 4,21; n = 2.

Duke përdorur tabelën e vlerave kritike të kriterit, gjejmë: me n = 2 dhe një nivel gabimi 0.05, vlera kritike është χ2 = 5.99.

Vlera që rezulton është më e vogël se vlera kritike, që do të thotë se hipoteza zero pranohet.

Përfundim: mësuesit nuk i kushtojnë rëndësi gjinisë së fëmijës kur shkruajnë karakteristika për të.

konkluzioni.

K. Pearson dha një kontribut të rëndësishëm në zhvillim statistika matematikore(një numër i madh konceptesh themelore). Pozicioni kryesor filozofik i Pearson është formuluar si më poshtë: konceptet e shkencës janë ndërtime artificiale, mjete për të përshkruar dhe renditur përvojën shqisore; rregullat për lidhjen e tyre në fjali shkencore janë të izoluara nga gramatika e shkencës, e cila është filozofia e shkencës. Disiplina universale - statistikat e aplikuara - na lejon të lidhim koncepte dhe fenomene të ndryshme, megjithëse sipas Pearson është subjektive.

Shumë nga ndërtimet e K. Pearson janë të lidhura drejtpërdrejt ose të zhvilluara duke përdorur materiale antropologjike. Ai zhvilloi metoda të shumta të klasifikimit numerik dhe kritereve statistikore të përdorura në të gjitha fushat e shkencës.

Letërsia.

1. Bogolyubov A. N. Matematikë. Mekanika. Libër referencë biografike. - Kiev: Naukova Dumka, 1983.

2. Kolmogorov A. N., Yushkevich A. P. (eds.). Matematika e shekullit XIX. - M.: Shkencë. - T. I.

3. 3. Borovkov A.A. Statistikat e matematikës. M.: Nauka, 1994.

4. 8. Feller V. Hyrje në teorinë e probabilitetit dhe zbatimet e saj. - M.: Mir, T.2, 1984.

5. 9. Harman G., Analiza moderne e faktorëve. - M.: Statistikat, 1972.

Përpara fundi i XIX shekulli, shpërndarja normale u konsiderua si ligji universal i ndryshimit të të dhënave. Megjithatë, K. Pearson vuri në dukje se frekuencat empirike mund të ndryshojnë shumë nga shpërndarja normale. U ngrit pyetja se si të vërtetohet kjo. Kërkohej jo vetëm një krahasim grafik, i cili është subjektiv, por edhe një justifikim i rreptë sasior.

Kështu u shpik kriteri χ 2(katrori chi), i cili teston rëndësinë e mospërputhjes midis frekuencave empirike (të vëzhguara) dhe teorike (të pritshme). Kjo ndodhi në vitin 1900, por kriteri është ende në përdorim sot. Për më tepër, ai është përshtatur për të zgjidhur një gamë të gjerë problemesh. Para së gjithash, kjo është analiza e të dhënave kategorike, d.m.th. ato që shprehen jo nga sasia, por nga përkatësia në ndonjë kategori. Për shembull, klasa e makinës, gjinia e pjesëmarrësit në eksperiment, lloji i bimës, etj. Veprimet matematikore si mbledhja dhe shumëzimi nuk mund të zbatohen në të dhëna të tilla; frekuencat mund të llogariten vetëm për to.

Ne shënojmë frekuencat e vëzhguara Rreth (vëzhguar), e pritshme - E (E pritshme). Si shembull, le të marrim rezultatin e rrokullisjes së një bilete 60 herë. Nëse është simetrike dhe uniforme, probabiliteti për të marrë ndonjë anë është 1/6 dhe për këtë arsye numri i pritshëm i marrjes së secilës anë është 10 (1/6∙60). Frekuencat e vëzhguara dhe të pritura i shkruajmë në një tabelë dhe vizatojmë një histogram.

Hipoteza zero është se frekuencat janë të qëndrueshme, domethënë, të dhënat aktuale nuk kundërshtojnë të dhënat e pritura. Një hipotezë alternative është se devijimet në frekuenca shkojnë përtej luhatjeve të rastësishme, mospërputhjet janë statistikisht të rëndësishme. Për të nxjerrë një përfundim rigoroz, na duhet.

Një masë përmbledhëse e mospërputhjes midis frekuencave të vëzhguara dhe të pritshme.
Shpërndarja e kësaj mase nëse hipoteza se nuk ka dallime është e vërtetë.

Le të fillojmë me distancën midis frekuencave. Nëse merrni vetëm ndryshimin O - E, atëherë një masë e tillë do të varet nga shkalla e të dhënave (frekuencave). Për shembull, 20 - 5 = 15 dhe 1020 - 1005 = 15. Në të dyja rastet, ndryshimi është 15. Por në rastin e parë, frekuencat e pritura janë 3 herë më pak se ato të vëzhguara, dhe në rastin e dytë - vetëm 1.5 %. Ne kemi nevojë për një masë relative që nuk varet nga shkalla.

Le t'i kushtojmë vëmendje fakteve të mëposhtme. Në përgjithësi, numri i kategorive në të cilat maten frekuencat mund të jetë shumë më i madh, kështu që gjasat që një vëzhgim i vetëm të bjerë në një kategori ose në një tjetër është mjaft i vogël. Nëse po, atëherë shpërndarja e një ndryshoreje të tillë të rastësishme do t'i bindet ligjit të ngjarjeve të rralla, i njohur si Ligji i Poisson-it. Në ligjin e Poisson-it, siç dihet, vlera e pritjes matematikore dhe varianca përputhen (parametri λ ). Kjo do të thotë se frekuenca e pritur për disa kategori të ndryshores nominale E i do të jetë i njëkohshëm dhe shpërndarja e tij. Më tej, ligji i Poisson-it priret në normalitet me një numër të madh vëzhgimesh. Duke kombinuar këto dy fakte, marrim se nëse hipoteza për marrëveshjen midis frekuencave të vëzhguara dhe të pritura është e saktë, atëherë, me një numër të madh vëzhgimesh, shprehje

Është e rëndësishme të mbani mend se normaliteti do të shfaqet vetëm në frekuenca mjaft të larta. Në statistika, përgjithësisht pranohet që numri i përgjithshëm i vëzhgimeve (shuma e frekuencave) duhet të jetë së paku 50 dhe frekuenca e pritur në çdo gradim duhet të jetë së paku 5. Vetëm në këtë rast, vlera e treguar më sipër ka një shpërndarje normale standarde . Le të supozojmë se plotësohet ky kusht.

Shpërndarja normale standarde ka pothuajse të gjitha vlerat brenda ±3 (rregulli tre-sigma). Kështu, ne morëm ndryshimin relativ në frekuenca për një gradim. Ne kemi nevojë për një masë të përgjithësueshme. Ju nuk mund të shtoni vetëm të gjitha devijimet - ne marrim 0 (mendoni pse). Pearson sugjeroi mbledhjen e katrorëve të këtyre devijimeve.

Kjo është shenja Testi Chi-square Pearson. Nëse frekuencat vërtet korrespondojnë me ato të pritura, atëherë vlera e kriterit do të jetë relativisht e vogël (pasi shumica e devijimeve janë rreth zeros). Por nëse kriteri rezulton i madh, atëherë kjo tregon dallime të rëndësishme midis frekuencave.

Kriteri Pearson bëhet "i madh" kur shfaqja e një vlere të tillë ose edhe më të madhe bëhet e pamundur. Dhe për të llogaritur një probabilitet të tillë, është e nevojshme të dihet shpërndarja e kriterit kur eksperimenti përsëritet shumë herë, kur hipoteza e marrëveshjes së frekuencës është e saktë.

Siç mund të shihet lehtë, vlera chi-katror varet gjithashtu nga numri i termave. Sa më shumë të ketë, aq më e madhe është vlera që duhet të ketë kriteri, sepse çdo term do të kontribuojë në total. Prandaj, për çdo sasi të pavarur kushtet, do të ketë shpërndarjen e vet. Rezulton se χ 2është një familje e tërë shpërndarjesh.

Dhe këtu kemi ardhur në një moment delikat. Çfarë është një numër të pavarur kushtet? Duket sikur çdo term (d.m.th. devijim) është i pavarur. Kështu mendoi edhe K. Pearson, por ai doli të ishte gabim. Në fakt, numri i termave të pavarur do të jetë një më pak se numri i gradimeve të ndryshores nominale n. Pse? Sepse nëse kemi një mostër për të cilën shuma e frekuencave tashmë është llogaritur, atëherë njëra nga frekuencat mund të përcaktohet gjithmonë si diferencë midis numrit total dhe shumës së të gjitha të tjerave. Prandaj ndryshimi do të jetë disi më i vogël. Ronald Fisher e vuri re këtë fakt 20 vjet pasi Pearson zhvilloi kriterin e tij. Edhe tavolinat duhej të ribëheshin.

Me këtë rast, Fisher prezantoi një koncept të ri në statistika - shkalla e lirisë(gradat e lirisë), që paraqet numrin e termave të pavarur në shumë. Koncepti i shkallëve të lirisë ka një shpjegim matematikor dhe shfaqet vetëm në shpërndarjet që lidhen me normalen (Student's, Fisher-Snedecor dhe vetë chi-square).

Për të kuptuar më mirë kuptimin e shkallëve të lirisë, le t'i drejtohemi një analoge fizike. Le të imagjinojmë një pikë që lëviz lirshëm në hapësirë. Ka 3 shkallë lirie, sepse mund të lëvizë në çdo drejtim në hapësirën tredimensionale. Nëse një pikë lëviz përgjatë ndonjë sipërfaqeje, atëherë ajo tashmë ka dy shkallë lirie (para dhe mbrapa, majtas dhe djathtas), megjithëse vazhdon të jetë në hapësirën tredimensionale. Një pikë që lëviz përgjatë një burimi është përsëri në hapësirën tre-dimensionale, por ka vetëm një shkallë lirie, sepse mund të lëvizë përpara ose prapa. Siç mund ta shihni, hapësira ku ndodhet objekti nuk korrespondon gjithmonë me lirinë reale të lëvizjes.

Përafërsisht në të njëjtën mënyrë, shpërndarja e një kriteri statistikor mund të varet nga një numër më i vogël elementësh sesa termat e nevojshëm për ta llogaritur atë. Në përgjithësi, numri i shkallëve të lirisë është më i vogël se numri i vëzhgimeve nga numri i varësive ekzistuese.

Kështu, shpërndarja e katrorit chi ( χ 2) është një familje shpërndarjesh, secila prej të cilave varet nga parametri i shkallës së lirisë. Dhe përkufizimi zyrtar i testit chi-square është si më poshtë. Shpërndarja χ 2(chi-katror) s k shkallët e lirisë është shpërndarja e shumës së katrorëve k variabla normale të rastësishme standarde të pavarura.

Më tej, ne mund të kalojmë në vetë formulën me të cilën llogaritet funksioni i shpërndarjes chi-square, por, për fat, gjithçka është llogaritur prej kohësh për ne. Për të marrë probabilitetin e interesit, mund të përdorni ose tabelën e duhur statistikore ose një funksion të gatshëm në Excel.

Është interesante të shihet se si ndryshon forma e shpërndarjes chi-katrore në varësi të numrit të shkallëve të lirisë.

Me rritjen e shkallës së lirisë, shpërndarja e katrorit chi priret të jetë normale. Kjo shpjegohet me veprimin e teoremës së kufirit qendror, sipas së cilës shuma e një numri të madh të ndryshoreve të rastësishme të pavarura ka një shpërndarje normale. Nuk thotë asgjë për katrorët)).

Testimi i hipotezës duke përdorur testin chi-square Pearson

Tani kemi ardhur në testimin e hipotezave duke përdorur metodën chi-square. Në përgjithësi, teknologjia mbetet. Hipoteza zero është se frekuencat e vëzhguara korrespondojnë me ato të pritura (d.m.th. nuk ka asnjë ndryshim midis tyre sepse ato janë marrë nga e njëjta popullatë). Nëse është kështu, atëherë shpërndarja do të jetë relativisht e vogël, brenda kufijve të luhatjeve të rastësishme. Masa e dispersionit përcaktohet duke përdorur testin chi-square. Më pas, ose krahasohet vetë kriteri me vlerën kritike (për nivelin përkatës të rëndësisë dhe shkallët e lirisë), ose, çfarë është më e sakta, llogaritet vlera p-vëzhguar, d.m.th. probabiliteti i përftimit të vlerës së njëjtë apo edhe më të madhe të kriterit nëse hipoteza zero është e vërtetë.

Sepse ne jemi të interesuar për pajtimin e frekuencave, atëherë hipoteza do të hidhet poshtë kur kriteri është më i madh se niveli kritik. ato. kriteri është i njëanshëm. Sidoqoftë, ndonjëherë (ndonjëherë) është e nevojshme të testohet hipoteza e dorës së majtë. Për shembull, kur të dhënat empirike janë shumë të ngjashme me të dhënat teorike. Atëherë kriteri mund të bjerë në një rajon të pamundur, por në të majtë. Fakti është se në kushte natyrore, nuk ka gjasa të merren frekuenca që praktikisht përkojnë me ato teorike. Gjithmonë ka ndonjë rastësi që jep një gabim. Por nëse nuk ka një gabim të tillë, atëherë ndoshta të dhënat janë falsifikuar. Por megjithatë, hipoteza e anës së djathtë zakonisht testohet.

Le të kthehemi te problemi i zareve. Le të llogarisim vlerën e testit chi-square duke përdorur të dhënat e disponueshme.

Tani le të gjejmë vlerën kritike në 5 gradë lirie ( k) dhe niveli i rëndësisë 0.05 ( α ) sipas tabelës së vlerave kritike të shpërndarjes së katrorit chi.

Kjo do të thotë, kuantili 0.05 është një shpërndarje chi në katror (bishti i djathtë) me 5 gradë lirie χ 2 0,05; 5 = 11,1.

Le të krahasojmë vlerat aktuale dhe të tabeluara. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Kriteri i llogaritur doli të jetë më i vogël, që do të thotë se hipoteza e barazisë (marrëveshjes) e frekuencave nuk hidhet poshtë. Në figurë, situata duket kështu.

Nëse vlera e llogaritur binte brenda rajonit kritik, hipoteza zero do të refuzohej.

Do të ishte më e saktë të llogaritet edhe vlera p. Për ta bërë këtë, duhet të gjeni vlerën më të afërt në tabelë për një numër të caktuar të shkallëve të lirisë dhe të shikoni nivelin përkatës të rëndësisë. Por kjo shekullit të kaluar. Ne do të përdorim një kompjuter, në veçanti MS Excel. Excel ka disa funksione që lidhen me chi-square.

Më poshtë është një përshkrim i shkurtër i tyre.

CH2.OBR- vlera kritike e kriterit me një probabilitet të caktuar në të majtë (si në tabelat statistikore)

CH2.OBR.PH– vlera kritike e kriterit për një probabilitet të caktuar në të djathtë. Funksioni në thelb kopjon atë të mëparshëm. Por këtu mund të tregoni menjëherë nivelin α , në vend që ta zbresim atë nga 1. Kjo është më e përshtatshme, sepse në shumicën e rasteve, është bishti i djathtë i shpërndarjes që nevojitet.

CH2.DIST– P-vlera në të majtë (dendësia mund të llogaritet).

CH2.DIST.PH– P-vlera në të djathtë.

CHI2.TESTI– kryen menjëherë një test chi-square për dy diapazon frekuencash. Numri i shkallëve të lirisë merret të jetë një më pak se numri i frekuencave në kolonë (siç duhet të jetë), duke kthyer një vlerë p.

Le të llogarisim për eksperimentin tonë vlerën kritike (tabelore) për 5 shkallë lirie dhe alfa 0,05. Formula Excel do të duket si kjo:

CH2.OBR(0.95;5)

CH2.OBR.PH(0.05;5)

Rezultati do të jetë i njëjtë - 11.0705. Kjo është vlera që shohim në tabelë (e rrumbullakosur në 1 dhjetor).

Le të llogarisim në fund vlerën p për kriterin 5 gradë lirie χ 2= 3.4. Ne kemi nevojë për probabilitetin në të djathtë, kështu që ne marrim funksionin me shtimin e HH (bishti i djathtë)

CH2.DIST.PH(3.4;5) = 0.63857

Kjo do të thotë se me 5 gradë lirie probabiliteti për të marrë vlerën e kriterit është χ 2= 3.4 dhe më shumë është pothuajse 64%. Natyrisht, hipoteza nuk hidhet poshtë (p-vlera është më e madhe se 5%), frekuencat janë në përputhje shumë të mirë.

Tani le të kontrollojmë hipotezën për pajtimin e frekuencave duke përdorur testin chi-square dhe funksionin Excel CHI2.TEST.

Pa tabela, pa llogaritje të rënda. Duke specifikuar kolonat me frekuenca të vëzhguara dhe të pritshme si argumente funksioni, marrim menjëherë vlerën p. Bukuria.

Tani imagjinoni se po luani zare me një djalë të dyshimtë. Shpërndarja e pikëve nga 1 në 5 mbetet e njëjtë, por ai rrotullon 26 gjashtëshe (numri i përgjithshëm i gjuajtjeve bëhet 78).

Vlera p në këtë rast rezulton të jetë 0.003, që është shumë më pak se 0.05. Ka arsye të mira për të dyshuar në vlefshmërinë e zareve. Ja se si duket kjo probabilitet në një grafik të shpërndarjes chi-square.

Vetë kriteri chi-square këtu rezulton të jetë 17.8, i cili, natyrisht, është më i madh se ai i tabelës (11.1).

Shpresoj se kam qenë në gjendje të shpjegoj se cili është kriteri i marrëveshjes χ 2(Pearson chi-square) dhe si mund të përdoret për të testuar hipotezat statistikore.

Më në fund, edhe një herë për një kusht të rëndësishëm! Testi chi-square funksionon si duhet vetëm kur numri i të gjitha frekuencave kalon 50, dhe vlera minimale e pritur për çdo gradim nuk është më e vogël se 5. Nëse në ndonjë kategori frekuenca e pritur është më e vogël se 5, por shuma e të gjitha frekuencave tejkalon 50, atëherë kategoria e tillë kombinohet me atë më të afërt në mënyrë që frekuenca e tyre totale të kalojë 5. Nëse kjo nuk është e mundur, ose shuma e frekuencave është më e vogël se 50, atëherë duhet të përdoren metoda më të sakta të testimit të hipotezave. Ne do të flasim për ta një herë tjetër.

Më poshtë është një video se si të testoni një hipotezë në Excel duke përdorur testin chi-square.

Le të jenë U 1, U 2, ..,U k standard i pavarur vlerat normale. Shpërndarja e ndryshores së rastësishme K = U 1 2 +U 2 2 + .. + U k 2 quhet shpërndarja chi-katrore me k shkallët e lirisë (shkruani K~χ 2 (k)). Kjo është një shpërndarje unimodale me anshmëri pozitive dhe karakteristikat e mëposhtme: modaliteti M=k-2 vlera e pritur m=k dispersion D=2k (Fig.). Me një vlerë mjaft të madhe të parametrit k shpërndarja χ 2 (k) ka një shpërndarje afërsisht normale me parametra

Gjatë zgjidhjes së problemeve të statistikave matematikore, përdoren pikat kritike χ 2 (k), në varësi të probabilitetit të dhënë α dhe numrit të shkallëve të lirisë. k(Shtojca 2). Pika kritike Χ 2 kr = Χ 2 (k; α) është kufiri i rajonit në të djathtë të të cilit shtrihet 100- α % e sipërfaqes nën lakoren e densitetit të shpërndarjes. Probabiliteti që vlera e ndryshores së rastësishme K~χ 2 (k) gjatë testimit të bjerë në të djathtë të pikës χ 2 (k) nuk e kalon α P(K≥χ 2 kp)≤ α). Për shembull, për variablin e rastësishëm K~χ 2 (20) vendosim probabilitetin α=0.05. Duke përdorur tabelën e pikave kritike të shpërndarjes chi-katrore (tabelat), gjejmë χ 2 kp = χ 2 (20;0.05) = 31.4. Kjo do të thotë se probabiliteti i kësaj ndryshoreje të rastësishme K pranoni një vlerë më të madhe se 31.4, më pak se 0.05 (Fig.).

Oriz. Grafiku i densitetit të shpërndarjes χ 2 (k) për vlera të ndryshme të numrit të shkallëve të lirisë k

Pikat kritike χ 2 (k) përdoren në kalkulatorët e mëposhtëm:

Kontrollimi i pranisë së multikolinearitetit (rreth multikolinearitetit).

Testimi i një hipoteze duke përdorur Chi-square do t'i përgjigjet vetëm pyetjes "a ka një marrëdhënie?", nevojiten kërkime të mëtejshme për të testuar drejtimin e marrëdhënies. Për më tepër, testi Chi-square ka një gabim të caktuar kur punon me të dhëna me frekuencë të ulët.

Prandaj, për të kontrolluar drejtimin e komunikimit, zgjidhni analiza e korrelacionit, në veçanti, testimi i hipotezës duke përdorur koeficientin e korrelacionit Pearson me testim të mëtejshëm për rëndësinë duke përdorur testin t.

Për çdo vlerë të nivelit të rëndësisë α Χ 2 mund të gjendet duke përdorur funksionin MS Excel: =HI2OBR(α;gradë lirie)

n-1	.995	.990	.975	.950	.900	.750	.500	.250	.100	.050	.025	.010	.005
1	0.00004	0.00016	0.00098	0.00393	0.01579	0.10153	0.45494	1.32330	2.70554	3.84146	5.02389	6.63490	7.87944
2	0.01003	0.02010	0.05064	0.10259	0.21072	0.57536	1.38629	2.77259	4.60517	5.99146	7.37776	9.21034	10.59663
3	0.07172	0.11483	0.21580	0.35185	0.58437	1.21253	2.36597	4.10834	6.25139	7.81473	9.34840	11.34487	12.83816
4	0.20699	0.29711	0.48442	0.71072	1.06362	1.92256	3.35669	5.38527	7.77944	9.48773	11.14329	13.27670	14.86026
5	0.41174	0.55430	0.83121	1.14548	1.61031	2.67460	4.35146	6.62568	9.23636	11.07050	12.83250	15.08627	16.74960
6	0.67573	0.87209	1.23734	1.63538	2.20413	3.45460	5.34812	7.84080	10.64464	12.59159	14.44938	16.81189	18.54758
7	0.98926	1.23904	1.68987	2.16735	2.83311	4.25485	6.34581	9.03715	12.01704	14.06714	16.01276	18.47531	20.27774
8	1.34441	1.64650	2.17973	2.73264	3.48954	5.07064	7.34412	10.21885	13.36157	15.50731	17.53455	20.09024	21.95495
9	1.73493	2.08790	2.70039	3.32511	4.16816	5.89883	8.34283	11.38875	14.68366	16.91898	19.02277	21.66599	23.58935
10	2.15586	2.55821	3.24697	3.94030	4.86518	6.73720	9.34182	12.54886	15.98718	18.30704	20.48318	23.20925	25.18818
11	2.60322	3.05348	3.81575	4.57481	5.57778	7.58414	10.34100	13.70069	17.27501	19.67514	21.92005	24.72497	26.75685
12	3.07382	3.57057	4.40379	5.22603	6.30380	8.43842	11.34032	14.84540	18.54935	21.02607	23.33666	26.21697	28.29952
13	3.56503	4.10692	5.00875	5.89186	7.04150	9.29907	12.33976	15.98391	19.81193	22.36203	24.73560	27.68825	29.81947
14	4.07467	4.66043	5.62873	6.57063	7.78953	10.16531	13.33927	17.11693	21.06414	23.68479	26.11895	29.14124	31.31935
15	4.60092	5.22935	6.26214	7.26094	8.54676	11.03654	14.33886	18.24509	22.30713	24.99579	27.48839	30.57791	32.80132
16	5.14221	5.81221	6.90766	7.96165	9.31224	11.91222	15.33850	19.36886	23.54183	26.29623	28.84535	31.99993	34.26719
17	5.69722	6.40776	7.56419	8.67176	10.08519	12.79193	16.33818	20.48868	24.76904	27.58711	30.19101	33.40866	35.71847
18	6.26480	7.01491	8.23075	9.39046	10.86494	13.67529	17.33790	21.60489	25.98942	28.86930	31.52638	34.80531	37.15645
19	6.84397	7.63273	8.90652	10.11701	11.65091	14.56200	18.33765	22.71781	27.20357	30.14353	32.85233	36.19087	38.58226
20	7.43384	8.26040	9.59078	10.85081	12.44261	15.45177	19.33743	23.82769	28.41198	31.41043	34.16961	37.56623	39.99685
21	8.03365	8.89720	10.28290	11.59131	13.23960	16.34438	20.33723	24.93478	29.61509	32.67057	35.47888	38.93217	41.40106
22	8.64272	9.54249	10.98232	12.33801	14.04149	17.23962	21.33704	26.03927	30.81328	33.92444	36.78071	40.28936	42.79565
23	9.26042	10.19572	11.68855	13.09051	14.84796	18.13730	22.33688	27.14134	32.00690	35.17246	38.07563	41.63840	44.18128
24	9.88623	10.85636	12.40115	13.84843	15.65868	19.03725	23.33673	28.24115	33.19624	36.41503	39.36408	42.97982	45.55851
25	10.51965	11.52398	13.11972	14.61141	16.47341	19.93934	24.33659	29.33885	34.38159	37.65248	40.64647	44.31410	46.92789
26	11.16024	12.19815	13.84390	15.37916	17.29188	20.84343	25.33646	30.43457	35.56317	38.88514	41.92317	45.64168	48.28988
27	11.80759	12.87850	14.57338	16.15140	18.11390	21.74940	26.33634	31.52841	36.74122	40.11327	43.19451	46.96294	49.64492
28	12.46134	13.56471	15.30786	16.92788	18.93924	22.65716	27.33623	32.62049	37.91592	41.33714	44.46079	48.27824	50.99338
29	13.12115	14.25645	16.04707	17.70837	19.76774	23.56659	28.33613	33.71091	39.08747	42.55697	45.72229	49.58788	52.33562
30	13.78672	14.95346	16.79077	18.49266	20.59923	24.47761	29.33603	34.79974	40.25602	43.77297	46.97924	50.89218	53.67196

Numri i shkallëve të lirisë k	Niveli i rëndësisë a
Numri i shkallëve të lirisë k	0,01	0,025	0.05	0,95	0,975	0.99
1	6.6	5.0	3.8	0.0039	0.00098	0.00016
2	9.2	7.4	6.0	0.103	0.051	0.020
3	11.3	9.4	7.8	0.352	0.216	0.115
4	13.3	11.1	9.5	0.711	0.484	0.297
5	15.1	12.8	11.1	1.15	0.831	0.554
6	16.8	14.4	12.6	1.64	1.24	0.872
7	18.5	16.0	14.1	2.17	1.69	1.24
8	20.1	17.5	15.5	2.73	2.18	1.65
9	21.7	19.0	16.9	3.33	2.70	2.09
10	23.2	20.5	18.3	3.94	3.25	2.56
11	24.7	21.9	19.7	4.57	3.82	3.05
12	26.2	23.3	21 .0	5.23	4.40	3.57
13	27.7	24.7	22.4	5.89	5.01	4.11
14	29.1	26.1	23.7	6.57	5.63	4.66
15	30.6	27.5	25.0	7.26	6.26	5.23
16	32.0	28.8	26.3	7.96	6.91	5.81
17	33.4	30.2	27.6	8.67	7.56	6.41
18	34.8	31.5	28.9	9.39	8.23	7.01
19	36.2	32.9	30.1	10.1	8.91	7.63
20	37.6	34.2	31.4	10.9	9.59	8.26
21	38.9	35.5	32.7	11.6	10.3	8.90
22	40.3	36.8	33.9	12.3	11.0	9.54
23	41.6	38.1	35.2	13.1	11.7	10.2
24	43.0	39.4	36.4	13.8	12.4	10.9
25	44.3	40.6	37.7	14.6	13.1	11.5
26	45.6	41.9	38.9	15.4	13.8	12.2
27	47.0	43.2	40.1	16.2	14.6	12.9
28	48.3	44.5	41.3	16.9	15.3	13.6
29	49.6	45.7	42.6	17.7	16.0	14.3
30	50.9	47.0	43.8	18.5	16.8	15.0

Shpërndarjet Pearson (chi-squared), Student dhe Fisher

Duke përdorur shpërndarjen normale, përcaktohen tre shpërndarje që tani përdoren shpesh në përpunimin e të dhënave statistikore. Këto shpërndarje shfaqen shumë herë në pjesët e mëvonshme të librit.

Shpërndarja Pearson (chi - katror) – shpërndarja e një ndryshoreje të rastësishme

Ku variablat e rastësishëm X 1 , X 2 ,…, X n të pavarura dhe kanë të njëjtën shpërndarje N(0,1). Në këtë rast, numri i termave, d.m.th. n, quhet "numri i shkallëve të lirisë" të shpërndarjes chi-katrore.

Shpërndarja chi-square përdoret kur vlerësohet varianca (duke përdorur një interval besimi), kur testohen hipotezat e marrëveshjes, homogjenitetit, pavarësisë, kryesisht për variabla cilësorë (të kategorizuar) që marrin një numër të kufizuar vlerash dhe në shumë detyra të tjera. Analiza statistikore të dhëna

Shpërndarja t T-ja e studentit është shpërndarja e një ndryshoreje të rastësishme

ku janë variablat e rastësishëm U Dhe X i pavarur, U ka një shpërndarje normale standarde N(0.1), dhe X– shpërndarja chi – katror c n shkallët e lirisë. Ku n quhet “numri i shkallëve të lirisë” i shpërndarjes së Studentit.

Shpërndarja Studentore u prezantua në vitin 1908 nga statisticieni anglez W. Gosset, i cili punonte në një fabrikë birre. Për marrjen e vendimeve ekonomike dhe teknike në këtë fabrikë u përdorën metoda probabiliste dhe statistikore, ndaj drejtuesit e saj e ndaluan V. Gosset të botonte artikuj shkencorë me emrin e tij. Në këtë mënyrë mbroheshin sekretet tregtare dhe “know-how” në formën e metodave probabiliste dhe statistikore të zhvilluara nga V. Gosset. Megjithatë, ai pati mundësinë të botonte me pseudonimin “Studenti”. Historia Gosset-Student tregon se edhe njëqind vjet më parë, menaxherët britanikë ishin në dijeni të madhështisë efikasiteti ekonomik metodat probabilistiko-statistikore.

Aktualisht, shpërndarja Studenti është një nga shpërndarjet më të njohura që përdoret në analizën e të dhënave reale. Përdoret kur vlerësohet pritshmëria matematikore, vlera e parashikimit dhe karakteristikat e tjera duke përdorur intervale besimi, testimi i hipotezave për vlerat e pritjeve matematikore, koeficientët e regresionit, hipotezat e homogjenitetit të mostrës, etj. .

Shpërndarja Fisher është shpërndarja e një ndryshoreje të rastësishme

ku janë variablat e rastësishëm X 1 Dhe X 2 janë të pavarura dhe kanë shpërndarje chi-katrore me numrin e shkallëve të lirisë k 1 Dhe k 2 përkatësisht. Në të njëjtën kohë, çifti (k 1 , k 2 ) - një palë "shkallë lirie" të shpërndarjes së Fisher, përkatësisht, k 1 është numri i shkallëve të lirisë së numëruesit, dhe k 2 – numri i shkallëve të lirisë së emëruesit. Shpërndarja e një ndryshoreje të rastësishme F emëruar pas statisticienit të madh anglez R. Fisher (1890-1962), i cili e përdori atë në mënyrë aktive në veprat e tij.

Shpërndarja Fisher përdoret kur testohen hipotezat për përshtatshmërinë e modelit në analizën e regresionit, barazinë e variancave dhe në probleme të tjera të statistikave të aplikuara.

Shprehjet për funksionet chi-square, Student dhe Fisher, dendësia dhe karakteristikat e tyre, si dhe tabelat e nevojshme për përdorimin e tyre praktik, mund të gjenden në literaturën e specializuar (shih, për shembull,).

23. Koncepti i chi-square dhe shpërndarjes studentore, dhe pamje grafike

1) Një shpërndarje (chi-katror) me n shkallë lirie është shpërndarja e shumës së katrorëve të n variablave standarde të pavarura të rastit.

Shpërndarja (chi-katror)- shpërndarja e një ndryshoreje të rastësishme (dhe pritshmëria matematikore e secilës prej tyre është 0, dhe devijimi standard është 1)

ku janë variablat e rastësishëm janë të pavarura dhe kanë të njëjtën shpërndarje. Në këtë rast, numri i termave, d.m.th. , quhet "numri i shkallëve të lirisë" i shpërndarjes chi-katrore. Numri chi-katror përcaktohet nga një parametër, numri i shkallëve të lirisë. Ndërsa numri i shkallëve të lirisë rritet, shpërndarja ngadalë i afrohet normales.

Pastaj shuma e katrorëve të tyre

është një ndryshore e rastësishme e shpërndarë sipas të ashtuquajturit ligj chi-katror me k = n shkallë lirie; nëse termat lidhen me ndonjë relacion (për shembull, ), atëherë numri i shkallëve të lirisë k = n – 1.

Dendësia e kësaj shpërndarjeje

Këtu është funksioni gama; në veçanti, Г(n + 1) = n! .

Prandaj, shpërndarja chi-katrore përcaktohet nga një parametër - numri i shkallëve të lirisë k.

Vërejtje 1. Me rritjen e numrit të shkallëve të lirisë, shpërndarja chi-katror gradualisht i afrohet normales.

Vërejtje 2. Duke përdorur shpërndarjen chi-square, përcaktohen shumë shpërndarje të tjera të hasura në praktikë, p.sh., shpërndarja e një ndryshoreje të rastësishme - gjatësia e një vektori të rastit (X1, X2,..., Xn), koordinatat e të cilat janë të pavarura dhe të shpërndara sipas ligjit normal.

Shpërndarja χ2 u konsiderua për herë të parë nga R. Helmert (1876) dhe K. Pearson (1900).

Math.prit.=n; D=2n

2) Shpërndarja e nxënësve

Konsideroni dy variabla të rastësishme të pavarura: Z, i cili ka një shpërndarje normale dhe është i normalizuar (d.m.th., M(Z) = 0, σ(Z) = 1) dhe V, i cili shpërndahet sipas ligjit chi-katror me k. shkallët e lirisë. Pastaj vlera

ka një shpërndarje të quajtur shpërndarje t ose shpërndarje Studenti me k shkallë lirie. Në këtë rast, k quhet "numri i shkallëve të lirisë" të shpërndarjes Student.

Ndërsa numri i shkallëve të lirisë rritet, shpërndarja e Studentëve i afrohet shpejt normales.

Kjo shpërndarje u prezantua në vitin 1908 nga statisticieni anglez W. Gosset, i cili punonte në një fabrikë birre. Për marrjen e vendimeve ekonomike dhe teknike në këtë fabrikë u përdorën metoda probabiliste dhe statistikore, ndaj drejtuesit e saj e ndaluan V. Gosset të botonte artikuj shkencorë me emrin e tij. Në këtë mënyrë mbroheshin sekretet tregtare dhe “know-how” në formën e metodave probabiliste dhe statistikore të zhvilluara nga V. Gosset. Megjithatë, ai pati mundësinë të botonte me pseudonimin “Studenti”. Historia Gosset-Student tregon se edhe njëqind vjet më parë, menaxherët e Mbretërisë së Bashkuar ishin të vetëdijshëm për efikasitetin më të madh ekonomik të metodave probabiliste dhe statistikore të vendimmarrjes.