Shpërndarja Pearson (shpërndarja chi-square). Metodat klasike të statistikës: testi chi-katror shpërndarja në katror Ksi

Shpërndarja chi-square është një nga më të përdorurat në statistika për testimin e hipotezave statistikore. Bazuar në shpërndarjen chi-square, është ndërtuar një nga testet më të fuqishme të përshtatshmërisë - testi chi-square Pearson.

Kriteri i marrëveshjes është kriteri për testimin e hipotezës për ligjin e supozuar të një shpërndarjeje të panjohur.

Testi χ2 (chi-square) përdoret për të testuar hipotezën e shpërndarjeve të ndryshme. Ky është dinjiteti i tij.

Formula e llogaritjes së kriterit është e barabartë me

ku m dhe m’ janë respektivisht frekuenca empirike dhe teorike

shpërndarjen në fjalë;

n është numri i shkallëve të lirisë.

Për të kontrolluar, duhet të krahasojmë frekuencat empirike (të vëzhguara) dhe teorike (të llogaritura nën supozimin e një shpërndarje normale).

Nëse frekuencat empirike përkojnë plotësisht me frekuencat e llogaritura ose të pritura, S (E – T) = 0 dhe kriteri χ2 do të jetë gjithashtu i barabartë me zero. Nëse S (E – T) nuk është e barabartë me zero, kjo do të tregojë një mospërputhje midis frekuencave të llogaritura dhe frekuencave empirike të serisë. Në raste të tilla, është e nevojshme të vlerësohet rëndësia e kriterit χ2, i cili teorikisht mund të ndryshojë nga zero në pafundësi. Kjo bëhet duke krahasuar vlerën e përftuar në fakt të χ2ф me vlerën e saj kritike (χ2st) Hipoteza zero, pra supozimi se mospërputhja midis frekuencave empirike dhe teorike ose të pritshme është e rastësishme, hidhet poshtë nëse χ2ф është më e madhe ose e barabartë me χ2st për nivelin e pranuar të rëndësisë (a) dhe numrin e shkallëve të lirisë (n).

Shpërndarja e vlerave të mundshme të ndryshores së rastësishme χ2 është e vazhdueshme dhe asimetrike. Varet nga numri i shkallëve të lirisë (n) dhe i afrohet një shpërndarjeje normale ndërsa numri i vëzhgimeve rritet. Prandaj zbatimi i kriterit χ2 në vlerësim shpërndarje diskrete shoqërohet me disa gabime që ndikojnë në vlerën e tij, veçanërisht në mostrat e vogla. Për të marrë vlerësime më të sakta, një mostër e shpërndarë në seri variacionesh, duhet të ketë të paktën 50 opsione. Zbatimi i saktë i kriterit χ2 kërkon gjithashtu që frekuencat e varianteve në klasat ekstreme të mos jenë më të vogla se 5; nëse janë më pak se 5 të tilla, atëherë ato kombinohen me frekuencat e klasave fqinje në mënyrë që shuma e përgjithshme të jetë më e madhe ose e barabartë me 5. Sipas kombinimit të frekuencave, numri i klasave (N) zvogëlohet. Numri i shkallëve të lirisë përcaktohet nga numri dytësor i klasave, duke marrë parasysh numrin e kufizimeve në lirinë e ndryshimit.



Meqenëse saktësia e përcaktimit të kriterit χ2 varet në masë të madhe nga saktësia e llogaritjes së frekuencave teorike (T), frekuencat teorike të pa rrumbullakosura duhet të përdoren për të marrë diferencën midis frekuencave empirike dhe të llogaritura.

Si shembull, le të marrim një studim të publikuar në një faqe interneti të dedikuar për përdorimin e metodat statistikore në shkencat humane.

Testi Chi-square ju lejon të krahasoni shpërndarjet e frekuencës pavarësisht nëse ato shpërndahen normalisht apo jo.

Frekuenca i referohet numrit të ndodhive të një ngjarjeje. Zakonisht, shpeshtësia e shfaqjes së ngjarjeve trajtohet kur variablat maten në një shkallë emrash dhe karakteristikat e tjera të tyre, përveç shpeshtësisë, janë të pamundura ose problematike për t'u përzgjedhur. Me fjalë të tjera, kur një variabël ka karakteristika cilësore. Gjithashtu, shumë studiues priren të konvertojnë rezultatet e testit në nivele (të larta, mesatare, të ulëta) dhe të ndërtojnë tabela të shpërndarjeve të rezultateve për të zbuluar numrin e njerëzve në këto nivele. Për të vërtetuar se në një nga nivelet (në një nga kategoritë) numri i njerëzve është vërtet më i madh (më pak) përdoret gjithashtu koeficienti Chi-square.

Le të shohim shembullin më të thjeshtë.

Një test u krye mes adoleshentëve më të rinj për të identifikuar vetëvlerësimin. Rezultatet e testit u shndërruan në tre nivele: të larta, të mesme, të ulëta. Frekuencat u shpërndanë si më poshtë:

Lartë (B) 27 persona.

Mesatarisht (C) 12 persona.

E ulët (L) 11 persona

Është e qartë se shumica e fëmijëve kanë vetëbesim të lartë, por kjo duhet të vërtetohet statistikisht. Për ta bërë këtë, ne përdorim testin Chi-square.

Detyra jonë është të kontrollojmë nëse të dhënat e marra empirike ndryshojnë nga ato teorikisht po aq të mundshme. Për ta bërë këtë, ju duhet të gjeni frekuencat teorike. Në rastin tonë, frekuencat teorike janë frekuenca po aq të mundshme, të cilat gjenden duke mbledhur të gjitha frekuencat dhe pjesëtuar me numrin e kategorive.

Në rastin tonë:

(B + C + H)/3 = (27+12+11)/3 = 16,6

Formula për llogaritjen e testit chi-square:

χ2 = ∑(E - T)I / T

Ne ndërtojmë tabelën:

Gjeni shumën e kolonës së fundit:

Tani ju duhet të gjeni vlerën kritike të kriterit duke përdorur tabelën e vlerave kritike (Tabela 1 në Shtojcën). Për ta bërë këtë, na duhet numri i shkallëve të lirisë (n).

n = (R - 1) * (C - 1)

ku R është numri i rreshtave në tabelë, C është numri i kolonave.

Në rastin tonë, ekziston vetëm një kolonë (që nënkupton frekuencat origjinale empirike) dhe tre rreshta (kategori), kështu që formula ndryshon - ne i përjashtojmë kolonat.

n = (R - 1) = 3-1 = 2

Për probabilitetin e gabimit p≤0.05 dhe n = 2, vlera kritike është χ2 = 5.99.

Vlera empirike e fituar është më e madhe se vlera kritike - dallimet në frekuenca janë të rëndësishme (χ2= 9,64; p≤0,05).

Siç mund ta shihni, llogaritja e kriterit është shumë e thjeshtë dhe nuk kërkon shumë kohë. Vlera praktike e testit chi-square është e madhe. Kjo metodë është më e vlefshme kur analizohen përgjigjet ndaj pyetësorëve.


Le të shohim një shembull më kompleks.

Për shembull, një psikolog dëshiron të dijë nëse është e vërtetë që mësuesit janë më të njëanshëm ndaj djemve sesa ndaj vajzave. ato. më shumë gjasa për të lavdëruar vajzat. Për ta bërë këtë, psikologu analizoi karakteristikat e studentëve të shkruar nga mësuesit për shpeshtësinë e shfaqjes së tre fjalëve: "aktiv", "i zellshëm", "i disiplinuar" dhe gjithashtu u numëruan sinonimet e fjalëve. Të dhënat për shpeshtësinë e shfaqjes së fjalëve u futën në tabelë:

Për të përpunuar të dhënat e marra përdorim testin chi-square.

Për ta bërë këtë, ne do të ndërtojmë një tabelë të shpërndarjes së frekuencave empirike, d.m.th. ato frekuenca që ne vëzhgojmë:

Teorikisht presim që frekuencat të shpërndahen në mënyrë të barabartë, d.m.th. frekuenca do të shpërndahet proporcionalisht ndërmjet djemve dhe vajzave. Le të ndërtojmë një tabelë të frekuencave teorike. Për ta bërë këtë, shumëzoni shumën e rreshtit me shumën e kolonës dhe ndani numrin që rezulton me shumën totale (s).

Tabela përfundimtare për llogaritjet do të duket si kjo:

χ2 = ∑(E - T)I / T

n = (R - 1), ku R është numri i rreshtave në tabelë.

Në rastin tonë, chi-katror = 4,21; n = 2.

Duke përdorur tabelën e vlerave kritike të kriterit, gjejmë: me n = 2 dhe një nivel gabimi 0.05, vlera kritike është χ2 = 5.99.

Vlera që rezulton është më e vogël se vlera kritike, që do të thotë se hipoteza zero pranohet.

Përfundim: mësuesit nuk i kushtojnë rëndësi gjinisë së fëmijës kur shkruajnë karakteristika për të.


konkluzioni.

K. Pearson dha një kontribut të rëndësishëm në zhvillim statistika matematikore(një numër i madh konceptesh themelore). Pozicioni kryesor filozofik i Pearson është formuluar si më poshtë: konceptet e shkencës janë ndërtime artificiale, mjete për të përshkruar dhe renditur përvojën shqisore; rregullat për lidhjen e tyre në fjali shkencore janë të izoluara nga gramatika e shkencës, e cila është filozofia e shkencës. Disiplina universale - statistikat e aplikuara - na lejon të lidhim koncepte dhe fenomene të ndryshme, megjithëse sipas Pearson është subjektive.

Shumë nga ndërtimet e K. Pearson janë të lidhura drejtpërdrejt ose të zhvilluara duke përdorur materiale antropologjike. Ai zhvilloi metoda të shumta të klasifikimit numerik dhe kritereve statistikore të përdorura në të gjitha fushat e shkencës.


Letërsia.

1. Bogolyubov A. N. Matematikë. Mekanika. Libër referencë biografike. - Kiev: Naukova Dumka, 1983.

2. Kolmogorov A. N., Yushkevich A. P. (eds.). Matematika e shekullit XIX. - M.: Shkencë. - T. I.

3. 3. Borovkov A.A. Statistikat e matematikës. M.: Nauka, 1994.

4. 8. Feller V. Hyrje në teorinë e probabilitetit dhe zbatimet e saj. - M.: Mir, T.2, 1984.

5. 9. Harman G., Analiza moderne e faktorëve. - M.: Statistikat, 1972.

Përpara fundi i XIX shekulli, shpërndarja normale u konsiderua si ligji universal i ndryshimit të të dhënave. Megjithatë, K. Pearson vuri në dukje se frekuencat empirike mund të ndryshojnë shumë nga shpërndarja normale. U ngrit pyetja se si të vërtetohet kjo. Kërkohej jo vetëm një krahasim grafik, i cili është subjektiv, por edhe një justifikim i rreptë sasior.

Kështu u shpik kriteri χ 2(katrori chi), i cili teston rëndësinë e mospërputhjes midis frekuencave empirike (të vëzhguara) dhe teorike (të pritshme). Kjo ndodhi në vitin 1900, por kriteri është ende në përdorim sot. Për më tepër, ai është përshtatur për të zgjidhur një gamë të gjerë problemesh. Para së gjithash, kjo është analiza e të dhënave kategorike, d.m.th. ato që shprehen jo nga sasia, por nga përkatësia në ndonjë kategori. Për shembull, klasa e makinës, gjinia e pjesëmarrësit në eksperiment, lloji i bimës, etj. Veprimet matematikore si mbledhja dhe shumëzimi nuk mund të zbatohen në të dhëna të tilla; frekuencat mund të llogariten vetëm për to.

Ne shënojmë frekuencat e vëzhguara Rreth (vëzhguar), e pritshme - E (E pritshme). Si shembull, le të marrim rezultatin e rrokullisjes së një bilete 60 herë. Nëse është simetrike dhe uniforme, probabiliteti për të marrë ndonjë anë është 1/6 dhe për këtë arsye numri i pritshëm i marrjes së secilës anë është 10 (1/6∙60). Frekuencat e vëzhguara dhe të pritura i shkruajmë në një tabelë dhe vizatojmë një histogram.

Hipoteza zero është se frekuencat janë të qëndrueshme, domethënë, të dhënat aktuale nuk kundërshtojnë të dhënat e pritura. Një hipotezë alternative është se devijimet në frekuenca shkojnë përtej luhatjeve të rastësishme, mospërputhjet janë statistikisht të rëndësishme. Për të nxjerrë një përfundim rigoroz, na duhet.

  1. Një masë përmbledhëse e mospërputhjes midis frekuencave të vëzhguara dhe të pritshme.
  2. Shpërndarja e kësaj mase nëse hipoteza se nuk ka dallime është e vërtetë.

Le të fillojmë me distancën midis frekuencave. Nëse merrni vetëm ndryshimin O - E, atëherë një masë e tillë do të varet nga shkalla e të dhënave (frekuencave). Për shembull, 20 - 5 = 15 dhe 1020 - 1005 = 15. Në të dyja rastet, ndryshimi është 15. Por në rastin e parë, frekuencat e pritura janë 3 herë më pak se ato të vëzhguara, dhe në rastin e dytë - vetëm 1.5 %. Ne kemi nevojë për një masë relative që nuk varet nga shkalla.

Le t'i kushtojmë vëmendje fakteve të mëposhtme. Në përgjithësi, numri i kategorive në të cilat maten frekuencat mund të jetë shumë më i madh, kështu që gjasat që një vëzhgim i vetëm të bjerë në një kategori ose në një tjetër është mjaft i vogël. Nëse po, atëherë shpërndarja e një ndryshoreje të tillë të rastësishme do t'i bindet ligjit të ngjarjeve të rralla, i njohur si Ligji i Poisson-it. Në ligjin e Poisson-it, siç dihet, vlera e pritjes matematikore dhe varianca përputhen (parametri λ ). Kjo do të thotë se frekuenca e pritur për disa kategori të ndryshores nominale E i do të jetë i njëkohshëm dhe shpërndarja e tij. Më tej, ligji i Poisson-it priret në normalitet me një numër të madh vëzhgimesh. Duke kombinuar këto dy fakte, marrim se nëse hipoteza për marrëveshjen midis frekuencave të vëzhguara dhe të pritura është e saktë, atëherë, me një numër të madh vëzhgimesh, shprehje

Është e rëndësishme të mbani mend se normaliteti do të shfaqet vetëm në frekuenca mjaft të larta. Në statistika, përgjithësisht pranohet që numri i përgjithshëm i vëzhgimeve (shuma e frekuencave) duhet të jetë së paku 50 dhe frekuenca e pritur në çdo gradim duhet të jetë së paku 5. Vetëm në këtë rast, vlera e treguar më sipër ka një shpërndarje normale standarde . Le të supozojmë se plotësohet ky kusht.

Shpërndarja normale standarde ka pothuajse të gjitha vlerat brenda ±3 (rregulli tre-sigma). Kështu, ne morëm ndryshimin relativ në frekuenca për një gradim. Ne kemi nevojë për një masë të përgjithësueshme. Ju nuk mund të shtoni vetëm të gjitha devijimet - ne marrim 0 (mendoni pse). Pearson sugjeroi mbledhjen e katrorëve të këtyre devijimeve.

Kjo është shenja Testi Chi-square Pearson. Nëse frekuencat vërtet korrespondojnë me ato të pritura, atëherë vlera e kriterit do të jetë relativisht e vogël (pasi shumica e devijimeve janë rreth zeros). Por nëse kriteri rezulton i madh, atëherë kjo tregon dallime të rëndësishme midis frekuencave.

Kriteri Pearson bëhet "i madh" kur shfaqja e një vlere të tillë ose edhe më të madhe bëhet e pamundur. Dhe për të llogaritur një probabilitet të tillë, është e nevojshme të dihet shpërndarja e kriterit kur eksperimenti përsëritet shumë herë, kur hipoteza e marrëveshjes së frekuencës është e saktë.

Siç mund të shihet lehtë, vlera chi-katror varet gjithashtu nga numri i termave. Sa më shumë të ketë, aq më e madhe është vlera që duhet të ketë kriteri, sepse çdo term do të kontribuojë në total. Prandaj, për çdo sasi të pavarur kushtet, do të ketë shpërndarjen e vet. Rezulton se χ 2është një familje e tërë shpërndarjesh.

Dhe këtu kemi ardhur në një moment delikat. Çfarë është një numër të pavarur kushtet? Duket sikur çdo term (d.m.th. devijim) është i pavarur. Kështu mendoi edhe K. Pearson, por ai doli të ishte gabim. Në fakt, numri i termave të pavarur do të jetë një më pak se numri i gradimeve të ndryshores nominale n. Pse? Sepse nëse kemi një mostër për të cilën shuma e frekuencave tashmë është llogaritur, atëherë njëra nga frekuencat mund të përcaktohet gjithmonë si diferencë midis numrit total dhe shumës së të gjitha të tjerave. Prandaj ndryshimi do të jetë disi më i vogël. Ronald Fisher e vuri re këtë fakt 20 vjet pasi Pearson zhvilloi kriterin e tij. Edhe tavolinat duhej të ribëheshin.

Me këtë rast, Fisher prezantoi një koncept të ri në statistika - shkalla e lirisë(gradat e lirisë), që paraqet numrin e termave të pavarur në shumë. Koncepti i shkallëve të lirisë ka një shpjegim matematikor dhe shfaqet vetëm në shpërndarjet që lidhen me normalen (Student's, Fisher-Snedecor dhe vetë chi-square).

Për të kuptuar më mirë kuptimin e shkallëve të lirisë, le t'i drejtohemi një analoge fizike. Le të imagjinojmë një pikë që lëviz lirshëm në hapësirë. Ka 3 shkallë lirie, sepse mund të lëvizë në çdo drejtim në hapësirën tredimensionale. Nëse një pikë lëviz përgjatë ndonjë sipërfaqeje, atëherë ajo tashmë ka dy shkallë lirie (para dhe mbrapa, majtas dhe djathtas), megjithëse vazhdon të jetë në hapësirën tredimensionale. Një pikë që lëviz përgjatë një burimi është përsëri në hapësirën tre-dimensionale, por ka vetëm një shkallë lirie, sepse mund të lëvizë përpara ose prapa. Siç mund ta shihni, hapësira ku ndodhet objekti nuk korrespondon gjithmonë me lirinë reale të lëvizjes.

Përafërsisht në të njëjtën mënyrë, shpërndarja e një kriteri statistikor mund të varet nga një numër më i vogël elementësh sesa termat e nevojshëm për ta llogaritur atë. Në përgjithësi, numri i shkallëve të lirisë është më i vogël se numri i vëzhgimeve nga numri i varësive ekzistuese.

Kështu, shpërndarja e katrorit chi ( χ 2) është një familje shpërndarjesh, secila prej të cilave varet nga parametri i shkallës së lirisë. Dhe përkufizimi zyrtar i testit chi-square është si më poshtë. Shpërndarja χ 2(chi-katror) s k shkallët e lirisë është shpërndarja e shumës së katrorëve k variabla normale të rastësishme standarde të pavarura.

Më tej, ne mund të kalojmë në vetë formulën me të cilën llogaritet funksioni i shpërndarjes chi-square, por, për fat, gjithçka është llogaritur prej kohësh për ne. Për të marrë probabilitetin e interesit, mund të përdorni ose tabelën e duhur statistikore ose një funksion të gatshëm në Excel.

Është interesante të shihet se si ndryshon forma e shpërndarjes chi-katrore në varësi të numrit të shkallëve të lirisë.

Me rritjen e shkallës së lirisë, shpërndarja e katrorit chi priret të jetë normale. Kjo shpjegohet me veprimin e teoremës së kufirit qendror, sipas së cilës shuma e një numri të madh të ndryshoreve të rastësishme të pavarura ka një shpërndarje normale. Nuk thotë asgjë për katrorët)).

Testimi i hipotezës duke përdorur testin chi-square Pearson

Tani kemi ardhur në testimin e hipotezave duke përdorur metodën chi-square. Në përgjithësi, teknologjia mbetet. Hipoteza zero është se frekuencat e vëzhguara korrespondojnë me ato të pritura (d.m.th. nuk ka asnjë ndryshim midis tyre sepse ato janë marrë nga e njëjta popullatë). Nëse është kështu, atëherë shpërndarja do të jetë relativisht e vogël, brenda kufijve të luhatjeve të rastësishme. Masa e dispersionit përcaktohet duke përdorur testin chi-square. Më pas, ose krahasohet vetë kriteri me vlerën kritike (për nivelin përkatës të rëndësisë dhe shkallët e lirisë), ose, çfarë është më e sakta, llogaritet vlera p-vëzhguar, d.m.th. probabiliteti i përftimit të vlerës së njëjtë apo edhe më të madhe të kriterit nëse hipoteza zero është e vërtetë.

Sepse ne jemi të interesuar për pajtimin e frekuencave, atëherë hipoteza do të hidhet poshtë kur kriteri është më i madh se niveli kritik. ato. kriteri është i njëanshëm. Sidoqoftë, ndonjëherë (ndonjëherë) është e nevojshme të testohet hipoteza e dorës së majtë. Për shembull, kur të dhënat empirike janë shumë të ngjashme me të dhënat teorike. Atëherë kriteri mund të bjerë në një rajon të pamundur, por në të majtë. Fakti është se në kushte natyrore, nuk ka gjasa të merren frekuenca që praktikisht përkojnë me ato teorike. Gjithmonë ka ndonjë rastësi që jep një gabim. Por nëse nuk ka një gabim të tillë, atëherë ndoshta të dhënat janë falsifikuar. Por megjithatë, hipoteza e anës së djathtë zakonisht testohet.

Le të kthehemi te problemi i zareve. Le të llogarisim vlerën e testit chi-square duke përdorur të dhënat e disponueshme.

Tani le të gjejmë vlerën kritike në 5 gradë lirie ( k) dhe niveli i rëndësisë 0.05 ( α ) sipas tabelës së vlerave kritike të shpërndarjes së katrorit chi.

Kjo do të thotë, kuantili 0.05 është një shpërndarje chi në katror (bishti i djathtë) me 5 gradë lirie χ 2 0,05; 5 = 11,1.

Le të krahasojmë vlerat aktuale dhe të tabeluara. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Kriteri i llogaritur doli të jetë më i vogël, që do të thotë se hipoteza e barazisë (marrëveshjes) e frekuencave nuk hidhet poshtë. Në figurë, situata duket kështu.

Nëse vlera e llogaritur binte brenda rajonit kritik, hipoteza zero do të refuzohej.

Do të ishte më e saktë të llogaritet edhe vlera p. Për ta bërë këtë, duhet të gjeni vlerën më të afërt në tabelë për një numër të caktuar të shkallëve të lirisë dhe të shikoni nivelin përkatës të rëndësisë. Por kjo shekullit të kaluar. Ne do të përdorim një kompjuter, në veçanti MS Excel. Excel ka disa funksione që lidhen me chi-square.

Më poshtë është një përshkrim i shkurtër i tyre.

CH2.OBR- vlera kritike e kriterit me një probabilitet të caktuar në të majtë (si në tabelat statistikore)

CH2.OBR.PH– vlera kritike e kriterit për një probabilitet të caktuar në të djathtë. Funksioni në thelb kopjon atë të mëparshëm. Por këtu mund të tregoni menjëherë nivelin α , në vend që ta zbresim atë nga 1. Kjo është më e përshtatshme, sepse në shumicën e rasteve, është bishti i djathtë i shpërndarjes që nevojitet.

CH2.DIST– P-vlera në të majtë (dendësia mund të llogaritet).

CH2.DIST.PH– P-vlera në të djathtë.

CHI2.TESTI– kryen menjëherë një test chi-square për dy diapazon frekuencash. Numri i shkallëve të lirisë merret të jetë një më pak se numri i frekuencave në kolonë (siç duhet të jetë), duke kthyer një vlerë p.

Le të llogarisim për eksperimentin tonë vlerën kritike (tabelore) për 5 shkallë lirie dhe alfa 0,05. Formula Excel do të duket si kjo:

CH2.OBR(0.95;5)

CH2.OBR.PH(0.05;5)

Rezultati do të jetë i njëjtë - 11.0705. Kjo është vlera që shohim në tabelë (e rrumbullakosur në 1 dhjetor).

Le të llogarisim në fund vlerën p për kriterin 5 gradë lirie χ 2= 3.4. Ne kemi nevojë për probabilitetin në të djathtë, kështu që ne marrim funksionin me shtimin e HH (bishti i djathtë)

CH2.DIST.PH(3.4;5) = 0.63857

Kjo do të thotë se me 5 gradë lirie probabiliteti për të marrë vlerën e kriterit është χ 2= 3.4 dhe më shumë është pothuajse 64%. Natyrisht, hipoteza nuk hidhet poshtë (p-vlera është më e madhe se 5%), frekuencat janë në përputhje shumë të mirë.

Tani le të kontrollojmë hipotezën për pajtimin e frekuencave duke përdorur testin chi-square dhe funksionin Excel CHI2.TEST.

Pa tabela, pa llogaritje të rënda. Duke specifikuar kolonat me frekuenca të vëzhguara dhe të pritshme si argumente funksioni, marrim menjëherë vlerën p. Bukuria.

Tani imagjinoni se po luani zare me një djalë të dyshimtë. Shpërndarja e pikëve nga 1 në 5 mbetet e njëjtë, por ai rrotullon 26 gjashtëshe (numri i përgjithshëm i gjuajtjeve bëhet 78).

Vlera p në këtë rast rezulton të jetë 0.003, që është shumë më pak se 0.05. Ka arsye të mira për të dyshuar në vlefshmërinë e zareve. Ja se si duket kjo probabilitet në një grafik të shpërndarjes chi-square.

Vetë kriteri chi-square këtu rezulton të jetë 17.8, i cili, natyrisht, është më i madh se ai i tabelës (11.1).

Shpresoj se kam qenë në gjendje të shpjegoj se cili është kriteri i marrëveshjes χ 2(Pearson chi-square) dhe si mund të përdoret për të testuar hipotezat statistikore.

Më në fund, edhe një herë për një kusht të rëndësishëm! Testi chi-square funksionon si duhet vetëm kur numri i të gjitha frekuencave kalon 50, dhe vlera minimale e pritur për çdo gradim nuk është më e vogël se 5. Nëse në ndonjë kategori frekuenca e pritur është më e vogël se 5, por shuma e të gjitha frekuencave tejkalon 50, atëherë kategoria e tillë kombinohet me atë më të afërt në mënyrë që frekuenca e tyre totale të kalojë 5. Nëse kjo nuk është e mundur, ose shuma e frekuencave është më e vogël se 50, atëherë duhet të përdoren metoda më të sakta të testimit të hipotezave. Ne do të flasim për ta një herë tjetër.

Më poshtë është një video se si të testoni një hipotezë në Excel duke përdorur testin chi-square.

Le të jenë U 1, U 2, ..,U k standard i pavarur vlerat normale. Shpërndarja e ndryshores së rastësishme K = U 1 2 +U 2 2 + .. + U k 2 quhet shpërndarja chi-katrore me k shkallët e lirisë (shkruani K~χ 2 (k)). Kjo është një shpërndarje unimodale me anshmëri pozitive dhe karakteristikat e mëposhtme: modaliteti M=k-2 vlera e pritur m=k dispersion D=2k (Fig.). Me një vlerë mjaft të madhe të parametrit k shpërndarja χ 2 (k) ka një shpërndarje afërsisht normale me parametra

Gjatë zgjidhjes së problemeve të statistikave matematikore, përdoren pikat kritike χ 2 (k), në varësi të probabilitetit të dhënë α dhe numrit të shkallëve të lirisë. k(Shtojca 2). Pika kritike Χ 2 kr = Χ 2 (k; α) është kufiri i rajonit në të djathtë të të cilit shtrihet 100- α % e sipërfaqes nën lakoren e densitetit të shpërndarjes. Probabiliteti që vlera e ndryshores së rastësishme K~χ 2 (k) gjatë testimit të bjerë në të djathtë të pikës χ 2 (k) nuk e kalon α P(K≥χ 2 kp)≤ α). Për shembull, për variablin e rastësishëm K~χ 2 (20) vendosim probabilitetin α=0.05. Duke përdorur tabelën e pikave kritike të shpërndarjes chi-katrore (tabelat), gjejmë χ 2 kp = χ 2 (20;0.05) = 31.4. Kjo do të thotë se probabiliteti i kësaj ndryshoreje të rastësishme K pranoni një vlerë më të madhe se 31.4, më pak se 0.05 (Fig.).

Oriz. Grafiku i densitetit të shpërndarjes χ 2 (k) për vlera të ndryshme të numrit të shkallëve të lirisë k

Pikat kritike χ 2 (k) përdoren në kalkulatorët e mëposhtëm:

  1. Kontrollimi i pranisë së multikolinearitetit (rreth multikolinearitetit).
Testimi i një hipoteze duke përdorur Chi-square do t'i përgjigjet vetëm pyetjes "a ka një marrëdhënie?", nevojiten kërkime të mëtejshme për të testuar drejtimin e marrëdhënies. Për më tepër, testi Chi-square ka një gabim të caktuar kur punon me të dhëna me frekuencë të ulët.

Prandaj, për të kontrolluar drejtimin e komunikimit, zgjidhni analiza e korrelacionit, në veçanti, testimi i hipotezës duke përdorur koeficientin e korrelacionit Pearson me testim të mëtejshëm për rëndësinë duke përdorur testin t.

Për çdo vlerë të nivelit të rëndësisë α Χ 2 mund të gjendet duke përdorur funksionin MS Excel: =HI2OBR(α;gradë lirie)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Numri i shkallëve të lirisë k Niveli i rëndësisë a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0

Shpërndarjet Pearson (chi-squared), Student dhe Fisher

Duke përdorur shpërndarjen normale, përcaktohen tre shpërndarje që tani përdoren shpesh në përpunimin e të dhënave statistikore. Këto shpërndarje shfaqen shumë herë në pjesët e mëvonshme të librit.

Shpërndarja Pearson (chi - katror) – shpërndarja e një ndryshoreje të rastësishme

Ku variablat e rastësishëm X 1 , X 2 ,…, X n të pavarura dhe kanë të njëjtën shpërndarje N(0,1). Në këtë rast, numri i termave, d.m.th. n, quhet "numri i shkallëve të lirisë" të shpërndarjes chi-katrore.

Shpërndarja chi-square përdoret kur vlerësohet varianca (duke përdorur një interval besimi), kur testohen hipotezat e marrëveshjes, homogjenitetit, pavarësisë, kryesisht për variabla cilësorë (të kategorizuar) që marrin një numër të kufizuar vlerash dhe në shumë detyra të tjera. Analiza statistikore të dhëna

Shpërndarja t T-ja e studentit është shpërndarja e një ndryshoreje të rastësishme

ku janë variablat e rastësishëm U Dhe X i pavarur, U ka një shpërndarje normale standarde N(0.1), dhe X– shpërndarja chi – katror c n shkallët e lirisë. Ku n quhet “numri i shkallëve të lirisë” i shpërndarjes së Studentit.

Shpërndarja Studentore u prezantua në vitin 1908 nga statisticieni anglez W. Gosset, i cili punonte në një fabrikë birre. Për marrjen e vendimeve ekonomike dhe teknike në këtë fabrikë u përdorën metoda probabiliste dhe statistikore, ndaj drejtuesit e saj e ndaluan V. Gosset të botonte artikuj shkencorë me emrin e tij. Në këtë mënyrë mbroheshin sekretet tregtare dhe “know-how” në formën e metodave probabiliste dhe statistikore të zhvilluara nga V. Gosset. Megjithatë, ai pati mundësinë të botonte me pseudonimin “Studenti”. Historia Gosset-Student tregon se edhe njëqind vjet më parë, menaxherët britanikë ishin në dijeni të madhështisë efikasiteti ekonomik metodat probabilistiko-statistikore.

Aktualisht, shpërndarja Studenti është një nga shpërndarjet më të njohura që përdoret në analizën e të dhënave reale. Përdoret kur vlerësohet pritshmëria matematikore, vlera e parashikimit dhe karakteristikat e tjera duke përdorur intervale besimi, testimi i hipotezave për vlerat e pritjeve matematikore, koeficientët e regresionit, hipotezat e homogjenitetit të mostrës, etj. .

Shpërndarja Fisher është shpërndarja e një ndryshoreje të rastësishme

ku janë variablat e rastësishëm X 1 Dhe X 2 janë të pavarura dhe kanë shpërndarje chi-katrore me numrin e shkallëve të lirisë k 1 Dhe k 2 përkatësisht. Në të njëjtën kohë, çifti (k 1 , k 2 ) - një palë "shkallë lirie" të shpërndarjes së Fisher, përkatësisht, k 1 është numri i shkallëve të lirisë së numëruesit, dhe k 2 – numri i shkallëve të lirisë së emëruesit. Shpërndarja e një ndryshoreje të rastësishme F emëruar pas statisticienit të madh anglez R. Fisher (1890-1962), i cili e përdori atë në mënyrë aktive në veprat e tij.

Shpërndarja Fisher përdoret kur testohen hipotezat për përshtatshmërinë e modelit në analizën e regresionit, barazinë e variancave dhe në probleme të tjera të statistikave të aplikuara.

Shprehjet për funksionet chi-square, Student dhe Fisher, dendësia dhe karakteristikat e tyre, si dhe tabelat e nevojshme për përdorimin e tyre praktik, mund të gjenden në literaturën e specializuar (shih, për shembull,).

23. Koncepti i chi-square dhe shpërndarjes studentore, dhe pamje grafike

1) Një shpërndarje (chi-katror) me n shkallë lirie është shpërndarja e shumës së katrorëve të n variablave standarde të pavarura të rastit.

Shpërndarja (chi-katror)- shpërndarja e një ndryshoreje të rastësishme (dhe pritshmëria matematikore e secilës prej tyre është 0, dhe devijimi standard është 1)

ku janë variablat e rastësishëm janë të pavarura dhe kanë të njëjtën shpërndarje. Në këtë rast, numri i termave, d.m.th. , quhet "numri i shkallëve të lirisë" i shpërndarjes chi-katrore. Numri chi-katror përcaktohet nga një parametër, numri i shkallëve të lirisë. Ndërsa numri i shkallëve të lirisë rritet, shpërndarja ngadalë i afrohet normales.

Pastaj shuma e katrorëve të tyre

është një ndryshore e rastësishme e shpërndarë sipas të ashtuquajturit ligj chi-katror me k = n shkallë lirie; nëse termat lidhen me ndonjë relacion (për shembull, ), atëherë numri i shkallëve të lirisë k = n – 1.

Dendësia e kësaj shpërndarjeje

Këtu është funksioni gama; në veçanti, Г(n + 1) = n! .

Prandaj, shpërndarja chi-katrore përcaktohet nga një parametër - numri i shkallëve të lirisë k.

Vërejtje 1. Me rritjen e numrit të shkallëve të lirisë, shpërndarja chi-katror gradualisht i afrohet normales.

Vërejtje 2. Duke përdorur shpërndarjen chi-square, përcaktohen shumë shpërndarje të tjera të hasura në praktikë, p.sh., shpërndarja e një ndryshoreje të rastësishme - gjatësia e një vektori të rastit (X1, X2,..., Xn), koordinatat e të cilat janë të pavarura dhe të shpërndara sipas ligjit normal.

Shpërndarja χ2 u konsiderua për herë të parë nga R. Helmert (1876) dhe K. Pearson (1900).

Math.prit.=n; D=2n

2) Shpërndarja e nxënësve

Konsideroni dy variabla të rastësishme të pavarura: Z, i cili ka një shpërndarje normale dhe është i normalizuar (d.m.th., M(Z) = 0, σ(Z) = 1) dhe V, i cili shpërndahet sipas ligjit chi-katror me k. shkallët e lirisë. Pastaj vlera

ka një shpërndarje të quajtur shpërndarje t ose shpërndarje Studenti me k shkallë lirie. Në këtë rast, k quhet "numri i shkallëve të lirisë" të shpërndarjes Student.

Ndërsa numri i shkallëve të lirisë rritet, shpërndarja e Studentëve i afrohet shpejt normales.

Kjo shpërndarje u prezantua në vitin 1908 nga statisticieni anglez W. Gosset, i cili punonte në një fabrikë birre. Për marrjen e vendimeve ekonomike dhe teknike në këtë fabrikë u përdorën metoda probabiliste dhe statistikore, ndaj drejtuesit e saj e ndaluan V. Gosset të botonte artikuj shkencorë me emrin e tij. Në këtë mënyrë mbroheshin sekretet tregtare dhe “know-how” në formën e metodave probabiliste dhe statistikore të zhvilluara nga V. Gosset. Megjithatë, ai pati mundësinë të botonte me pseudonimin “Studenti”. Historia Gosset-Student tregon se edhe njëqind vjet më parë, menaxherët e Mbretërisë së Bashkuar ishin të vetëdijshëm për efikasitetin më të madh ekonomik të metodave probabiliste dhe statistikore të vendimmarrjes.

Ndani me miqtë ose kurseni për veten tuaj:

Po ngarkohet...