Pearson-fordeling (kikvadratfordeling). Klassiske metoder for statistikk: kjikvadrattest Ksi-kvadratfordeling

Kjikvadratfordelingen er en av de mest brukte i statistikk for å teste statistiske hypoteser. Basert på kjikvadratfordelingen er en av de kraftigste godhetstestene konstruert - Pearson kjikvadrattest.

Enighetskriteriet er kriteriet for å teste hypotesen om den antatte loven for en ukjent fordeling.

χ2 (chi-kvadrat)-testen brukes til å teste hypotesen om forskjellige fordelinger. Dette er hans verdighet.

Beregningsformelen til kriteriet er lik

hvor m og m’ er henholdsvis empiriske og teoretiske frekvenser

den aktuelle distribusjonen;

n er antall frihetsgrader.

For å sjekke, må vi sammenligne empiriske (observerte) og teoretiske (beregnet under antakelsen om en normalfordeling) frekvenser.

Dersom de empiriske frekvensene er fullstendig sammenfallende med de beregnede eller forventede frekvensene, vil S (E – T) = 0 og χ2-kriteriet også være lik null. Hvis S (E – T) ikke er lik null, vil dette indikere et avvik mellom de beregnede frekvensene og de empiriske frekvensene til serien. I slike tilfeller er det nødvendig å vurdere betydningen av χ2-kriteriet, som teoretisk sett kan variere fra null til uendelig. Dette gjøres ved å sammenligne den faktisk oppnådde verdien av χ2ф med dens kritiske verdi (χ2st) Nullhypotesen, dvs. antakelsen om at avviket mellom de empiriske og teoretiske eller forventede frekvensene er tilfeldig, tilbakevises dersom χ2ф er større enn eller lik χ2st for akseptert signifikansnivå (a) og antall frihetsgrader (n).

Fordelingen av sannsynlige verdier av den tilfeldige variabelen χ2 er kontinuerlig og asymmetrisk. Det avhenger av antall frihetsgrader (n) og nærmer seg en normalfordeling etter hvert som antallet observasjoner øker. Derfor er anvendelsen av χ2-kriteriet på vurderingen diskrete distribusjoner er assosiert med noen feil som påvirker verdien, spesielt i små prøver. For å få mer nøyaktige estimater, distribueres et utvalg i variantserie, må ha minst 50 alternativer. Riktig anvendelse av χ2-kriteriet krever også at frekvensene til varianter i ekstreme klasser ikke skal være mindre enn 5; hvis det er mindre enn 5 av dem, kombineres de med frekvensene til naboklasser slik at den totale mengden er større enn eller lik 5. I henhold til kombinasjonen av frekvenser reduseres antallet klasser (N). Antall frihetsgrader fastsettes av sekundært antall klasser, tatt i betraktning antall begrensninger på variasjonsfriheten.



Siden nøyaktigheten av å bestemme χ2-kriteriet i stor grad avhenger av nøyaktigheten til å beregne teoretiske frekvenser (T), bør uavrundede teoretiske frekvenser brukes for å oppnå forskjellen mellom de empiriske og beregnede frekvensene.

Som et eksempel, la oss ta en studie publisert på et nettsted dedikert til bruk av statistiske metoder innen humaniora.

Chi-square-testen lar deg sammenligne frekvensfordelinger uavhengig av om de er normalfordelte eller ikke.

Frekvens refererer til antall forekomster av en hendelse. Vanligvis behandles frekvensen av forekomst av hendelser når variabler måles på en navneskala og deres andre egenskaper, i tillegg til hyppighet, er umulige eller problematiske å velge. Med andre ord, når en variabel har kvalitative egenskaper. Mange forskere har også en tendens til å konvertere testresultater til nivåer (høye, gjennomsnittlige, lave) og bygge tabeller over poengfordelinger for å finne ut antall personer på disse nivåene. For å bevise at i et av nivåene (i en av kategoriene) er antallet personer virkelig større (mindre) brukes også chi-kvadratkoeffisienten.

La oss se på det enkleste eksemplet.

En test ble utført blant yngre ungdommer for å identifisere selvtillit. Testresultatene ble konvertert til tre nivåer: høy, middels, lav. Frekvensene ble fordelt som følger:

Høy (B) 27 personer.

Gjennomsnittlig (C) 12 personer.

Lav (L) 11 personer

Det er åpenbart at flertallet av barn har høy selvtillit, men dette må bevises statistisk. For å gjøre dette bruker vi Chi-square-testen.

Vår oppgave er å sjekke om den innhentede empirien skiller seg fra teoretisk like sannsynlige. For å gjøre dette må du finne de teoretiske frekvensene. I vårt tilfelle er teoretiske frekvenser like sannsynlige frekvenser, som finnes ved å legge til alle frekvenser og dele på antall kategorier.

I vårt tilfelle:

(B + C + H)/3 = (27+12+11)/3 = 16,6

Formel for beregning av kjikvadrattesten:

χ2 = ∑(E - T)I / T

Vi bygger bordet:

Finn summen av den siste kolonnen:

Nå må du finne den kritiske verdien av kriteriet ved å bruke tabellen over kritiske verdier (tabell 1 i vedlegget). For å gjøre dette trenger vi antall frihetsgrader (n).

n = (R - 1) * (C - 1)

der R er antall rader i tabellen, C er antall kolonner.

I vårt tilfelle er det bare én kolonne (som betyr de opprinnelige empiriske frekvensene) og tre rader (kategorier), så formelen endres - vi ekskluderer kolonnene.

n = (R - 1) = 3-1 = 2

For feilsannsynligheten p≤0,05 og n = 2 er den kritiske verdien χ2 = 5,99.

Den oppnådde empiriske verdien er større enn den kritiske verdien - forskjellene i frekvenser er signifikante (χ2= 9,64; p≤0,05).

Som du kan se, er det veldig enkelt å beregne kriteriet og tar ikke mye tid. Den praktiske verdien av kjikvadrattesten er enorm. Denne metoden er mest verdifull når man analyserer svar på spørreskjemaer.


La oss se på et mer komplekst eksempel.

For eksempel vil en psykolog vite om det er sant at lærere er mer partiske mot gutter enn mot jenter. De. mer sannsynlig å rose jenter. For å gjøre dette analyserte psykologen egenskapene til elever skrevet av lærere for hyppigheten av forekomst av tre ord: "aktiv", "flitig", "disiplinert", og synonymer til ordene ble også talt. Data om hyppigheten av forekomst av ord ble lagt inn i tabellen:

For å behandle de innhentede dataene bruker vi kjikvadrattesten.

For å gjøre dette vil vi bygge en tabell over fordelingen av empiriske frekvenser, dvs. de frekvensene vi observerer:

Teoretisk sett forventer vi at frekvensene vil være likt fordelt, d.v.s. frekvensen vil fordeles proporsjonalt mellom gutter og jenter. La oss bygge en tabell over teoretiske frekvenser. For å gjøre dette, multipliser radsummen med kolonnesummen og del det resulterende tallet med totalsummen(e).

Den endelige tabellen for beregninger vil se slik ut:

χ2 = ∑(E - T)I / T

n = (R - 1), hvor R er antall rader i tabellen.

I vårt tilfelle er kjikvadrat = 4,21; n = 2.

Ved å bruke tabellen over kritiske verdier for kriteriet finner vi: med n = 2 og et feilnivå på 0,05, er den kritiske verdien χ2 = 5,99.

Den resulterende verdien er mindre enn den kritiske verdien, noe som betyr at nullhypotesen er akseptert.

Konklusjon: lærere legger ikke vekt på barnets kjønn når de skriver karakteristikker for ham.


Konklusjon.

K. Pearson ga betydelige bidrag til utviklingen matematisk statistikk(et stort antall grunnleggende begreper). Pearsons filosofiske hovedposisjon er formulert slik: vitenskapsbegrepene er kunstige konstruksjoner, midler for å beskrive og bestille sanseopplevelse; reglene for å koble dem til vitenskapelige setninger er isolert av vitenskapens grammatikk, som er vitenskapens filosofi. Den universelle disiplinen – anvendt statistikk – lar oss koble sammen ulike begreper og fenomener, selv om det ifølge Pearson er subjektivt.

Mange av K. Pearsons konstruksjoner er direkte relatert eller utviklet ved bruk av antropologiske materialer. Han utviklet en rekke metoder for numerisk klassifisering og statistiske kriterier brukt i alle vitenskapsområder.


Litteratur.

1. Bogolyubov A. N. Matematikk. Mekanikk. Biografisk oppslagsbok. - Kiev: Naukova Dumka, 1983.

2. Kolmogorov A. N., Yushkevich A. P. (red.). Matematikk på 1800-tallet. - M.: Vitenskap. - T. I.

3. 3. Borovkov A.A. Matematisk statistikk. M.: Nauka, 1994.

4. 8. Feller V. Introduksjon til sannsynlighetsteorien og dens anvendelser. - M.: Mir, T.2, 1984.

5. 9. Harman G., Moderne faktoranalyse. - M.: Statistikk, 1972.

Før sent XIXårhundre ble normalfordelingen ansett som den universelle variasjonsloven i data. K. Pearson bemerket imidlertid at empiriske frekvenser kan avvike sterkt fra normalfordelingen. Spørsmålet oppsto om hvordan man skulle bevise dette. Ikke bare en grafisk sammenligning, som er subjektiv, var nødvendig, men også en streng kvantitativ begrunnelse.

Slik ble kriteriet oppfunnet χ 2(chi square), som tester betydningen av avviket mellom empiriske (observerte) og teoretiske (forventede) frekvenser. Dette skjedde tilbake i 1900, men kriteriet er fortsatt i bruk i dag. Dessuten er den tilpasset for å løse et bredt spekter av problemer. Først og fremst er dette analysen av kategoriske data, dvs. de som ikke uttrykkes etter mengde, men ved å tilhøre en eller annen kategori. For eksempel klassen til bilen, kjønnet til eksperimentdeltakeren, typen plante, etc. Matematiske operasjoner som addisjon og multiplikasjon kan ikke brukes på slike data; frekvenser kan bare beregnes for dem.

Vi angir de observerte frekvensene Om (observert), forventet - E (Forventet). Som et eksempel, la oss ta resultatet av å kaste en terning 60 ganger. Hvis den er symmetrisk og ensartet, er sannsynligheten for å få en side 1/6, og derfor er det forventede antallet å få hver side 10 (1/6∙60). Vi skriver de observerte og forventede frekvensene i en tabell og tegner et histogram.

Nullhypotesen er at frekvensene er konsistente, det vil si at de faktiske dataene ikke motsier de forventede dataene. En alternativ hypotese er at avvikene i frekvenser går utover tilfeldige svingninger, avvikene er statistisk signifikante. For å trekke en streng konklusjon, trenger vi.

  1. Et oppsummerende mål på avviket mellom observert og forventet frekvens.
  2. Fordelingen av dette målet hvis hypotesen om at det ikke er forskjeller er sann.

La oss starte med avstanden mellom frekvensene. Hvis du bare tar forskjellen O - E, da vil et slikt mål avhenge av omfanget av dataene (frekvensene). For eksempel, 20 - 5 = 15 og 1020 - 1005 = 15. I begge tilfeller er forskjellen 15. Men i det første tilfellet er de forventede frekvensene 3 ganger mindre enn de observerte, og i det andre tilfellet - bare 1,5 %. Vi trenger et relativt mål som ikke er avhengig av skala.

La oss ta hensyn til følgende fakta. Generelt kan antallet kategorier som frekvenser måles i være mye større, så sannsynligheten for at en enkelt observasjon faller inn i en eller annen kategori er ganske liten. I så fall vil fordelingen av en slik tilfeldig variabel følge loven om sjeldne hendelser, kjent som Poissons lov. I Poissons lov er som kjent verdien av den matematiske forventningen og variansen sammenfallende (parameter λ ). Dette betyr at den forventede frekvensen for en kategori av den nominelle variabelen E i vil være samtidig og dens spredning. Videre har Poissons lov en tendens til å være normal med et stort antall observasjoner. Ved å kombinere disse to fakta, får vi at hvis hypotesen om samsvaret mellom de observerte og forventede frekvensene er riktig, så med et stort antall observasjoner, uttrykk

Det er viktig å huske at normalitet kun vil vises ved tilstrekkelig høye frekvenser. I statistikk er det generelt akseptert at det totale antallet observasjoner (summen av frekvenser) må være minst 50 og forventet frekvens i hver gradering må være minst 5. Bare i dette tilfellet har verdien vist ovenfor en standard normalfordeling . La oss anta at denne betingelsen er oppfylt.

Standard normalfordelingen har nesten alle verdier innenfor ±3 (tre-sigma-regelen). Dermed oppnådde vi den relative forskjellen i frekvenser for en gradering. Vi trenger et generaliserbart tiltak. Du kan ikke bare legge sammen alle avvikene - vi får 0 (gjett hvorfor). Pearson foreslo å legge sammen kvadratene til disse avvikene.

Dette er tegnet Chi-kvadrat test Pearson. Hvis frekvensene virkelig tilsvarer de forventede, vil verdien av kriteriet være relativt liten (siden de fleste avvikene er rundt null). Men hvis kriteriet viser seg å være stort, indikerer dette betydelige forskjeller mellom frekvenser.

Pearson-kriteriet blir "stort" når forekomsten av en slik eller en enda større verdi blir usannsynlig. Og for å beregne en slik sannsynlighet, er det nødvendig å vite fordelingen av kriteriet når eksperimentet gjentas mange ganger, når hypotesen om frekvensavtale er riktig.

Som det er lett å se, avhenger kjikvadratverdien også av antall ledd. Jo flere det er, jo større verdi bør kriteriet ha, fordi hvert ledd vil bidra til totalen. Derfor for hver mengde uavhengig vilkår, vil det være egen distribusjon. Det viser seg at χ 2 er en hel familie av distribusjoner.

Og her kommer vi til et delikat øyeblikk. Hva er et tall uavhengig vilkår? Det virker som ethvert begrep (dvs. avvik) er uavhengig. Det mente også K. Pearson, men han viste seg å ta feil. Faktisk vil antallet uavhengige ledd være én mindre enn antallet graderinger av den nominelle variabelen n. Hvorfor? For hvis vi har et utvalg som summen av frekvenser allerede er beregnet for, så kan en av frekvensene alltid bestemmes som differansen mellom det totale antallet og summen av alle de andre. Derfor blir variasjonen noe mindre. Ronald Fisher la merke til dette faktum 20 år etter at Pearson utviklet sitt kriterium. Selv bordene måtte gjøres om.

Ved denne anledningen introduserte Fisher et nytt konsept i statistikk - grad av frihet(frihetsgrader), som representerer antall uavhengige ledd i summen. Begrepet frihetsgrader har en matematisk forklaring og vises kun i fordelinger knyttet til det normale (Student's, Fisher-Snedecor og chi-square selv).

For bedre å forstå betydningen av grader av frihet, la oss vende oss til en fysisk analog. La oss forestille oss et punkt som beveger seg fritt i rommet. Den har 3 frihetsgrader, fordi kan bevege seg i alle retninger i tredimensjonalt rom. Hvis et punkt beveger seg langs en overflate, har det allerede to frihetsgrader (frem og tilbake, venstre og høyre), selv om det fortsetter å være i tredimensjonalt rom. Et punkt som beveger seg langs en fjær er igjen i tredimensjonalt rom, men har bare én frihetsgrad, fordi kan bevege seg enten fremover eller bakover. Som du kan se, samsvarer ikke plassen der objektet befinner seg alltid med reell bevegelsesfrihet.

På omtrent samme måte kan fordelingen av et statistisk kriterium avhenge av et mindre antall elementer enn vilkårene som trengs for å beregne det. Generelt er antallet frihetsgrader mindre enn antall observasjoner med antall eksisterende avhengigheter.

Dermed chi-kvadratfordelingen ( χ 2) er en familie av distribusjoner, som hver avhenger av frihetsgradsparameteren. Og den formelle definisjonen av kjikvadrattesten er som følger. Fordeling χ 2(chi-kvadrat) s k frihetsgrader er fordelingen av summen av kvadrater k uavhengige standard normale tilfeldige variabler.

Deretter kan vi gå videre til selve formelen som kjikvadratfordelingsfunksjonen beregnes med, men heldigvis har alt lenge blitt beregnet for oss. For å få sannsynligheten for interesse kan du bruke enten den aktuelle statistiske tabellen eller en ferdig funksjon i Excel.

Det er interessant å se hvordan formen på kjikvadratfordelingen endres avhengig av antall frihetsgrader.

Med økende frihetsgrader har kjikvadratfordelingen en tendens til å være normal. Dette forklares av handlingen til den sentrale grensesetningen, ifølge hvilken summen av et stort antall uavhengige tilfeldige variabler har en normalfordeling. Det står ikke noe om ruter)).

Testing av hypotesen ved hjelp av Pearson kjikvadrattest

Nå kommer vi til å teste hypoteser ved hjelp av kjikvadratmetoden. Generelt forblir teknologien. Nullhypotesen er at de observerte frekvensene tilsvarer de forventede (dvs. det er ingen forskjell mellom dem fordi de er hentet fra samme populasjon). Hvis dette er tilfelle, vil spredningen være relativt liten, innenfor grensene for tilfeldige svingninger. Spredningsmålet bestemmes ved bruk av kjikvadrattesten. Deretter sammenlignes enten selve kriteriet med den kritiske verdien (for tilsvarende betydningsnivå og frihetsgrader), eller, hva som er riktigere, beregnes den observerte p-verdien, dvs. sannsynligheten for å oppnå samme eller enda større kriterieverdi hvis nullhypotesen er sann.

Fordi vi er interessert i samsvar mellom frekvenser, da vil hypotesen bli forkastet når kriteriet er større enn det kritiske nivået. De. kriteriet er ensidig. Noen ganger (noen ganger) er det imidlertid nødvendig å teste hypotesen til venstre. For eksempel når empiriske data ligner veldig på teoretiske data. Da kan kriteriet falle inn i en usannsynlig region, men til venstre. Faktum er at under naturlige forhold er det usannsynlig å oppnå frekvenser som praktisk talt sammenfaller med de teoretiske. Det er alltid en eller annen tilfeldighet som gir feil. Men hvis det ikke er en slik feil, er kanskje dataene forfalsket. Men likevel blir den høyresidige hypotesen vanligvis testet.

La oss gå tilbake til terningproblemet. La oss beregne verdien av kjikvadrattesten ved å bruke tilgjengelige data.

La oss nå finne den kritiske verdien ved 5 frihetsgrader ( k) og signifikansnivå 0,05 ( α ) i henhold til tabellen over kritiske verdier for chi-kvadratfordelingen.

Det vil si at 0,05-kvantilen er en chikvadratfordeling (høyre hale) med 5 frihetsgrader x 2 0,05; 5 = 11,1.

La oss sammenligne de faktiske og tabulerte verdiene. 3,4 ( χ 2) < 11,1 (x 2 0,05; 5). Det beregnede kriteriet viste seg å være mindre, noe som betyr at hypotesen om likhet (avtale) av frekvenser ikke forkastes. På figuren ser situasjonen slik ut.

Hvis den beregnede verdien falt innenfor det kritiske området, ville nullhypotesen bli forkastet.

Det vil være mer riktig å også beregne p-verdien. For å gjøre dette må du finne den nærmeste verdien i tabellen for et gitt antall frihetsgrader og se på det tilsvarende signifikansnivået. Men dette siste århundre. Vi vil bruke en datamaskin, spesielt MS Excel. Excel har flere funksjoner knyttet til kjikvadrat.

Nedenfor er en kort beskrivelse av dem.

CH2.OBR– kritisk verdi av kriteriet ved en gitt sannsynlighet til venstre (som i statistiske tabeller)

CH2.OBR.PH– kritisk verdi av kriteriet for en gitt sannsynlighet til høyre. Funksjonen dupliserer i hovedsak den forrige. Men her kan du umiddelbart angi nivået α , i stedet for å trekke den fra 1. Dette er mer praktisk, fordi i de fleste tilfeller er det høyre hale av fordelingen som trengs.

CH2.DIST– p-verdi til venstre (tetthet kan beregnes).

CH2.DIST.PH– p-verdi til høyre.

CHI2.TEST– utfører umiddelbart en kjikvadrattest for to frekvensområder. Antall frihetsgrader antas å være én mindre enn antall frekvenser i kolonnen (som det burde være), og returnerer en p-verdi.

La oss beregne den kritiske (tabellformede) verdien for 5 frihetsgrader og alfa 0,05 for eksperimentet vårt. Excel-formelen vil se slik ut:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Resultatet blir det samme - 11.0705. Dette er verdien vi ser i tabellen (avrundet til 1 desimal).

La oss til slutt beregne p-verdien for kriteriet for 5 frihetsgrader χ 2= 3,4. Vi trenger sannsynligheten til høyre, så vi tar funksjonen med tillegg av HH (høyre hale)

CH2.DIST.PH(3,4;5) = 0,63857

Dette betyr at med 5 frihetsgrader er sannsynligheten for å oppnå kriterieverdien χ 2= 3,4 og mer tilsvarer nesten 64 %. Naturligvis forkastes ikke hypotesen (p-verdi er større enn 5%), frekvensene stemmer meget godt overens.

La oss nå sjekke hypotesen om samsvar mellom frekvenser ved å bruke kjikvadrattesten og Excel-funksjonen CHI2.TEST.

Ingen tabeller, ingen tungvinte beregninger. Ved å spesifisere kolonner med observerte og forventede frekvenser som funksjonsargumenter får vi umiddelbart p-verdien. Skjønnhet.

Tenk deg nå at du spiller terninger med en mistenkelig fyr. Fordelingen av poeng fra 1 til 5 forblir den samme, men han kaster 26 seksere (totalt antall kast blir 78).

P-verdien i dette tilfellet viser seg å være 0,003, som er mye mindre enn 0,05. Det er gode grunner til å tvile på terningens gyldighet. Slik ser denne sannsynligheten ut på et kjikvadratfordelingsdiagram.

Selve kjikvadratkriteriet viser seg her å være 17,8, som naturligvis er større enn tabell en (11,1).

Jeg håper jeg klarte å forklare hva kriteriet for avtale er χ 2(Pearson chi-square) og hvordan det kan brukes til å teste statistiske hypoteser.

Endelig, nok en gang om en viktig tilstand! Kjikvadrattesten fungerer bare riktig når antallet av alle frekvenser overstiger 50, og minimum forventet verdi for hver gradering ikke er mindre enn 5. Hvis i en kategori er forventet frekvens mindre enn 5, men summen av alle frekvenser overskrider 50, så kombineres en slik kategori med den nærmeste slik at deres totale frekvens overstiger 5. Hvis dette ikke er mulig, eller summen av frekvensene er mindre enn 50, bør mer nøyaktige metoder for å teste hypoteser brukes. Vi snakker om dem en annen gang.

Nedenfor er en video om hvordan du tester en hypotese i Excel ved hjelp av kjikvadrattesten.

La U 1 , U 2 , .., U k være uavhengig standard normale verdier. Fordelingen av den stokastiske variabelen K = U 1 2 +U 2 2 + .. + U k 2 kalles kjikvadratfordelingen med k frihetsgrader (skriv K~χ 2 (k)). Dette er en unimodal fordeling med positiv skjevhet og følgende egenskaper: modus M=k-2 forventet verdi m=k dispersjon D=2k (fig.). Med en tilstrekkelig stor verdi av parameteren k fordeling χ 2 (k) har en tilnærmet normalfordeling med parametere

Ved løsning av problemer med matematisk statistikk brukes kritiske punkter χ 2 (k), avhengig av den gitte sannsynligheten α og antall frihetsgrader k(Vedlegg 2). Det kritiske punktet Χ 2 kr = Χ 2 (k; α) er grensen til regionen til høyre for som ligger 100- α % av arealet under fordelingstetthetskurven. Sannsynligheten for at verdien av den stokastiske variabelen K~χ 2 (k) under testing vil falle til høyre for punktet χ 2 (k) overskrider ikke α P(K≥χ 2 kp)≤ α). For eksempel, for den tilfeldige variabelen K~χ 2 (20) setter vi sannsynligheten α=0,05. Ved å bruke tabellen over kritiske punkter for kjikvadratfordelingen (tabeller), finner vi χ 2 kp = χ 2 (20;0,05) = 31,4. Dette betyr at sannsynligheten for denne tilfeldige variabelen K godta en verdi større enn 31,4, mindre enn 0,05 (fig.).

Ris. Fordelingstetthetsgraf χ 2 (k) for forskjellige verdier av antall frihetsgrader k

Kritiske punkter χ 2 (k) brukes i følgende kalkulatorer:

  1. Sjekker for tilstedeværelse av multikollinearitet (om multikollinearitet).
Å teste en hypotese ved hjelp av Chi-kvadrat vil bare svare på spørsmålet "er det et forhold?", ytterligere forskning er nødvendig for å teste retningen til forholdet. Dessuten har Chi-square-testen en viss feil når du arbeider med lavfrekvente data.

Derfor, for å sjekke kommunikasjonsretningen, velg korrelasjonsanalyse, spesielt testing av hypotesen ved å bruke Pearson-korrelasjonskoeffisienten med ytterligere testing for signifikans ved bruk av t-testen.

For enhver verdi av signifikansnivået kan α Χ 2 finnes ved å bruke MS Excel-funksjonen: =HI2OBR(α;frihetsgrader)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Antall frihetsgrader k Signifikansnivå a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0

Pearson (chi-kvadrat), Student- og Fisher-fordelinger

Ved bruk av normalfordelingen defineres tre fordelinger som nå ofte brukes i statistisk databehandling. Disse distribusjonene vises mange ganger i senere deler av boken.

Pearson-fordeling (chi - kvadrat) – fordeling av en tilfeldig variabel

Hvor tilfeldige variabler X 1 , X 2 ,…, X n uavhengig og har samme fordeling N(0,1). I dette tilfellet vil antall termer, dvs. n, kalles "antall frihetsgrader" for kjikvadratfordelingen.

Kjikvadratfordelingen brukes ved estimering av varians (ved bruk av et konfidensintervall), ved testing av hypoteser om samsvar, homogenitet, uavhengighet, primært for kvalitative (kategoriserte) variabler som har et begrenset antall verdier, og i mange andre oppgaver Statistisk analyse data

Fordeling t Elevens t er fordelingen av en tilfeldig variabel

hvor er de tilfeldige variablene U Og X uavhengig, U har en standard normalfordeling N(0,1), og X– chi-fordeling – kvadrat c n grader av frihet. Hvori n kalles "antall frihetsgrader" for Student-fordelingen.

Studentfordelingen ble innført i 1908 av den engelske statistikeren W. Gosset, som jobbet på en ølfabrikk. Probabilistiske og statistiske metoder ble brukt for å ta økonomiske og tekniske beslutninger på denne fabrikken, så ledelsen forbød V. Gosset å publisere vitenskapelige artikler under sitt eget navn. På denne måten ble forretningshemmeligheter og «know-how» i form av sannsynlighets- og statistiske metoder utviklet av V. Gosset beskyttet. Han hadde imidlertid muligheten til å publisere under pseudonymet "Student". Gosset-Student-historien viser at selv for hundre år siden var britiske ledere klar over det store økonomisk effektivitet probabilistisk-statistiske metoder.

Foreløpig er Student-fordelingen en av de mest kjente distribusjonene som brukes i analyse av virkelige data. Den brukes når du estimerer den matematiske forventningen, prognoseverdien og andre egenskaper ved å bruke konfidensintervaller, tester hypoteser om verdiene til matematiske forventninger, regresjonskoeffisienter, hypoteser om prøvehomogenitet, etc. .

Fisher-fordelingen er fordelingen av en tilfeldig variabel

hvor er de tilfeldige variablene X 1 Og X 2 er uavhengige og har kjikvadratfordelinger med antall frihetsgrader k 1 Og k 2 hhv. Samtidig paret (k 1 , k 2 ) – et par "frihetsgrader" av Fisher-distribusjonen, nemlig, k 1 er antall frihetsgrader for telleren, og k 2 – antall frihetsgrader for nevneren. Fordeling av en tilfeldig variabel F oppkalt etter den store engelske statistikeren R. Fisher (1890-1962), som aktivt brukte det i sine arbeider.

Fisher-fordelingen brukes når man tester hypoteser om modellens tilstrekkelighet i regresjonsanalyse, varianslikhet og i andre problemer med anvendt statistikk.

Uttrykk for kjikvadrat-, Student- og Fisher-fordelingsfunksjonene, deres tettheter og egenskaper, samt tabellene som er nødvendige for praktisk bruk, kan finnes i den spesialiserte litteraturen (se for eksempel).

23. Konsept for kjikvadrat og Studentdistribusjon, og grafisk visning

1) En fordeling (chi-kvadrat) med n frihetsgrader er fordelingen av summen av kvadrater av n uavhengige standard normale tilfeldige variabler.

Distribusjon (chi-kvadrat)- fordeling av en tilfeldig variabel (og den matematiske forventningen til hver av dem er 0, og standardavviket er 1)

hvor er de tilfeldige variablene er uavhengige og har samme fordeling. I dette tilfellet vil antall termer, dvs. , kalles "antall frihetsgrader" for kjikvadratfordelingen. Kjikvadrattallet bestemmes av én parameter, antall frihetsgrader. Etter hvert som antallet frihetsgrader øker, nærmer fordelingen seg sakte normalen.

Deretter summen av kvadratene deres

er en tilfeldig variabel fordelt etter den såkalte kjikvadratloven med k = n frihetsgrader; hvis begrepene er relatert av en eller annen relasjon (for eksempel ), så er antallet frihetsgrader k = n – 1.

Tettheten av denne fordelingen

Her er gammafunksjonen; spesielt, Г(n + 1) = n! .

Derfor bestemmes kjikvadratfordelingen av én parameter - antall frihetsgrader k.

Merknad 1. Etter hvert som antall frihetsgrader øker, nærmer kjikvadratfordelingen seg gradvis normal.

Merknad 2. Ved å bruke kjikvadratfordelingen bestemmes mange andre fordelinger man møter i praksis, for eksempel fordelingen av en tilfeldig variabel - lengden på en tilfeldig vektor (X1, X2,..., Xn), koordinatene til som er uavhengige og fordelt etter normalloven.

χ2-fordelingen ble først vurdert av R. Helmert (1876) og K. Pearson (1900).

Math.expect.=n; D=2n

2) Elevfordeling

Tenk på to uavhengige tilfeldige variabler: Z, som har en normalfordeling og er normalisert (det vil si M(Z) = 0, σ(Z) = 1), og V, som er fordelt i henhold til kjikvadratloven med k grader av frihet. Deretter verdien

har en fordeling kalt t-fordelingen eller Studentfordelingen med k frihetsgrader. I dette tilfellet kalles k "antall frihetsgrader" for Studentfordelingen.

Etter hvert som antallet frihetsgrader øker, nærmer Studentfordelingen seg raskt normalen.

Denne distribusjonen ble introdusert i 1908 av den engelske statistikeren W. Gosset, som jobbet på en ølfabrikk. Probabilistiske og statistiske metoder ble brukt for å ta økonomiske og tekniske beslutninger på denne fabrikken, så ledelsen forbød V. Gosset å publisere vitenskapelige artikler under sitt eget navn. På denne måten ble forretningshemmeligheter og «know-how» i form av sannsynlighets- og statistiske metoder utviklet av V. Gosset beskyttet. Han hadde imidlertid muligheten til å publisere under pseudonymet "Student". Gosset-Student-historien viser at selv for hundre år siden var britiske ledere klar over den større økonomiske effektiviteten til sannsynlige og statistiske metoder for beslutningstaking.

Del med venner eller spar selv:

Laster inn...