Pearson paylanması (xi-kvadrat paylanması). Statistikanın klassik üsulları: Xi-kvadrat testi Ksi kvadrat paylanması

Xi-kvadrat paylanması statistik fərziyyələri yoxlamaq üçün statistikada ən çox istifadə edilənlərdən biridir. Xi-kvadrat paylanmasına əsasən, ən güclü uyğunluq testlərindən biri - Pearson ki-kvadrat testi qurulur.

Razılıq meyarı naməlum paylanmanın fərz edilən qanunu haqqında fərziyyənin sınaqdan keçirilməsi üçün meyardır.

χ2 (xi-kvadrat) testi müxtəlif paylanmaların hipotezini yoxlamaq üçün istifadə olunur. Bu onun ləyaqətidir.

Kriteriyanın hesablama düsturu bərabərdir

burada m və m’ müvafiq olaraq empirik və nəzəri tezliklərdir

sözügedən paylama;

n sərbəstlik dərəcələrinin sayıdır.

Yoxlamaq üçün empirik (müşahidə olunan) və nəzəri (normal paylanma fərziyyəsi ilə hesablanmış) tezlikləri müqayisə etməliyik.

Əgər empirik tezliklər hesablanmış və ya gözlənilən tezliklərlə tamamilə üst-üstə düşürsə, S (E – T) = 0 və χ2 meyarı da sıfıra bərabər olacaqdır. Əgər S (E – T) sıfıra bərabər deyilsə, bu, hesablanmış tezliklər ilə seriyanın empirik tezlikləri arasında uyğunsuzluğu göstərəcək. Belə hallarda nəzəri cəhətdən sıfırdan sonsuza qədər dəyişə bilən χ2 meyarının əhəmiyyətini qiymətləndirmək lazımdır. Bu, χ2ф-nin faktiki əldə edilmiş qiymətini onun kritik qiyməti ilə (χ2st) müqayisə etməklə həyata keçirilir.Nul hipotezi, yəni empirik və nəzəri və ya gözlənilən tezliklər arasındakı uyğunsuzluğun təsadüfi olması ehtimalı χ2ф-dən böyük və ya ona bərabər olduqda təkzib edilir. Qəbul edilmiş əhəmiyyət səviyyəsi (a) və sərbəstlik dərəcələrinin sayı (n) üçün χ2.

χ2 təsadüfi kəmiyyətinin ehtimal dəyərlərinin paylanması davamlı və asimmetrikdir. Sərbəstlik dərəcələrinin sayından (n) asılıdır və müşahidələrin sayı artdıqca normal paylanmaya yaxınlaşır. Buna görə də qiymətləndirməyə χ2 meyarının tətbiqi diskret paylamalar xüsusilə kiçik nümunələrdə onun dəyərinə təsir edən bəzi səhvlərlə əlaqələndirilir. Daha dəqiq təxminlər əldə etmək üçün nümunə paylanmışdır variasiya seriyası, ən azı 50 seçim olmalıdır. χ2 kriteriyasının düzgün tətbiqi həm də ekstremal siniflərdə variantların tezliklərinin 5-dən az olmamasını tələb edir; əgər onların sayı 5-dən azdırsa, onda onlar qonşu siniflərin tezlikləri ilə birləşdirilir ki, ümumi məbləğ 5-dən çox və ya ona bərabər olsun.Tezliklərin birləşməsinə uyğun olaraq siniflərin sayı (N) azalır. Sərbəstlik dərəcələrinin sayı dəyişmə azadlığına qoyulan məhdudiyyətlərin sayı nəzərə alınmaqla siniflərin ikinci dərəcəli sayı ilə müəyyən edilir.



χ2 kriteriyasının müəyyən edilməsinin düzgünlüyü əsasən nəzəri tezliklərin (T) hesablanmasının düzgünlüyündən asılı olduğundan empirik və hesablanmış tezliklər arasındakı fərqi əldə etmək üçün yuvarlaqlaşdırılmamış nəzəri tezliklərdən istifadə edilməlidir.

Nümunə olaraq istifadəsinə həsr olunmuş bir internet saytında dərc edilmiş bir araşdırmanı götürək statistik üsullar humanitar elmlərdə.

Ki-kvadrat testi, normal paylanıb-paylanmamasından asılı olmayaraq tezlik paylamalarını müqayisə etməyə imkan verir.

Tezlik bir hadisənin baş vermə sayına aiddir. Adətən hadisələrin baş vermə tezliyi dəyişənlər adlar miqyasında ölçüldükdə və onların tezliyi ilə yanaşı digər xüsusiyyətlərini seçmək qeyri-mümkün və ya problemli olduqda nəzərdən keçirilir. Başqa sözlə, dəyişən keyfiyyət xüsusiyyətlərinə malik olduqda. Həmçinin, bir çox tədqiqatçılar test xallarını səviyyələrə (yüksək, orta, aşağı) çevirməyə və bu səviyyələrdə olan insanların sayını öyrənmək üçün xalların paylanması cədvəllərini qurmağa meyllidirlər. Səviyyələrdən birində (kateqoriyalardan birində) insanların sayının həqiqətən çox (az) olduğunu sübut etmək üçün Ki-kvadrat əmsalı da istifadə olunur.

Ən sadə nümunəyə baxaq.

Özünə hörməti müəyyən etmək üçün gənc yeniyetmələr arasında test keçirilib. Test balları üç səviyyəyə çevrildi: yüksək, orta, aşağı. Tezliklər aşağıdakı kimi paylandı:

Yüksək (B) 27 nəfər.

Orta (C) 12 nəfər.

Aşağı (L) 11 nəfər

Aydındır ki, uşaqların əksəriyyətinin özünə hörməti yüksəkdir, lakin bunu statistik şəkildə sübut etmək lazımdır. Bunun üçün biz Ki-kvadrat testindən istifadə edirik.

Bizim vəzifəmiz əldə edilmiş empirik məlumatların nəzəri cəhətdən eyni dərəcədə ehtimal olunanlardan fərqli olub olmadığını yoxlamaqdır. Bunun üçün nəzəri tezlikləri tapmaq lazımdır. Bizim vəziyyətimizdə nəzəri tezliklər eyni dərəcədə ehtimal olunan tezliklərdir ki, onlar bütün tezlikləri toplamaq və kateqoriyaların sayına bölmək yolu ilə tapılır.

Bizim vəziyyətimizdə:

(B + C + H)/3 = (27+12+11)/3 = 16,6

Ki-kvadrat testinin hesablanması üçün düstur:

χ2 = ∑(E - T)I / T

Cədvəl qururuq:

Son sütunun cəmini tapın:

İndi kritik dəyərlər cədvəlindən istifadə edərək meyarın kritik dəyərini tapmalısınız (Əlavədəki Cədvəl 1). Bunun üçün bizə sərbəstlik dərəcələrinin sayı (n) lazımdır.

n = (R - 1) * (C - 1)

burada R cədvəldəki sətirlərin sayı, C sütunların sayıdır.

Bizim vəziyyətimizdə yalnız bir sütun (orijinal empirik tezliklər deməkdir) və üç sıra (kateqoriyalar) var, buna görə də formula dəyişir - sütunları istisna edirik.

n = (R - 1) = 3-1 = 2

Səhv ehtimalı p≤0.05 və n = 2 üçün kritik qiymət χ2 = 5.99-dur.

Alınan empirik qiymət kritik qiymətdən böyükdür - tezliklərdəki fərqlər əhəmiyyətlidir (χ2= 9,64; p≤0,05).

Gördüyünüz kimi, meyarın hesablanması çox sadədir və çox vaxt çəkmir. Xi-kvadrat testinin praktiki dəyəri çox böyükdür. Anketlərə verilən cavabları təhlil edərkən bu üsul ən dəyərlidir.


Daha mürəkkəb bir nümunəyə baxaq.

Məsələn, psixoloq müəllimlərin qızlardan çox oğlanlara qarşı qərəzli olmasının doğru olub-olmadığını bilmək istəyir. Bunlar. qızları tərifləmək ehtimalı daha çoxdur. Bunun üçün psixoloq şagirdlərin müəllimlər tərəfindən yazılan xüsusiyyətlərini üç sözün rast gəlmə tezliyinə görə təhlil etdi: “fəal”, “çalışqan”, “intizamlı” və sözlərin sinonimləri də hesablanıb. Sözlərin baş vermə tezliyi ilə bağlı məlumatlar cədvələ daxil edilmişdir:

Alınan məlumatları emal etmək üçün xi-kvadrat testindən istifadə edirik.

Bunun üçün empirik tezliklərin paylanması cədvəlini quracağıq, yəni. müşahidə etdiyimiz tezliklər:

Teorik olaraq, tezliklərin bərabər paylanacağını gözləyirik, yəni. tezlik oğlanlar və qızlar arasında mütənasib olaraq paylanacaq. Nəzəri tezliklərin cədvəlini yaradaq. Bunu etmək üçün, sətir cəmini sütunun cəminə vurun və nəticədə çıxan ədədi ümumi məbləğə (s) bölün.

Hesablamalar üçün yekun cədvəl belə görünəcək:

χ2 = ∑(E - T)I / T

n = (R - 1), burada R cədvəldəki sətirlərin sayıdır.

Bizim vəziyyətimizdə xi-kvadrat = 4.21; n = 2.

Kriteriyanın kritik dəyərləri cədvəlindən istifadə edərək tapırıq: n = 2 və 0,05 səhv səviyyəsi ilə kritik dəyər χ2 = 5,99-dur.

Əldə edilən dəyər kritik dəyərdən azdır, yəni sıfır hipotezi qəbul edilir.

Nəticə: müəllimlər uşağın xarakteristikası yazarkən onun cinsinə əhəmiyyət vermirlər.


Nəticə.

K.Pirson inkişafa mühüm töhfələr vermişdir riyazi statistika(çoxlu sayda fundamental anlayışlar). Pearsonun əsas fəlsəfi mövqeyi aşağıdakı kimi formalaşdırılır: elm anlayışları süni konstruksiyalar, hiss təcrübəsini təsvir etmək və nizamlamaq vasitələridir; onları elmi cümlələrə bağlamaq qaydaları elm fəlsəfəsi olan elmin qrammatikası ilə təcrid olunur. Universal intizam - tətbiqi statistika - bir-birindən fərqli anlayışları və hadisələri əlaqələndirməyə imkan verir, baxmayaraq ki, Pearsona görə subyektivdir.

K.Pirsonun bir çox konstruksiyaları birbaşa əlaqəlidir və ya antropoloji materiallardan istifadə etməklə inkişaf etdirilir. O, elmin bütün sahələrində istifadə olunan ədədi təsnifat və statistik meyarların çoxsaylı üsullarını işləyib hazırlamışdır.


Ədəbiyyat.

1. Boqolyubov A. N. Riyaziyyat. Mexanika. Bioqrafik arayış kitabçası. - Kiyev: Naukova Dumka, 1983.

2. Kolmoqorov A. N., Yuşkeviç A. P. (red.). 19-cu əsrin riyaziyyatı. - M.: Elm. - T.İ.

3. 3. Borovkov A.A. Riyaziyyat statistikası. M.: Nauka, 1994.

4. 8. Feller V. Ehtimal nəzəriyyəsinə giriş və onun tətbiqi. - M.: Mir, T.2, 1984.

5. 9. Harman G., Müasir faktor analizi. - M.: Statistika, 1972.

Əvvəl XIXəsrdə normal paylanma məlumatların dəyişməsinin universal qanunu hesab olunurdu. Bununla belə, K.Pirson qeyd etdi ki, empirik tezliklər normal paylanmadan çox fərqlənə bilər. Bunu necə sübut etmək sualı ortaya çıxdı. Təkcə subyektiv olan qrafik müqayisə yox, həm də ciddi kəmiyyət əsaslandırması tələb olunurdu.

Bu meyar belə icad edilmişdir χ 2 empirik (müşahidə olunan) və nəzəri (gözlənilən) tezliklər arasındakı uyğunsuzluğun əhəmiyyətini yoxlayan (chi kvadratı). Bu, 1900-cü ildə baş verib, lakin meyar bu gün də istifadə olunur. Üstəlik, geniş spektrli problemlərin həlli üçün uyğunlaşdırılmışdır. Əvvəla, bu, kateqoriyalı məlumatların təhlili, yəni. kəmiyyətlə deyil, hansısa kateqoriyaya aidiyyəti ilə ifadə olunanlar. Məsələn, avtomobilin sinfi, təcrübə iştirakçısının cinsi, bitki növü və s. Bu cür məlumatlara toplama və vurma kimi riyazi əməliyyatlar tətbiq edilə bilməz, yalnız onlar üçün tezliklər hesablana bilər.

Müşahidə olunan tezlikləri qeyd edirik Haqqında (müşahidə olunur), gözlənilən - E (Gözlənilən). Nümunə olaraq, zərfin 60 dəfə yuvarlanmasının nəticəsini götürək. Əgər simmetrik və vahiddirsə, hər hansı bir tərəfin alınma ehtimalı 1/6-dır və buna görə də hər tərəfin alınmasının gözlənilən sayı 10-dur (1/6∙60). Müşahidə olunan və gözlənilən tezlikləri cədvələ yazırıq və histoqramı çəkirik.

Sıfır fərziyyə ondan ibarətdir ki, tezliklər ardıcıldır, yəni faktiki verilənlər gözlənilən məlumatlarla ziddiyyət təşkil etmir. Alternativ fərziyyə odur ki, tezliklərdəki sapmalar təsadüfi dalğalanmalardan kənara çıxır, uyğunsuzluqlar statistik əhəmiyyətlidir. Ciddi bir nəticə çıxarmaq üçün bizə lazımdır.

  1. Müşahidə olunan və gözlənilən tezliklər arasındakı uyğunsuzluğun ümumi ölçüsü.
  2. Fərqlərin olmadığına dair fərziyyə doğrudursa, bu tədbirin paylanması.

Tezliklər arasındakı məsafədən başlayaq. Sadəcə fərqi götürsəniz O - E, onda belə bir tədbir məlumatların (tezliklərin) miqyasından asılı olacaq. Məsələn, 20 - 5 = 15 və 1020 - 1005 = 15. Hər iki halda fərq 15-dir. Amma birinci halda gözlənilən tezliklər müşahidə edilənlərdən 3 dəfə az, ikinci halda isə cəmi 1,5 olur. %. Bizə miqyasdan asılı olmayan nisbi ölçü lazımdır.

Aşağıdakı faktlara diqqət yetirək. Ümumiyyətlə, tezliklərin ölçüldüyü kateqoriyaların sayı daha çox ola bilər, ona görə də bir müşahidənin bu və ya digər kateqoriyaya düşmə ehtimalı olduqca azdır. Əgər belədirsə, onda belə bir təsadüfi dəyişənin paylanması kimi tanınan nadir hadisələr qanununa tabe olacaq Puasson qanunu. Puasson qanununda, məlum olduğu kimi, riyazi gözlənti və dispersiyanın qiyməti üst-üstə düşür (parametr λ ). Bu o deməkdir ki, nominal dəyişənin bəzi kateqoriyası üçün gözlənilən tezlik E i eyni vaxtda olacaq və onun dispersiyası. Bundan əlavə, Puasson qanunu çox sayda müşahidə ilə normallaşır. Bu iki faktı birləşdirərək əldə edirik ki, əgər müşahidə edilən və gözlənilən tezliklər arasında uyğunluq haqqında fərziyyə düzgündürsə, onda çoxlu sayda müşahidələrlə, ifadəsi

Normallığın yalnız kifayət qədər yüksək tezliklərdə görünəcəyini xatırlamaq vacibdir. Statistikada ümumiyyətlə qəbul edilir ki, müşahidələrin ümumi sayı (tezliklərin cəmi) ən azı 50 və hər bir gradasiyada gözlənilən tezlik ən azı 5 olmalıdır. Yalnız bu halda yuxarıda göstərilən dəyər standart normal paylanmaya malikdir. . Tutaq ki, bu şərt yerinə yetirilib.

Standart normal paylanma ±3 (üç siqma qaydası) daxilində demək olar ki, bütün dəyərlərə malikdir. Beləliklə, bir gradasiya üçün tezliklərin nisbi fərqini əldə etdik. Bizə ümumiləşdirilə bilən ölçü lazımdır. Siz sadəcə bütün sapmaları əlavə edə bilməzsiniz - biz 0 alırıq (niyə olduğunu təxmin edin). Pearson bu sapmaların kvadratlarını əlavə etməyi təklif etdi.

Bu işarədir Ki-kvadrat testi Pearson. Tezliklər həqiqətən gözlənilənlərə uyğundursa, meyarın dəyəri nisbətən kiçik olacaq (çünki ən çox kənarlaşma sıfıra yaxındır). Ancaq meyar böyük olarsa, bu, tezliklər arasında əhəmiyyətli fərqləri göstərir.

Pearson meyarı belə və ya daha böyük bir dəyərin baş verməsi ehtimalı az olduqda "böyük" olur. Və belə bir ehtimalı hesablamaq üçün təcrübə dəfələrlə təkrar edildikdə, tezlik uzlaşması fərziyyəsi düzgün olduqda kriteriyanın paylanmasını bilmək lazımdır.

Göründüyü kimi, xi-kvadrat dəyəri də şərtlərin sayından asılıdır. Nə qədər çox olarsa, meyarın dəyəri bir o qədər çox olmalıdır, çünki hər bir termin ümumiyə töhfə verəcəkdir. Buna görə də hər bir kəmiyyət üçün müstəqilşərtlərlə, öz paylanması olacaq. Belə çıxır ki χ 2 bütöv bir paylama ailəsidir.

Və burada bir incə məqama gəlirik. Nömrə nədir müstəqilşərtləri? Hər hansı bir termin (yəni sapma) müstəqildir. K.Pirson da belə düşünürdü, amma yanıldığı ortaya çıxdı. Əslində, müstəqil terminlərin sayı nominal dəyişənin dərəcələrinin sayından bir az olacaq n. Niyə? Çünki tezliklərin cəminin artıq hesablanmış nümunəmiz varsa, onda tezliklərdən biri həmişə ümumi sayı ilə bütün digərlərinin cəmi arasındakı fərq kimi müəyyən edilə bilər. Beləliklə, dəyişiklik bir qədər az olacaq. Ronald Fisher bu faktı Pearson öz meyarını hazırladıqdan 20 il sonra fərq etdi. Hətta masalar yenidən düzəldilməli idi.

Bu münasibətlə, Fisher statistikaya yeni bir konsepsiya təqdim etdi - azadlıq dərəcəsi(sərbəstlik dərəcələri), cəmdə müstəqil terminlərin sayını ifadə edir. Sərbəstlik dərəcələri anlayışının riyazi izahı var və yalnız normal (Student, Fisher-Snedecor və chi-kvadrat) ilə əlaqəli paylanmalarda görünür.

Azadlıq dərəcələrinin mənasını daha yaxşı başa düşmək üçün fiziki analoqa müraciət edək. Kosmosda sərbəst hərəkət edən bir nöqtəni təsəvvür edək. 3 dərəcə sərbəstliyə malikdir, çünki üçölçülü məkanda istənilən istiqamətdə hərəkət edə bilər. Bir nöqtə hər hansı bir səth boyunca hərəkət edərsə, o, üçölçülü fəzada olmağa davam etsə də, artıq iki sərbəstlik dərəcəsinə malikdir (irəli və arxa, sol və sağ). Yay boyunca hərəkət edən bir nöqtə yenidən üçölçülü fəzadadır, lakin yalnız bir sərbəstlik dərəcəsinə malikdir, çünki irəli və ya geri hərəkət edə bilər. Göründüyü kimi, obyektin yerləşdiyi məkan həmişə real hərəkət azadlığına uyğun gəlmir.

Təxminən eyni şəkildə, statistik meyarın paylanması onun hesablanması üçün lazım olan şərtlərdən daha az sayda elementdən asılı ola bilər. Ümumiyyətlə, sərbəstlik dərəcələrinin sayı mövcud asılılıqların sayına görə müşahidələrin sayından azdır.

Beləliklə, ki kvadrat paylanması ( χ 2) hər biri sərbəstlik dərəcələri parametrindən asılı olan paylamalar ailəsidir. Və ki-kvadrat testinin formal tərifi aşağıdakı kimidir. Paylanma χ 2(xi-kvadrat) s k sərbəstlik dərəcələri kvadratların cəminin paylanmasıdır k müstəqil standart normal təsadüfi dəyişənlər.

Sonra, xi-kvadrat paylama funksiyasının hesablandığı formulun özünə keçə bilərik, amma xoşbəxtlikdən hər şey bizim üçün çoxdan hesablanıb. Maraq ehtimalını əldə etmək üçün ya müvafiq statistik cədvəldən, ya da Excel-də hazır funksiyadan istifadə edə bilərsiniz.

Sərbəstlik dərəcələrinin sayından asılı olaraq xi-kvadrat paylanmasının formasının necə dəyişdiyini görmək maraqlıdır.

Artan sərbəstlik dərəcələri ilə xi-kvadrat paylanması normal olmağa meyllidir. Bu, çoxlu sayda müstəqil təsadüfi dəyişənlərin cəminin normal paylanmaya malik olduğu mərkəzi limit teoreminin hərəkəti ilə izah olunur. Kvadratlarla bağlı heç nə demir)).

Pearson ki-kvadrat testindən istifadə edərək fərziyyənin yoxlanması

İndi biz xi-kvadrat metodundan istifadə edərək fərziyyələri yoxlamağa gəlirik. Ümumiyyətlə, texnologiya qalır. Sıfır fərziyyə ondan ibarətdir ki, müşahidə olunan tezliklər gözlənilənlərə uyğundur (yəni eyni populyasiyadan götürüldüyü üçün onlar arasında heç bir fərq yoxdur). Əgər belədirsə, onda səpələnmə təsadüfi dalğalanmalar çərçivəsində nisbətən kiçik olacaqdır. Dispersiya ölçüsü ki-kvadrat testindən istifadə etməklə müəyyən edilir. Sonra, ya meyarın özü kritik dəyərlə (müvafiq əhəmiyyət səviyyəsi və sərbəstlik dərəcələri üçün) müqayisə edilir, ya da daha doğrusu, müşahidə olunan p-qiyməti hesablanır, yəni. sıfır fərziyyə doğru olarsa, eyni və ya daha çox kriteriya dəyərinin əldə edilməsi ehtimalı.

Çünki biz tezliklərin uzlaşması ilə maraqlanırıq, o zaman kriteriya kritik səviyyədən böyük olduqda fərziyyə rədd ediləcək. Bunlar. meyar birtərəflidir. Lakin bəzən (bəzən) sol fərziyyəni yoxlamaq lazımdır. Məsələn, empirik məlumatlar nəzəri məlumatlara çox oxşar olduqda. Sonra meyar mümkün olmayan bir bölgəyə düşə bilər, ancaq solda. Fakt budur ki, təbii şəraitdə nəzəri olanlarla praktiki olaraq üst-üstə düşən tezlikləri əldə etmək mümkün deyil. Həmişə səhv verən bəzi təsadüfilik var. Ancaq belə bir səhv yoxdursa, ola bilsin ki, məlumatlar saxtalaşdırılıb. Ancaq yenə də sağ tərəfli fərziyyə adətən sınaqdan keçirilir.

Zər probleminə qayıdaq. Mövcud məlumatlardan istifadə edərək xi-kvadrat testinin dəyərini hesablayaq.

İndi 5 sərbəstlik dərəcəsində kritik dəyəri tapaq ( k) və əhəmiyyət səviyyəsi 0,05 ( α ) chi kvadrat paylanmasının kritik dəyərləri cədvəlinə görə.

Yəni, 0,05 kvantil 5 sərbəstlik dərəcəsi ilə xi-kvadrat paylamadır (sağ quyruq). χ 2 0,05; 5 = 11,1.

Gəlin faktiki və cədvəlli dəyərləri müqayisə edək. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Hesablanmış meyar daha kiçik oldu, bu o deməkdir ki, tezliklərin bərabərliyi (razılığı) fərziyyəsi rədd edilmir. Şəkildə vəziyyət belə görünür.

Hesablanmış dəyər kritik bölgəyə düşərsə, sıfır hipotezi rədd ediləcəkdir.

p-qiymətini də hesablamaq daha düzgün olardı. Bunu etmək üçün, müəyyən sayda sərbəstlik dərəcəsi üçün cədvəldə ən yaxın dəyəri tapmaq və müvafiq əhəmiyyət səviyyəsinə baxmaq lazımdır. Amma bu keçən əsr. Kompüterdən, xüsusən MS Excel-dən istifadə edəcəyik. Excel-də xi-kvadrat ilə əlaqəli bir neçə funksiya var.

Aşağıda onların qısa təsviri verilmişdir.

CH2.OBR– solda verilmiş ehtimalda kriteriyanın kritik dəyəri (statistik cədvəllərdə olduğu kimi)

CH2.OBR.PH– sağda verilmiş ehtimal üçün kriteriyanın kritik qiyməti. Funksiya mahiyyətcə əvvəlkini təkrarlayır. Ancaq burada dərhal səviyyəni göstərə bilərsiniz α , 1-dən çıxmaqdansa. Bu daha rahatdır, çünki əksər hallarda paylamanın sağ quyruğuna ehtiyac duyulur.

CH2.DIST– solda p-dəyəri (sıxlıq hesablana bilər).

CH2.DIST.PH– sağda p-dəyəri.

CHI2.TEST– dərhal iki tezlik diapazonu üçün xi-kvadrat testi aparır. Sərbəstlik dərəcələrinin sayı sütundakı tezliklərin sayından bir az qəbul edilir (olduğu kimi) p-qiymətini qaytarır.

Təcrübəmiz üçün 5 sərbəstlik dərəcəsi və alfa 0,05 üçün kritik (cədvəl) dəyəri hesablayaq. Excel düsturu belə görünəcək:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Nəticə eyni olacaq - 11.0705. Bu, cədvəldə gördüyümüz dəyərdir (1 onluq yerə yuvarlaqlaşdırılıb).

Nəhayət, 5 dərəcə sərbəstlik kriteriyası üçün p-qiymətini hesablayaq χ 2= 3.4. Sağdakı ehtimala ehtiyacımız var, ona görə də funksiyanı HH (sağ quyruq) əlavə edərək götürürük.

CH2.DIST.PH(3.4;5) = 0.63857

Bu o deməkdir ki, 5 sərbəstlik dərəcəsi ilə kriteriyanın dəyərini əldə etmək ehtimalı var χ 2= 3,4 və daha çox demək olar ki, 64%-ə bərabərdir. Təbii ki, fərziyyə rədd edilmir (p-dəyəri 5%-dən böyükdür), tezliklər çox yaxşı uyğunluq təşkil edir.

İndi xi-kvadrat testindən və Excelin CHI2.TEST funksiyasından istifadə edərək tezliklərin uzlaşması haqqında fərziyyəni yoxlayaq.

Cədvəllər, çətin hesablamalar yoxdur. Müşahidə olunan və gözlənilən tezlikləri olan sütunları funksiya arqumentləri kimi göstərərək dərhal p-qiymətini əldə edirik. Gözəllik.

İndi təsəvvür edin ki, şübhəli bir oğlanla zar oynayırsınız. 1-dən 5-ə qədər xalların paylanması eyni qalır, lakin o, 26 altılıq yuvarlayır (atmaların ümumi sayı 78 olur).

Bu vəziyyətdə p-dəyəri 0,05-dən çox az olan 0,003 olur. Zərlərin etibarlılığına şübhə etmək üçün yaxşı səbəblər var. Ki-kvadrat paylama diaqramında bu ehtimalın necə göründüyü budur.

Burada xi-kvadrat meyarının özü 17.8-ə bərabərdir ki, bu da təbii olaraq cədvəldən (11.1) böyükdür.

Ümid edirəm ki, razılaşmanın kriteriyasının nə olduğunu izah edə bildim χ 2(Pirson xi-kvadrat) və ondan statistik fərziyyələri yoxlamaq üçün necə istifadə oluna bilər.

Nəhayət, bir daha vacib şərt haqqında! Xi-kvadrat testi yalnız bütün tezliklərin sayı 50-dən çox olduqda və hər bir gradasiya üçün minimum gözlənilən dəyər 5-dən az olmadıqda düzgün işləyir. Əgər hər hansı bir kateqoriyada gözlənilən tezlik 5-dən azdırsa, lakin bütün tezliklərin cəmindən artıqdırsa. 50, onda belə kateqoriya ən yaxını ilə birləşdirilir ki, onların ümumi tezliyi 5-i keçsin. Əgər bu mümkün deyilsə və ya tezliklərin cəmi 50-dən azdırsa, fərziyyələri yoxlamaq üçün daha dəqiq üsullardan istifadə edilməlidir. Başqa vaxt onlar haqqında danışacağıq.

Aşağıda xi-kvadrat testindən istifadə edərək Excel-də fərziyyəni necə yoxlamağa dair video var.

U 1 , U 2 , ..,U k müstəqil standart olsun normal dəyərlər. K = U 1 2 +U 2 2 + .. + U k 2 təsadüfi kəmiyyətinin paylanmasına x-kvadrat paylama deyilir. k sərbəstlik dərəcələri (K~χ 2 (k) yazın). Bu müsbət əyilmə və aşağıdakı xüsusiyyətlərə malik unimodal paylanmadır: rejim M=k-2 gözlənilən dəyər m=k dispersiya D=2k (şək.). Parametrin kifayət qədər böyük dəyəri ilə k paylanma χ 2 (k) parametrləri ilə təxminən normal paylanmaya malikdir

Riyazi statistika məsələlərini həll edərkən verilən α ehtimalından və sərbəstlik dərəcələrinin sayından asılı olaraq χ 2 (k) kritik nöqtələrdən istifadə olunur. k(Əlavə 2). Χ 2 kr = Χ 2 (k; α) kritik nöqtəsi paylanma sıxlığı əyrisi altında ərazinin 100- α % -i sağda yerləşən bölgənin sərhədidir. Sınaq zamanı təsadüfi dəyişən K~χ 2 (k) qiymətinin χ 2 (k) nöqtəsinin sağına düşmə ehtimalı α P(K≥χ 2 kp)≤ α)-dən çox deyil. Məsələn, təsadüfi dəyişən K~χ 2 (20) üçün α=0,05 ehtimalını təyin etdik. Xi-kvadrat paylanmasının kritik nöqtələri cədvəlindən (cədvəllərdən) istifadə edərək, χ 2 kp = χ 2 (20;0.05) = 31.4 tapırıq. Bu o deməkdir ki, bu təsadüfi dəyişənin ehtimalı K 31,4-dən böyük, 0,05-dən az olan dəyəri qəbul edin (Şəkil).

düyü. Sərbəstlik dərəcələrinin sayının müxtəlif dəyərləri üçün paylanma sıxlığı qrafiki χ 2 (k) k

Kritik nöqtələr χ 2 (k) aşağıdakı kalkulyatorlarda istifadə olunur:

  1. Multikollinearlığın mövcudluğunun yoxlanılması (multikollinearlıq haqqında).
Ki-kvadratdan istifadə edərək fərziyyəni yoxlamaq yalnız “əlaqə varmı?” sualına cavab verəcək, əlaqənin istiqamətini yoxlamaq üçün əlavə araşdırmalara ehtiyac var. Üstəlik, aşağı tezlikli məlumatlar ilə işləyərkən Chi-kvadrat testində müəyyən bir səhv var.

Buna görə də, rabitə istiqamətini yoxlamaq üçün seçin korrelyasiya təhlili, xüsusən də, t-testindən istifadə edərək əhəmiyyətin əlavə yoxlanılması ilə Pearson korrelyasiya əmsalından istifadə edərək fərziyyənin sınaqdan keçirilməsi.

Əhəmiyyət səviyyəsinin istənilən dəyəri üçün α Χ 2 MS Excel funksiyasından istifadə etməklə tapıla bilər: =HI2OBR(α;sərbəstlik dərəcələri)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Sərbəstlik dərəcələrinin sayı k Əhəmiyyət səviyyəsi a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0

Pearson (ki-kvadrat), Student və Fisher paylamaları

Normal paylanmadan istifadə edərək, statistik məlumatların işlənməsi zamanı tez-tez istifadə olunan üç paylama müəyyən edilir. Bu paylamalar kitabın sonrakı hissələrində dəfələrlə görünür.

Pearson paylanması (chi - kvadrat) – təsadüfi dəyişənin paylanması

Harada təsadüfi dəyişənlər X 1 , X 2 ,…, X n müstəqildir və eyni paylanmaya malikdir N(0,1). Bu halda, terminlərin sayı, yəni. n, ki-kvadrat paylanmasının “sərbəstlik dərəcələrinin sayı” adlanır.

Xi-kvadrat paylanması dispersiyanı qiymətləndirərkən (etibar intervalından istifadə etməklə), razılıq, homojenlik, müstəqillik fərziyyələrini sınaqdan keçirərkən, ilk növbədə məhdud sayda qiymət alan keyfiyyət (kateqoriyalaşdırılmış) dəyişənlər üçün və bir çox digər tapşırıqlarda istifadə olunur. Statistik təhlil data

Paylanma t Tələbə t təsadüfi dəyişənin paylanmasıdır

təsadüfi dəyişənlər haradadır UX müstəqil, U standart normal paylanmaya malikdir N(0,1) və X– chi paylanması – kvadrat c n sərbəstlik dərəcələri. Harada n Tələbə paylanmasının “sərbəstlik dərəcələrinin sayı” adlanır.

Tələbə bölgüsü 1908-ci ildə pivə zavodunda işləyən ingilis statistik V.Qosset tərəfindən təqdim edilmişdir. Bu fabrikdə iqtisadi və texniki qərarların qəbulu üçün ehtimal və statistik üsullardan istifadə edildiyindən onun rəhbərliyi V.Qossetin öz adı ilə elmi məqalələr çap etdirməsini qadağan edirdi. Bununla da V.Qosset tərəfindən işlənib hazırlanmış ehtimal və statistik metodlar şəklində kommersiya sirləri və “nou-hau” qorunurdu. Lakin onun “Tələbə” təxəllüsü ilə nəşr etmək imkanı var idi. Gosset-Student hekayəsi göstərir ki, hətta yüz il əvvəl Britaniya menecerləri böyüklərdən xəbərdar idilər iqtisadi səmərəlilik ehtimal-statistik üsullar.

Hal-hazırda Tələbə paylanması real məlumatların təhlilində istifadə olunan ən məşhur paylamalardan biridir. Etibar intervallarından istifadə edərək riyazi gözləntiləri, proqnoz dəyərini və digər xüsusiyyətləri qiymətləndirərkən, riyazi gözləntilərin dəyərləri haqqında fərziyyələri, reqressiya əmsallarını, nümunənin homojenliyi hipotezlərini və s. .

Fisher paylanması təsadüfi dəyişənin paylanmasıdır

təsadüfi dəyişənlər haradadır X 1X 2 müstəqildirlər və sərbəstlik dərəcələrinin sayı ilə xi-kvadrat paylanmalarına malikdirlər k 1 k 2 müvafiq olaraq. Eyni zamanda cütlük (k 1 , k 2 ) – Fisher paylanmasının bir cüt “azadlıq dərəcələri”, yəni, k 1 sayının sərbəstlik dərəcələrinin sayıdır və k 2 – məxrəcin sərbəstlik dərəcələrinin sayı. Təsadüfi dəyişənin paylanması Fəsərlərində fəal şəkildə istifadə edən böyük ingilis statistik R.Fişerin (1890-1962) adını daşıyır.

Fisher paylanması reqressiya analizində, dispersiyaların bərabərliyində və tətbiqi statistikanın digər problemlərində modelin adekvatlığı haqqında fərziyyələrin yoxlanılması zamanı istifadə olunur.

Xi-kvadrat, Student və Fisher paylama funksiyaları üçün ifadələr, onların sıxlıqları və xarakteristikaları, habelə onların praktik istifadəsi üçün lazım olan cədvəllər xüsusi ədəbiyyatda tapıla bilər (məsələn, bax).

23. Xi-kvadrat və Tələbə paylanması anlayışı və qrafik görünüşü

1) Sərbəstlik dərəcəsi n olan paylanma (xi-kvadrat) n müstəqil standart normal təsadüfi dəyişənin kvadratlarının cəminin paylanmasıdır.

Paylanma (xi-kvadrat)– təsadüfi dəyişənin paylanması (və onların hər birinin riyazi gözləntiləri 0, standart sapma isə 1-dir)

təsadüfi dəyişənlər haradadır müstəqildirlər və eyni paylanmaya malikdirlər. Bu halda, terminlərin sayı, yəni. , ki-kvadrat paylanmasının "sərbəstlik dərəcələrinin sayı" adlanır. Xi-kvadrat ədədi bir parametr, sərbəstlik dərəcələrinin sayı ilə müəyyən edilir. Sərbəstlik dərəcələrinin sayı artdıqca, paylanma yavaş-yavaş normala yaxınlaşır.

Sonra onların kvadratlarının cəmi

k = n sərbəstlik dərəcəsi ilə x-kvadrat qanunu adlanan qanuna əsasən paylanmış təsadüfi kəmiyyətdir; əgər şərtlər hansısa əlaqə ilə bağlıdırsa (məsələn, ), onda sərbəstlik dərəcələrinin sayı k = n – 1 olur.

Bu paylanmanın sıxlığı

Budur qamma funksiyası; xüsusilə, Г(n + 1) = n! .

Buna görə də, ki-kvadrat paylanması bir parametrlə - k sərbəstlik dərəcələrinin sayı ilə müəyyən edilir.

Qeyd 1. Sərbəstlik dərəcələrinin sayı artdıqca, ki-kvadrat paylanması tədricən normala yaxınlaşır.

Qeyd 2. Xi-kvadrat paylanmasından istifadə etməklə praktikada rast gəlinən bir çox başqa paylanmalar, məsələn, təsadüfi dəyişənin paylanması - təsadüfi vektorun (X1, X2,..., Xn) uzunluğu, koordinatları müəyyən edilir. müstəqildir və normal qanuna uyğun olaraq bölüşdürülür.

χ2 paylanması ilk dəfə R. Helmert (1876) və K. Pearson (1900) tərəfindən nəzərdən keçirilmişdir.

Math.expect.=n; D=2n

2) Tələbə bölgüsü

İki müstəqil təsadüfi dəyişəni nəzərdən keçirək: normal paylanmaya malik olan və normallaşdırılmış Z (yəni M(Z) = 0, σ(Z) = 1) və k ilə x-kvadrat qanununa uyğun olaraq paylanmış V. sərbəstlik dərəcələri. Sonra dəyər

k sərbəstlik dərəcəsi ilə t-paylanması və ya Tələbə paylanması adlanan paylanmaya malikdir. Bu halda k, Tələbə paylanmasının “sərbəstlik dərəcələrinin sayı” adlanır.

Sərbəstlik dərəcələrinin sayı artdıqca Tələbə paylanması tez normala yaxınlaşır.

Bu bölgü 1908-ci ildə pivə zavodunda işləyən ingilis statistik V.Qosset tərəfindən tətbiq edilmişdir. Bu fabrikdə iqtisadi və texniki qərarların qəbulu üçün ehtimal və statistik üsullardan istifadə edildiyindən onun rəhbərliyi V.Qossetin öz adı ilə elmi məqalələr çap etdirməsini qadağan edirdi. Bununla da V.Qosset tərəfindən işlənib hazırlanmış ehtimal və statistik metodlar şəklində kommersiya sirləri və “nou-hau” qorunurdu. Lakin onun “Tələbə” təxəllüsü ilə nəşr etmək imkanı var idi. Gosset-Student hekayəsi göstərir ki, hətta yüz il əvvəl Böyük Britaniya menecerləri qərar qəbulunun ehtimal və statistik üsullarının daha böyük iqtisadi səmərəliliyindən xəbərdar idilər.

Dostlarınızla paylaşın və ya özünüz üçün qənaət edin:

Yüklənir...