Дистрибуција на Пирсон (дистрибуција на хи-квадрат). Класични методи на статистика: хи-квадрат тест Кси квадратна дистрибуција

Дистрибуцијата хи-квадрат е една од најкористените во статистиката за тестирање на статистичките хипотези. Врз основа на дистрибуцијата на хи-квадрат, конструиран е еден од најмоќните тестови за доброто на вклопувањето - Пирсоновиот хи-квадрат тест.

Критериумот на согласност е критериумот за тестирање на хипотезата за претпоставениот закон на непозната распределба.

Тестот χ2 (хи-квадрат) се користи за тестирање на хипотезата за различни распределби. Ова е неговото достоинство.

Формулата за пресметка на критериумот е еднаква на

каде што m и m’ се емпириски и теоретски фреквенции, соодветно

дистрибуцијата за која станува збор;

n е бројот на степени на слобода.

За да провериме, треба да ги споредиме емпириските (набљудувани) и теоретските (пресметани под претпоставка за нормална дистрибуција) фреквенции.

Ако емпириските фреквенции целосно се совпаѓаат со пресметаните или очекуваните фреквенции, S (E – T) = 0 и х2 критериумот исто така ќе биде еднаков на нула. Ако S (E – T) не е еднакво на нула, тоа ќе укаже на несовпаѓање помеѓу пресметаните фреквенции и емпириските фреквенции од серијата. Во такви случаи, неопходно е да се оцени значајноста на критериумот χ2, кој теоретски може да варира од нула до бесконечност. Ова се прави со споредување на реално добиената вредност на χ2ф со неговата критична вредност (χ2st).Нултата хипотеза, односно претпоставката дека несовпаѓањето помеѓу емпириската и теоретската или очекуваните фреквенции е случајна, се побива ако χ2ф е поголема или еднаква на χ2-та за прифатеното ниво на значајност (а) и бројот на степени на слобода (n).

Распределбата на веројатните вредности на случајната променлива χ2 е континуирана и асиметрична. Тоа зависи од бројот на степени на слобода (n) и се приближува до нормална дистрибуција како што се зголемува бројот на набљудувања. Според тоа, примената на х2 критериумот при оценувањето дискретни распределбие поврзан со некои грешки кои влијаат на неговата вредност, особено кај малите примероци. За да се добијат попрецизни проценки, се дистрибуира примерок во варијација серија, мора да има најмалку 50 опции. Правилната примена на критериумот χ2 исто така бара фреквенциите на варијантите во екстремните класи да не бидат помали од 5; ако ги има помалку од 5, тогаш тие се комбинираат со фреквенциите на соседните класи така што вкупниот износ е поголем или еднаков на 5. Според комбинацијата на фреквенции, бројот на класи (N) се намалува. Бројот на степени на слобода се утврдува со секундарниот број на класи, земајќи го предвид бројот на ограничувања на слободата на варијација.



Бидејќи точноста на определувањето на х2 критериумот во голема мера зависи од точноста на пресметувањето на теоретските фреквенции (Т), незаокружените теоретски фреквенции треба да се користат за да се добие разликата помеѓу емпириските и пресметаните фреквенции.

Како пример, да земеме студија објавена на веб-локација посветена на употребата на статистички методиво хуманистичките науки.

Тестот Хи-квадрат ви овозможува да ги споредите дистрибуциите на фреквенција без разлика дали тие се нормално распределени или не.

Фреквенцијата се однесува на бројот на појавувања на некој настан. Вообичаено, зачестеноста на појавата на настаните се решава кога променливите се мерат на скала од имиња и нивните други карактеристики, освен зачестеноста, се невозможни или проблематични за избор. Со други зборови, кога променливата има квалитативни карактеристики. Исто така, многу истражувачи имаат тенденција да ги претворат резултатите од тестовите во нивоа (високи, просечни, ниски) и да градат табели со распределба на резултати за да го откријат бројот на луѓе на овие нивоа. За да се докаже дека во едно од нивоата (во една од категориите) бројот на луѓе е навистина поголем (помалку) се користи и коефициентот Хи-квадрат.

Да го погледнеме наједноставниот пример.

Беше спроведен тест меѓу помладите адолесценти за да се идентификува самодовербата. Резултатите од тестот беа претворени во три нивоа: високо, средно, ниско. Фреквенциите беа дистрибуирани на следниов начин:

Висок (Б) 27 луѓе.

Просечно (C) 12 луѓе.

Ниско (L) 11 лица

Очигледно е дека поголемиот дел од децата имаат висока самодоверба, но тоа треба статистички да се докаже. За да го направите ова, го користиме тестот Хи-квадрат.

Наша задача е да провериме дали добиените емпириски податоци се разликуваат од теоретски подеднакво веројатните. За да го направите ова, треба да ги пронајдете теоретските фреквенции. Во нашиот случај, теоретските фреквенции се подеднакво веројатни фреквенции, кои се наоѓаат со собирање на сите фреквенции и делење со бројот на категории.

Во нашиот случај:

(B + C + H)/3 = (27+12+11)/3 = 16,6

Формула за пресметување на хи-квадрат тест:

χ2 = ∑(E - T)I / T

Ја градиме табелата:

Најдете го збирот на последната колона:

Сега треба да ја пронајдете критичната вредност на критериумот користејќи ја табелата со критични вредности (Табела 1 во Додатокот). За да го направите ова, потребен ни е бројот на степени на слобода (n).

n = (R - 1) * (C - 1)

каде што R е бројот на редови во табелата, C е бројот на колони.

Во нашиот случај, има само една колона (се мисли на оригиналните емпириски фреквенции) и три реда (категории), така што формулата се менува - ги исклучуваме колоните.

n = (R - 1) = 3-1 = 2

За веројатноста за грешка p≤0,05 и n = 2, критичната вредност е χ2 = 5,99.

Добиената емпириска вредност е поголема од критичната - разликите во фреквенциите се значајни (χ2= 9,64; p≤0,05).

Како што можете да видите, пресметувањето на критериумот е многу едноставно и не зазема многу време. Практичната вредност на хи-квадрат тестот е огромна. Овој метод е највреден кога се анализираат одговорите на прашалниците.


Ајде да погледнеме покомплексен пример.

На пример, психолог сака да знае дали е вистина дека наставниците се попристрасни кон момчињата отколку кон девојчињата. Оние. со поголема веројатност да ги фалат девојките. За да го направите ова, психологот ги анализираше карактеристиките на учениците напишани од наставниците за зачестеноста на појавувањето на три збора: „активен“, „вреден“, „дисциплиниран“, а исто така беа избројани и синоними на зборовите. Податоците за фреквенцијата на појавување на зборови беа внесени во табелата:

За обработка на добиените податоци го користиме хи-квадрат тестот.

За да го направите ова, ќе изградиме табела за дистрибуција на емпириски фреквенции, т.е. оние фреквенции што ги набљудуваме:

Теоретски очекуваме дека фреквенциите ќе бидат подеднакво распределени, т.е. фреквенцијата ќе биде пропорционално распределена помеѓу момчињата и девојчињата. Ајде да изградиме табела на теоретски фреквенции. За да го направите ова, помножете го збирот на редови со збирот на колоните и поделете го добиениот број со вкупниот збир (и).

Конечната табела за пресметки ќе изгледа вака:

χ2 = ∑(E - T)I / T

n = (R - 1), каде што R е бројот на редови во табелата.

Во нашиот случај, хи-квадрат = 4,21; n = 2.

Користејќи ја табелата со критични вредности на критериумот, наоѓаме: со n = 2 и ниво на грешка од 0,05, критичната вредност е χ2 = 5,99.

Добиената вредност е помала од критичната вредност, што значи дека нултата хипотеза е прифатена.

Заклучок: наставниците не придаваат значење на полот на детето кога му пишуваат карактеристики.


Заклучок.

К. Пирсон даде значаен придонес во развојот математичка статистика(голем број на фундаментални концепти). Главната филозофска позиција на Пирсон е формулирана на следниов начин: концептите на науката се вештачки конструкции, средства за опишување и подредување на сетилно искуство; правилата за нивно поврзување во научни реченици се изолирани од граматиката на науката, која е филозофија на науката. Универзалната дисциплина - применета статистика - ни овозможува да поврземе различни концепти и појави, иако според Пирсон таа е субјективна.

Многу од конструкциите на К. Пирсон се директно поврзани или развиени со користење на антрополошки материјали. Развил бројни методи на нумеричка класификација и статистички критериуми кои се користат во сите области на науката.


Литература.

1. Богољубов А.Н. Математика. Механика. Биографска референтна книга. - Киев: Наукова Думка, 1983 година.

2. Колмогоров А.Н., Јушкевич А.П. (уред.). Математика од 19 век. - М.: Наука. - Т.И.

3. 3. Боровков А.А. Статистика по математика. М.: Наука, 1994 година.

4. 8. Feller V. Вовед во теоријата на веројатност и нејзините примени. - М.: Мир, Т.2, 1984 година.

5. 9. Харман Г., Модерна факторска анализа. - М.: Статистика, 1972 година.

Пред крајот на XIXвек, нормалната дистрибуција се сметаше за универзален закон за варијација во податоците. Сепак, К. Пирсон забележа дека емпириските фреквенции може многу да се разликуваат од нормалната дистрибуција. Се појави прашањето како да се докаже ова. Не се бараше само графичка споредба, која е субјективна, туку и строго квантитативно оправдување.

Така е измислен критериумот χ 2(хи квадрат), кој го тестира значењето на несовпаѓањето помеѓу емпириските (набљудуваните) и теоретските (очекуваните) фреквенции. Ова се случило во далечната 1900 година, но критериумот се користи и денес. Покрај тоа, тој е прилагоден да решава широк спектар на проблеми. Пред се, ова е анализа на категорични податоци, т.е. оние кои се изразуваат не по количина, туку со припадност на некоја категорија. На пример, класата на автомобилот, полот на учесникот во експериментот, видот на растението итн. Математичките операции како собирање и множење не можат да се применат на таквите податоци; фреквенциите може да се пресметаат само за нив.

Ги означуваме набљудуваните фреквенции За (забележано), очекувано - Е (Очекувано). Како пример, да го земеме резултатот од тркалање матрица 60 пати. Ако е симетрична и униформа, веројатноста да се добие која било страна е 1/6 и затоа очекуваниот број на добивање на секоја страна е 10 (1/6∙60). Набљудуваните и очекуваните фреквенции ги запишуваме во табела и цртаме хистограм.

Нултата хипотеза е дека фреквенциите се конзистентни, односно, вистинските податоци не се во спротивност со очекуваните податоци. Алтернативна хипотеза е дека отстапувањата во фреквенциите ги надминуваат случајните флуктуации, отстапувањата се статистички значајни. За да извлечеме ригорозен заклучок, ни треба.

  1. Збирна мерка за несовпаѓање помеѓу набљудуваните и очекуваните фреквенции.
  2. Распределбата на оваа мерка ако е вистинита хипотезата дека нема разлики.

Да почнеме со растојанието помеѓу фреквенциите. Ако ја земете само разликата О - Е, тогаш таквата мерка ќе зависи од скалата на податоците (фреквенциите). На пример, 20 - 5 = 15 и 1020 - 1005 = 15. Во двата случаи, разликата е 15. Но, во првиот случај, очекуваните фреквенции се 3 пати помали од набљудуваните, а во вториот случај - само 1,5 %. Ни треба релативна мерка која не зависи од обемот.

Да обрнеме внимание на следните факти. Општо земено, бројот на категории во кои се мерат фреквенциите може да биде многу поголем, така што веројатноста дека едно набљудување ќе падне во една или друга категорија е прилично мала. Ако е така, тогаш распределбата на таква случајна променлива ќе го почитува законот за ретки настани, познат како Поасоновиот закон. Во законот на Поасон, како што е познато, вредноста на математичкото очекување и варијансата се совпаѓаат (параметар λ ). Ова значи дека очекуваната фреквенција за некоја категорија на номиналната променлива Е јасќе биде симултана и нејзина дисперзија. Понатаму, законот на Поасон се стреми кон нормала со голем број на набљудувања. Со комбинирање на овие два факти, добиваме дека ако хипотезата за усогласеноста помеѓу набљудуваните и очекуваните фреквенции е точна, тогаш, со голем број на набљудувања, изразување

Важно е да се запамети дека нормалноста ќе се појави само на доволно високи фреквенции. Во статистиката, општо е прифатено дека вкупниот број на набљудувања (збир на фреквенции) мора да биде најмалку 50, а очекуваната фреквенција во секоја градација мора да биде најмалку 5. Само во овој случај, вредноста прикажана погоре има стандардна нормална дистрибуција . Да претпоставиме дека овој услов е исполнет.

Стандардната нормална дистрибуција ги има скоро сите вредности во рамките на ±3 (правило три сигма). Така, ја добивме релативната разлика во фреквенциите за една градација. Ни треба генерализирана мерка. Не можете само да ги соберете сите отстапувања - добиваме 0 (погодете зошто). Пирсон предложи да се соберат квадратите на овие отстапувања.

Ова е знакот Хи-квадрат тест Пирсон. Ако фреквенциите навистина одговараат на очекуваните, тогаш вредноста на критериумот ќе биде релативно мала (бидејќи повеќето отстапувања се околу нула). Но, ако критериумот се испостави дека е голем, тогаш ова укажува на значителни разлики помеѓу фреквенциите.

Пирсоновиот критериум станува „голем“ кога појавата на таква или уште поголема вредност станува малку веројатна. А за да се пресмета таквата веројатност, неопходно е да се знае распределбата на критериумот кога експериментот се повторува многу пати, кога хипотезата за договор на фреквенцијата е точна.

Како што е лесно да се види, вредноста на хи-квадратот зависи и од бројот на термини. Колку повеќе ги има, толку е поголема вредноста што треба да ја има критериумот, бидејќи секој поим ќе придонесе за вкупниот број. Затоа, за секоја количина независнауслови, ќе има своја дистрибуција. Излегува дека χ 2е цело семејство на дистрибуции.

И тука доаѓаме до еден деликатен момент. Што е број независнауслови? Се чини дека секој термин (т.е. отстапување) е независен. Така мислеше и К. Пирсон, но се покажа дека не е во право. Всушност, бројот на независни членови ќе биде еден помал од бројот на градации на номиналната променлива n. Зошто? Бидејќи ако имаме примерок за кој веќе е пресметан збирот на фреквенции, тогаш една од фреквенциите секогаш може да се определи како разлика помеѓу вкупниот број и збирот на сите други. Оттука, варијацијата ќе биде нешто помала. Роналд Фишер го забележал овој факт 20 години откако Пирсон го развил својот критериум. Дури и масите мораа да се преработат.

Во оваа прилика, Фишер воведе нов концепт во статистиката - степен на слобода(степени на слобода), што го претставува бројот на независни членови во збирот. Концептот на степени на слобода има математичко објаснување и се појавува само во распределбите поврзани со нормалата (Student's, Fisher-Snedecor и самиот хи-квадрат).

За подобро да го сфатиме значењето на степените на слобода, да се свртиме кон физички аналог. Ајде да замислиме точка која слободно се движи во вселената. Има 3 степени на слобода, бидејќи може да се движи во која било насока во тридимензионален простор. Ако точката се движи по која било површина, тогаш таа веќе има два степени на слобода (напред и назад, лево и десно), иако продолжува да биде во тродимензионален простор. Точка која се движи по пружина повторно е во тродимензионален простор, но има само еден степен на слобода, бидејќи може да се движи напред или назад. Како што можете да видите, просторот каде што се наоѓа објектот не секогаш одговара на вистинската слобода на движење.

Приближно на ист начин, распределбата на статистичкиот критериум може да зависи од помал број елементи од термините потребни за негово пресметување. Генерално, бројот на степени на слобода е помал од бројот на набљудувања според бројот на постоечките зависности.

Така, дистрибуцијата на хи квадратот ( χ 2) е фамилија на распределби, од кои секоја зависи од параметарот за степени на слобода. И формалната дефиниција на хи-квадрат тестот е како што следува. Дистрибуција χ 2(хи-квадрат) с кстепени на слобода е распределба на збирот на квадрати кнезависни стандардни нормални случајни променливи.

Следно, би можеле да преминеме на самата формула со која се пресметува функцијата на дистрибуција на хи-квадрат, но, за среќа, сè ни е одамна пресметано. За да ја добиете веројатноста за интерес, можете да ја користите или соодветната статистичка табела или готова функција во Excel.

Интересно е да се види како се менува обликот на дистрибуцијата на хи-квадрат во зависност од бројот на степени на слобода.

Со зголемени степени на слобода, дистрибуцијата на хи-квадрат има тенденција да биде нормална. Ова се објаснува со дејството на централната гранична теорема, според која збирот на голем број независни случајни променливи има нормална распределба. Тоа не кажува ништо за квадрати)).

Тестирање на хипотезата со помош на Пирсон хи-квадрат тест

Сега доаѓаме до тестирање на хипотези со помош на методот хи-квадрат. Во принцип, технологијата останува. Нултата хипотеза е дека набљудуваните фреквенции одговараат на очекуваните (т.е. нема разлика меѓу нив бидејќи се земени од иста популација). Ако е така, тогаш расејувањето ќе биде релативно мало, во границите на случајните флуктуации. Мерката на дисперзија се одредува со помош на тестот хи-квадрат. Следно, или самиот критериум се споредува со критичната вредност (за соодветното ниво на значајност и степени на слобода), или, што е поточно, се пресметува набљудуваната p-вредност, т.е. веројатноста да се добие иста или уште поголема критериумска вредност ако нултата хипотеза е вистинита.

Бидејќи ние сме заинтересирани за усогласеност на фреквенциите, тогаш хипотезата ќе биде отфрлена кога критериумот е поголем од критичното ниво. Оние. критериумот е едностран. Сепак, понекогаш (понекогаш) е неопходно да се тестира левата хипотеза. На пример, кога емпириските податоци се многу слични со теоретските податоци. Тогаш критериумот може да падне во неверојатен регион, но на левата страна. Факт е дека во природни услови, мала е веројатноста да се добијат фреквенции што практично се совпаѓаат со теоретските. Секогаш има некоја случајност што дава грешка. Но, ако нема таква грешка, тогаш можеби податоците се фалсификувани. Но, сепак, хипотезата за десната страна обично се тестира.

Да се ​​вратиме на проблемот со коцките. Дозволете ни да ја пресметаме вредноста на хи-квадрат тестот користејќи ги достапните податоци.

Сега да ја најдеме критичната вредност на 5 степени на слобода ( к) и ниво на значајност 0,05 ( α ) според табелата со критични вредности на распределбата на хи квадратот.

Односно, квантилот 0,05 е дистрибуција на хи квадрат (десна опашка) со 5 степени на слобода χ 2 0,05; 5 = 11,1.

Ајде да ги споредиме вистинските и табеларните вредности. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Пресметаниот критериум се покажа како помал, што значи дека хипотезата за еднаквост (договор) на фреквенциите не се отфрла. На сликата, ситуацијата изгледа вака.

Доколку пресметаната вредност паднела во критичниот регион, нултата хипотеза би била отфрлена.

Би било поправилно да се пресмета и p-вредноста. За да го направите ова, треба да ја пронајдете најблиската вредност во табелата за даден број на степени на слобода и да го погледнете соодветното ниво на значајност. Но, ова минатиот век. Ќе користиме компјутер, особено MS Excel. Excel има неколку функции поврзани со хи-квадрат.

Подолу е краток опис на нив.

CH2.OBR– критична вредност на критериумот при дадена веројатност лево (како во статистичките табели)

CH2.OBR.PH– критична вредност на критериумот за дадена веројатност на десната страна. Функцијата во суштина ја дуплира претходната. Но, тука можете веднаш да го означите нивото α , наместо да се одземе од 1. Ова е попогодно, бидејќи во повеќето случаи, потребна е десната опашка на дистрибуцијата.

CH2.DIST– p-вредност лево (густината може да се пресмета).

CH2.DIST.PH– p-вредност десно.

CHI2.ТЕСТ– веднаш спроведува хи-квадрат тест за два опсега на фреквенции. Бројот на степени на слобода се зема за еден помал од бројот на фреквенции во колоната (како што треба да биде), враќајќи p-вредност.

Да ја пресметаме за нашиот експеримент критичната (табеларна) вредност за 5 степени на слобода и алфа 0,05. Формулата на Excel ќе изгледа вака:

CH2.OBR(0,95;5)

CH2.OBR.PH(0.05;5)

Резултатот ќе биде ист - 11.0705. Ова е вредноста што ја гледаме во табелата (заокружена на 1 децимална точка).

Дозволете конечно да ја пресметаме p-вредноста за критериумот за 5 степени на слобода χ 2= 3,4. Ни треба веројатноста од десната страна, па ја земаме функцијата со додавање на HH (десна опашка)

CH2.DIST.PH(3.4;5) = 0.63857

Тоа значи дека со 5 степени на слобода веројатноста за добивање на критериумската вредност е χ 2= 3,4 и повеќе е еднакво на речиси 64%. Секако, хипотезата не се отфрла (p-вредноста е поголема од 5%), фреквенциите се во многу добра согласност.

Сега да ја провериме хипотезата за усогласеноста на фреквенциите користејќи го тестот хи-квадрат и функцијата Excel CHI2.TEST.

Без табели, без незгодни пресметки. Со одредување на колони со набљудувани и очекувани фреквенции како функциски аргументи, веднаш ја добиваме p-вредноста. Убавина.

Сега замислете дека играте коцки со сомнителен тип. Распределбата на поени од 1 до 5 останува иста, но тој фрла 26 шестки (вкупниот број на фрлања станува 78).

P-вредноста во овој случај излегува дека е 0,003, што е многу помалку од 0,05. Има добри причини да се сомневаме во валидноста на коцките. Еве како изгледа таа веројатност на дијаграмот за дистрибуција на хи-квадрат.

Самиот хи-квадрат критериум овде излегува дека е 17,8, што, нормално, е поголемо од табела (11,1).

Се надевам дека успеав да објаснам кој е критериумот на договор χ 2(Пирсон хи-квадрат) и како може да се користи за тестирање на статистички хипотези.

Конечно, уште еднаш за важен услов! Хи-квадрат тестот работи правилно само кога бројот на сите фреквенции надминува 50, а минималната очекувана вредност за секоја градација не е помала од 5. Ако во која било категорија очекуваната фреквенција е помала од 5, но збирот на сите фреквенции надминува 50, тогаш таквата категорија се комбинира со најблиската така што нивната вкупна фреквенција надминува 5. Ако тоа не е можно, или збирот на фреквенциите е помал од 50, тогаш треба да се користат попрецизни методи за тестирање на хипотезите. Ќе зборуваме за нив друг пат.

Подолу е видео за тоа како да тестирате хипотеза во Excel користејќи го тестот хи-квадрат.

Нека U 1 , U 2 , ..,U k се независен стандард нормални вредности. Распределбата на случајната променлива K = U 1 2 +U 2 2 + .. + U k 2 се нарекува хи-квадрат дистрибуција со кстепени на слобода (напиши K~χ 2 (k)). Ова е унимодална дистрибуција со позитивна искривност и следните карактеристики: режим М=к-2 очекуваната вредност m=k дисперзија D=2k (сл.). Со доволно голема вредност на параметарот краспределба χ 2 (k) има приближно нормална распределба со параметри

При решавање на задачи од математичка статистика се користат критични точки χ 2 (k), во зависност од дадената веројатност α и бројот на степени на слобода к(Прилог 2). Критичната точка Χ 2 kr = Χ 2 (k; α) е граница на областа десно од која лежи 100- α % од површината под кривата на густина на распределбата. Веројатноста дека вредноста на случајната променлива K~χ 2 (k) за време на тестирањето ќе падне десно од точката χ 2 (k) не надминува α P(K≥χ 2 kp)≤ α). На пример, за случајната променлива K~χ 2 (20) ја поставивме веројатноста α=0,05. Користејќи ја табелата со критични точки на дистрибуцијата на хи-квадрат (табели), наоѓаме χ 2 kp = χ 2 (20;0,05) = 31,4. Ова значи дека веројатноста за оваа случајна променлива Кприфати вредност поголема од 31,4, помала од 0,05 (сл.).

Ориз. График на густина на дистрибуција χ 2 (k) за различни вредности на бројот на степени на слобода к

Критичните точки χ 2 (k) се користат во следните калкулатори:

  1. Проверка за присуство на мултиколинеарност (за мултиколинеарност).
Тестирањето на хипотезата со користење на хи-квадрат ќе одговори само на прашањето „дали постои врска?“, потребни се дополнителни истражувања за да се тестира насоката на врската. Покрај тоа, Chi-square тестот има одредена грешка при работа со податоци со ниска фреквенција.

Затоа, за да ја проверите насоката на комуникација, изберете анализа на корелација, особено, тестирање на хипотезата со помош на коефициентот на корелација Пирсон со понатамошно тестирање за значајност со помош на t-тестот.

За која било вредност на нивото на значајност α Χ 2 може да се најде со помош на функцијата MS Excel: =HI2OBR(α;степени на слобода)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Број на степени на слобода к Ниво на значајност a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0

Дистрибуции на Пирсон (хи-квадрат), Студент и Фишер

Користејќи ја нормалната дистрибуција, дефинирани се три дистрибуции кои сега често се користат во статистичка обработка на податоци. Овие дистрибуции се појавуваат многу пати во подоцнежните делови од книгата.

Дистрибуција на Пирсон (хи - квадрат) – распределба на случајна променлива

Каде случајни променливи X 1 , X 2 ,…, X nнезависни и имаат иста дистрибуција Н(0,1). Во овој случај, бројот на термини, т.е. n, се нарекува „број на степени на слобода“ на дистрибуцијата на хи-квадрат.

Дистрибуцијата хи-квадрат се користи при проценка на варијансата (со користење на интервал на доверба), при тестирање на хипотези за согласност, хомогеност, независност, првенствено за квалитативни (категоризирани) променливи кои земаат конечен број вредности и во многу други задачи Статистичка анализаподатоци

Дистрибуција т Student's t е распределба на случајна променлива

каде се случајните променливи УИ Xнезависна, Уима стандардна нормална дистрибуција Н(0,1) и X– чи дистрибуција – квадрат в nстепени на слобода. При што nсе нарекува „број на степени на слобода“ на студентската распределба.

Студентската дистрибуција беше воведена во 1908 година од англискиот статистичар В. Госет, кој работеше во фабрика за пиво. Во оваа фабрика биле користени веројатност и статистички методи за донесување економски и технички одлуки, па нејзиното раководство му забранило на В. Госет да објавува научни написи под свое име. На овој начин беа заштитени трговските тајни и „know-how“ во форма на веројатност и статистички методи развиени од V. Gosset. Сепак, тој имаше можност да објавува под псевдонимот „Студент“. Приказната за Gosset-Student покажува дека и пред сто години британските менаџери биле свесни за големиот економска ефикасностверојатностичко-статистички методи.

Во моментов, Студентската распределба е една од најпознатите дистрибуции што се користи во анализата на реалните податоци. Се користи при проценка на математичкото очекување, прогнозирана вредност и други карактеристики со помош на интервали на доверба, тестирање хипотези за вредностите на математичките очекувања, коефициенти на регресија, хипотези за хомогеност на примерокот итн. .

Дистрибуцијата на Фишер е распределба на случајна променлива

каде се случајните променливи X 1И X 2се независни и имаат хи-квадратни распределби со бројот на степени на слобода к 1 И к 2 соодветно. Во исто време, парот (к 1 , к 2 ) - пар „степени на слобода“ на распределбата на Фишер, имено, к 1 е бројот на степени на слобода на броителот и к 2 – број на степени на слобода на именителот. Дистрибуција на случајна променлива Фименуван по големиот англиски статистичар R. Fisher (1890-1962), кој активно го користел во своите дела.

Дистрибуцијата на Фишер се користи при тестирање на хипотези за адекватноста на моделот при регресивна анализа, еднаквост на варијанси и во други проблеми на применетата статистика.

Изразите за функциите хи-квадрат, Студент и Фишер дистрибуција, нивните густини и карактеристики, како и табелите неопходни за нивна практична употреба, може да се најдат во специјализираната литература (види, на пример,).

23. Концепт на хи-квадрат и студентска дистрибуција и графички приказ

1) Дистрибуција (хи-квадрат) со n степени на слобода е распределба на збирот на квадрати од n независни стандардни нормални случајни променливи.

Дистрибуција (хи-квадрат)– распределба на случајна променлива (и математичкото очекување за секоја од нив е 0, а стандардното отстапување е 1)

каде се случајните променливи се независни и имаат иста дистрибуција. Во овој случај, бројот на термини, т.е. , се нарекува „број на степени на слобода“ на дистрибуцијата на хи-квадрат. Бројот на хи-квадрат се одредува со еден параметар, бројот на степени на слобода. Како што се зголемува бројот на степени на слобода, дистрибуцијата полека се приближува до нормалата.

Тогаш збирот на нивните квадрати

е случајна променлива распределена според таканаречениот хи-квадрат закон со k = n степени на слобода; ако поимите се поврзани со некоја релација (на пример, ), тогаш бројот на степени на слобода k = n – 1.

Густината на оваа дистрибуција

Еве ја гама функцијата; особено, Г(n + 1) = n! .

Затоа, дистрибуцијата на хи-квадрат се одредува со еден параметар - бројот на степени на слобода k.

Забелешка 1. Како што се зголемува бројот на степени на слобода, дистрибуцијата на хи-квадрат постепено се приближува до нормалата.

Забелешка 2. Со употреба на хи-квадрат дистрибуција се одредуваат многу други распределби кои се среќаваат во практиката, на пример, распределба на случајна променлива - должина на случаен вектор (X1, X2,..., Xn), координатите на кои се независни и распределени според нормалниот закон.

Дистрибуцијата χ2 првпат била разгледана од R. Helmert (1876) и K. Pearson (1900).

Math.expect.=n; D=2n

2) Студентска распределба

Размислете за две независни случајни променливи: Z, која има нормална дистрибуција и е нормализирана (односно, M(Z) = 0, σ(Z) = 1) и V, која е распределена според законот хи-квадрат со k степени на слобода. Потоа вредноста

има распределба наречена t-распределба или Студентска распределба со k степени на слобода. Во овој случај, k се нарекува „број на степени на слобода“ на студентската распределба.

Како што се зголемува бројот на степени на слобода, студентската распределба брзо се приближува до нормалата.

Оваа дистрибуција била воведена во 1908 година од англискиот статистичар В. Госет, кој работел во фабрика за пиво. Во оваа фабрика биле користени веројатност и статистички методи за донесување економски и технички одлуки, па нејзиното раководство му забранило на В. Госет да објавува научни написи под свое име. На овој начин беа заштитени трговските тајни и „know-how“ во форма на веројатност и статистички методи развиени од V. Gosset. Сепак, тој имаше можност да објавува под псевдонимот „Студент“. Приказната за Gosset-Student покажува дека дури и пред сто години, менаџерите во ОК биле свесни за поголемата економска ефикасност на веројатните и статистичките методи на донесување одлуки.

Споделете со пријателите или заштедете за себе:

Се вчитува...