Групирање на податоци и конструирање на дистрибутивна серија. Статистичка студија за серии на варијации и пресметка на просечни вредности Како да најдете серии на варијации во статистиката

Состојба:

Има податоци за старосниот состав на работниците (години): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Конструирај интервална дистрибутивна серија.
    2. Конструирај графички приказ на серијата.
    3. Графички одредете го режимот и медијаната.

Решение:

1) Според формулата Sturgess, населението мора да се подели на 1 + 3,322 lg 30 = 6 групи.

Максимална возраст - 38, минимум - 18 години.

Ширина на интервалот Бидејќи краевите на интервалите мора да бидат цели броеви, популацијата ја делиме на 5 групи. Ширина на интервал - 4.

За да ги олесниме пресметките, ќе ги подредиме податоците во растечки редослед: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Возрасна распределба на работниците

Графички, серијата може да се прикаже како хистограм или полигон. Хистограм - столбест дијаграм. Основата на колоната е ширината на интервалот. Висината на колоната е еднаква на фреквенцијата.

Многуаголник (или дистрибутивен полигон) - графикон на фреквенција. За да го изградиме со помош на хистограм, ги поврзуваме средните точки на горните страни на правоаголниците. Ние го затвораме многуаголникот на оската Ox на растојанија еднакви на половина од интервалот од екстремните вредности на x.

Режим (Mo) е вредноста на карактеристиката што се проучува, која најчесто се јавува кај дадена популација.

За да го одредите режимот од хистограм, треба да го изберете највисокиот правоаголник, да нацртате линија од десното теме на овој правоаголник до горниот десен агол на претходниот правоаголник и од левото теме на модалниот правоаголник нацртајте линија до лево теме на следниот правоаголник. Од пресекот на овие линии, нацртајте нормална на x-оската. Апсцисата ќе биде мода. Mo ≈ 27,5. Тоа значи дека најчеста возраст кај оваа популација е 27-28 години.

Медијана (Me) е вредноста на карактеристиката што се проучува, која е во средината на нарачаната варијација серија.

Ја наоѓаме медијаната користејќи го кумулатот. Кумулира - графикон на акумулирани фреквенции. Абцисите се варијанти на серија. Ординатите се акумулирани фреквенции.

За да ја одредиме медијаната над кумулатот, наоѓаме точка по должината на оската на ординатите што одговара на 50% од акумулираните фреквенции (во нашиот случај, 15), повлекуваме права линија низ неа, паралелна со оската Ox и од точката на неговото пресекување со кумулатот, нацртајте нормално на оската x. Апсцисата е медијана. Јас ≈ 25,9. Тоа значи дека половина од работниците во оваа популација се помлади од 26 години.

Речник на статистички поими

Прашања за општа статистика

ШТО СЕ МЕДИЦИНСКА СТАТИСТИКА?

Статистика е квантитативен опис и мерење на настани, појави, предмети. Се подразбира како гранка на практична дејност (собирање, обработка и анализа на податоци за масовните појави), како гранка на знаење, т.е. посебен научна дисциплинаи, како збир на резиме, конечни дигитални индикатори собрани за карактеризирање на која било област на општествени феномени.

Статистиката е наука која ги проучува обрасците на масовните феномени користејќи го методот на генерализирање индикатори.

Медицинска статистика – независна општествени науки, учи квантитативна страна на масовните општествени појавинераскинливо поврзани со нивната квалитативна страна, овозможувајќи метод на генерализирање на индикаторитепроучување на моделите на овие феномени, најважните процеси во економските, социјален животопштеството, неговото здравје, системот на организирање медицинска нега на населението.

Статистичките методи се збир на техники за обработка на материјали за масовно набљудување, кои вклучуваат: групирање, сумирање, добивање индикатори, нивна статистичка анализа итн.

Статистичките методи во медицината се користат за:

  1. студија за состојбата јавното здравствонаселението како целина и нејзините главни групи преку собирање и анализа на статистички податоци за големината и составот на населението, неговата репродукција, физички развој, распространетост и времетраење на разни болести итн.;
  2. идентификување и воспоставување врски општо нивоморбидитет и морталитет од какви било поединечни болести со различни фактори животната средина;
  3. собирање и проучување на нумерички податоци за мрежата на медицинските установи, нивните активности и персонал за планирање на здравствените активности, следење на спроведувањето на развојните планови за мрежата и активностите на здравствените установи и проценка на квалитетот на работата на одделни медицински установи;
  4. проценка на ефективноста на мерките за спречување и лекување на болести;
  5. определување на статистичкото значење на резултатите од истражувањето во клиниката и експериментот.

Делови од медицинска статистика:

  • општи теоретски и методолошки основистатистика,
  • статистика за здравјето на населението,
  • здравствена статистика.

СОЗДАВАЊЕ НА БАЗА НА ПОДАТОЦИ ВО MS EXCEL

За да може базата на податоци да биде погодна за последователна обработка, треба да се следат едноставни принципи:

1) Оптималната програма за креирање на база на податоци е MS Excel. Податоците од Excel последователно може лесно да се пренесат во други специјализирани статистички пакети, како што се Statistica, SPSS итн. за посложени манипулации. Сепак, до 80-90% од пресметките може практично да се извршат во самиот Excel со помош на додатокот за анализа на податоци.

2) Горната линија на табелата со базата на податоци е дизајнирана како заглавие, каде што се внесуваат имињата на оние индикатори кои се земени предвид во оваа колона. Непожелно е да се користи спојување ќелии (ова барање генерално се однесува на целата база на податоци), бидејќи тоа ќе направи многу операции да бидат невалидни. Исто така, не треба да креирате заглавие „двокатна“, во која горната линија го означува името на група хомогени индикатори, а долната линија означува специфични индикатори. За да групирате хомогени индикатори, подобро е да ги обележите со еднобојно полнење или да вклучите карактеристика за групирање во загради во нивното име.

На пример, не на овој начин:

ОПШТА АНАЛИЗА НА КРВ
ЕР ЛЕУ TR
ER(UAC) LEU(UAC) TR(UAC)

во последната верзија, се обезбедуваат и заглавието „еднокатна“ и визуелната хомогеност на податоците (сите се однесуваат на индикаторите UAC).

3) Првата колона треба да го содржи серискиот број на пациентот во оваа база на податоци, без да го поврзува со некој од индикаторите што се проучуваат. Ова ќе ви овозможи последователно да обезбедите лесно враќање на оригиналниот редослед на пациенти во која било фаза, дури и по бројни сортирање на списокот.

4) Втората колона обично се пополнува со презимињата (или целосните имиња) на пациентите.

5) Квантитативните показатели (оние што се мерат со бројки, на пример - висина, тежина, крвен притисок, отчукување на срцето и сл.) се внесуваат во табелата во нумерички формат. Се чини дека ова е веќе јасно, но треба да запомните дека во Excel, почнувајќи од верзијата 2007 година, фракционите вредности се означуваат со точка: 4.5. Ако напишете број разделен со запирка, тој ќе се сфати како текст и овие колони ќе треба да се препишат.

6) Потешко е со квалитативните индикатори. Оние од нив кои имаат две варијанти на значење (т.н. бинарни вредности: Да-Не, сегашно-отсутно, машко-женско) се подобро преведени на бинарен систем: 0 и 1. Вредноста 1 обично се доделува на позитивна вредност (Да, сегашно), 0 на негативна вредност (Не, отсутно).

7) Квалитативните показатели кои имаат неколку вредности, кои се разликуваат по сериозноста, нивото на појавата (слабо-средно-силно; ладно-топло-топло) може да се рангираат и, соодветно, исто така да се преведат во бројки. На најниското ниво на феноменот му е доделен најнизок ранг - 0 или 1, следните степени се означени со вредностите на рангот по редослед. На пример: Без болест - 0, благ степен - 1, умерен степен - 2, тежок степен - 3.

8) Понекогаш неколку вредности одговараат на еден индикатор за квалитет. На пример, во колоната „Истовремена дијагноза“, ако има неколку болести, сакаме да ги означиме одделени со запирки. Ова не треба да се направи, бидејќи обработката на таквите податоци е многу тешка и не може да се автоматизира. Затоа, подобро е да се направат неколку колони со специфични групи на болести („болести на кардиоваскуларниот систем“, „болести на гастроинтестиналниот тракт“ итн.) или одредени нозологии („хроничен гастритис“, „ИСБ“ итн.) , во која ги внесуваме податоците во бинарна, бинарна форма: 1 (што значи „Оваа болест постои“) - 0 („Оваа болест не постои“).

9) За да разликувате поединечни групи индикатори, можете активно да користите боја: на пример, колоните со индикатори UAC се означени со црвено, податоците за OAM со жолто, итн.

10) Секој пациент мора да одговара на еден ред од табелата.

Ваквиот дизајн на базата на податоци овозможува не само значително да се поедностави процесот на нејзината статистичка обработка, туку и да се олесни неговото завршување во фазата на собирање материјал.

КОЈ МЕТОД ДА СЕ ИЗБЕРЕ ЗА СТАТИСТИЧКА АНАЛИЗА?

Откако ќе се соберат сите податоци, секој истражувач се соочува со прашањето за избор на најсоодветниот метод за статистичка обработка. И ова не е изненадувачки: модерната статистика комбинира огромен број различни критериуми и методи. Сите тие имаат свои карактеристики и може или не се погодни за две навидум слични ситуации. Во оваа статија ќе се обидеме да ги систематизираме сите основни, најчести методи Статистичка анализаспоред нивната намена.

Сепак, прво, неколку зборови за тоа какви статистички податоци постојат, бидејќи тоа е она што го одредува изборот на најсоодветниот метод за анализа.

Мерна скала

При спроведување на студија, се одредуваат вредностите на секоја единица за набљудување разни знаци. Во зависност од скалата на која се мерат, сите знаци се поделени на квантитативниИ квалитет. Квалитативните показатели во студиите се распределуваат според т.н номиналнаскала. Покрај тоа, индикаторите може да се претстават според рангскала.

На пример, се прави споредба на срцевите перформанси кај спортистите и луѓето кои водат седентарен начин на живот.

Во овој случај, кај испитаниците беа утврдени следните знаци:

  • подот- е номиналнаиндикатор кој зема две вредности - машки или женски.
  • возраста - квантитативнииндекс,
  • спортови - номиналнаиндикатор кој има две значења: ангажиран или неангажиран,
  • Пулс - квантитативнииндекс,
  • систолен крвен притисок - квантитативнииндекс,
  • присуство на поплаки за болка во градите- е висок квалитетиндикатор, чии вредности може да се одредат и со номинална(поплаки има - нема поплаки), и според рангскала во зависност од фреквенцијата (на пример, ако болката се јавува неколку пати на ден - на индикаторот му се доделува ранг 3, неколку пати месечно - ранг 2, неколку пати годишно - ранг 1, ако нема поплаки за болка во градите - ранг 0 ) .

Број на споредени популации

Следното прашање што треба да се реши при изборот на статистички метод е бројот на популации што треба да се споредат во рамките на студијата.

  • Во повеќето случаи, во клиничките испитувања се занимаваме со две групи пациенти - основниИ контрола. Основни, или искусни, генерално се смета за групата во која е применет методот на дијагноза или третман што се проучува, или во која пациентите страдаат од болеста што е предмет на оваа студија. Тестгрупата, наспроти тоа, се состои од пациенти кои примаат вообичаена нега, плацебо или оние кои ја немаат болеста што се проучува. Таквите популации, претставени од различни пациенти, се нарекуваат неповрзани.
    Сè уште има поврзани, или двојки, агрегати, кога зборуваме за исти луѓе, но се споредуваат вредностите на некои добиени карактеристики пред и потоаистражување. Бројот на споредени популации е исто така еднаков на 2, но за нив се применуваат различни техники отколку за неповрзани.
  • Друга опција е да се опише едентоталитетот, кој, мора да се признае, генерално лежи во основата на секое истражување. Дури и ако главната цел на работата е да се споредат две или повеќе групи, секоја од нив мора прво да се карактеризира. Методи кои се користат за ова дескриптивна статистика. Дополнително, за една популација може да се применат методи анализа на корелација , се користи за да се најде врска помеѓу две или повеќе карактеристики што се проучуваат (на пример, зависноста на висината од телесната тежина или зависноста на отчукувањата на срцето од температурата на телото).
  • Конечно, може да има неколку популации кои се споредуваат. Ова е многу честа појава во медицинските истражувања. Пациентите може да се групираат во зависност од употребата на различни лекови (на пример, кога се споредува ефикасноста на антихипертензивните лекови: група 1 - АКЕ инхибитори, 2 - бета-блокатори, 3 - лекови со централно дејство), според тежината на болеста ( група 1 - блага, 2 - средна, 3 - тешка), итн.

Исто така е важно да прашате нормалност на дистрибуцијапопулации кои се проучуваат. Ова одредува дали методите можат да се применат параметарска анализаили само непараметриски. Условите што мора да се исполнат кај нормално распоредените популации се:

  1. максимална близина или еднаквост на вредностите на аритметичката средина, режимот и медијаната;
  2. усогласеност со правилото „три сигма“ (најмалку 68,3% варијанти се во интервалот M±1σ, најмалку 95,5% варијанти се во интервалот M±2σ, најмалку 99,7% варијанти се во интервалот M±3σ;
  3. индикаторите се мерат на квантитативна скала;
  4. позитивни резултати од тестирањето за нормалност на дистрибуција со помош на посебни критериуми - Колмогоров-Смирнов или Шапиро-Вилк.

По утврдувањето на сите карактеристики што ги посочивме за популациите што се испитуваат, предлагаме да се користи следната табела за да се избере најоптималниот метод за статистичка анализа.

Метод Индикаторска мерна скала Број на споредени популации Цел на обработка Дистрибуција на податоци
Студентски т-тест квантитативни 2 нормално
Студентски т-тест со корекција на Бонферони квантитативни 3 или повеќе нема споредба поврзани множества нормално
Спарен студентски т-тест квантитативни 2 нормално
Еднонасочна анализа на варијанса (АНОВА) квантитативни 3 или повеќе споредба на неповрзани популации нормално
Еднонасочна анализа на варијанса (АНОВА) со повторени мерки квантитативни 3 или повеќе споредба на сродните популации нормално
Мен-Витни U тест квантитативно, рангирање 2 споредба на неповрзани популации било кој
Розенбаумовиот Q тест квантитативно, рангирање 2 споредба на неповрзани популации било кој
Крускал-Волис тест квантитативни 3 или повеќе споредба на неповрзани популации било кој
Вилкоксон тест квантитативно, рангирање 2 споредба на сродните популации било кој
Тест со знак G квантитативно, рангирање 2 споредба на сродните популации било кој
Фридман критериум квантитативно, рангирање 3 или повеќе споредба на сродните популации било кој
Пирсонов χ2 тест номинална 2 или повеќе споредба на неповрзани популации било кој
Точниот тест на Фишер номинална 2 споредба на неповрзани популации било кој
Мекнемар тест номинална 2 споредба на сродните популации било кој
Кокранов Q тест номинална 3 или повеќе споредба на сродните популации било кој
Релативен ризик (однос на ризик, RR) номинална 2 споредба на неповрзани популации во кохортните студии било кој
Сооднос на шанси (ИЛИ) номинална 2 споредба на неповрзани популации во студии за контрола на случај било кој
Пирсон коефициент на корелација квантитативни 2 реда на мерења нормално
Спирмановиот коефициент на корелација на ранг квантитативно, рангирање 2 реда на мерења идентификување на врските помеѓу знаците било кој
Кендал коефициент на корелација квантитативно, рангирање 2 реда на мерења идентификување на врските помеѓу знаците било кој
Кендаловиот коефициент на усогласеност квантитативно, рангирање 3 или повеќе редови на мерења идентификување на врските помеѓу знаците било кој
Пресметка на просечни вредности (M) и просечни грешки (m) квантитативни 1 дескриптивна статистика било кој
Пресметка на медијани (Me) и перцентили (квартили) ранг 1 дескриптивна статистика било кој
Пресметка на релативни вредности (P) и просечни грешки (m) номинална 1 дескриптивна статистика било кој
Шапиро-Вилк тест квантитативни 1 анализа на дистрибуција било кој
Критериум Колмогоров-Смирнов квантитативни 1 анализа на дистрибуција било кој
Критериум Смирнов-Крамер-фон Мизес ω 2 квантитативни 1 анализа на дистрибуција било кој
Каплан-Мајер метод било кој 1 анализа на преживување било кој
Кокс пропорционален модел на опасности било кој 1 анализа на преживување било кој

Големи статистичари

Карл Пирсон (27 март 1857 - 27 април 1936 година)

Карл Пирсон, големиот англиски математичар, статистичар, биолог и филозоф, е роден на 27 март 1857 година; основач математичка статистика, еден од основачите на биометриката.

Добивајќи ја функцијата професор на 27 годишна возраст применета математикаНа Универзитетскиот колеџ во Лондон, Карл Пирсон почна да проучува статистика, која ја доживува како општа научна алатка, во согласност со неговите воопшто не општоприфатени размислувања за потребата да им се обезбеди на студентите широк поглед.

Главните достигнувања на Пирсон во областа на статистиката го вклучуваат развојот на основите на теоријата на корелација и непредвидени карактеристики, воведувањето на „Пирсонови криви“ за да се опишат емпириските распределби и исклучително важниот критериум за хи-квадрат, како и компилација на голем број на статистички табели. Пирсон го применил статистичкиот метод и особено теоријата на корелација во многу гранки на науката.

Еве една од неговите изјави: „На првото аматерско воведување на современи статистички методи во воспоставената наука се спротивставува типичен презир. Но, доживеав да го видам времето кога многу од нив почнаа тајно да ги применуваат токму методите што тие првично ги осудуваа.

И веќе во 1920 година, Пирсон напиша белешка во која изјави дека целта на биометриското училиште е „да ја трансформира статистиката во гранка на применетата математика, да ги генерализира, отфрли или оправда скудните методи на старата школа на политички и социјални статистичари. , и, воопшто, да се трансформира статистиката од поле за игра во аматери и дебатери во сериозна гранка на науката.Потребно беше да се критикуваат несовршените и често погрешни методи во медицината, антропологијата, краниометријата, психологијата, криминологијата, биологијата, социологијата, со цел да се обезбедат овие науки со нови и помоќни средства.

Карл Пирсон имал многу различни интереси: студирал физика во Хајделберг, бил заинтересиран за социјалната и економската улога на религијата, па дури и предавал за германската историја и литература во Кембриџ и Лондон.

Малку познат факт е дека на 28-годишна возраст, Карл Пирсон држел предавање за „женското прашање“, па дури и го основал Клубот за мажи и жени, кој постоел до 1889 година, во кој било сè што е поврзано со жените, вклучително и односите меѓу половите. слободно и неограничено се дискутира.

Клубот беше составен од еднаков број мажи и жени, главно либерали од средната класа, социјалисти и феминистки.

Темата на дискусиите на клубот беа широк спектар прашања: од сексуалните односи во старогрчка Атина до ситуацијата на будистичките калуѓерки, од ставовите кон бракот до проблемите со проституцијата. Во суштина, Клубот за мажи и жени ги оспори одамна воспоставените норми на машко-женска интеракција, како и идеите за „правилната“ сексуалност. Во викторијанска Англија, каде што сексуалноста од многумина се гледаше како „основа“ и „животинска“, а незнаењето за сексуалното образование беше широко распространето, дискусијата за такви прашања беше навистина радикална.

Во 1898 година, на Пирсон му беше доделен медалот Дарвин од Кралското друштво, што тој го одби, верувајќи дека наградите „треба да им се доделуваат на младите луѓе за да ги охрабрат“.

Флоренс Најтингел (12 мај 1820 - 13 август 1910 година)

Флоренс Најтингел (1820-1910) - медицинска сестра и јавна личност во Велика Британија, на чиј роденден денес го славиме Меѓународниот ден на медицинските сестри.

Родена е во Фиренца во богато аристократско семејство, добила одлично образование и знаела шест јазици. СО младинасонувала да стане сестра на милосрдието, во 1853 година добила медицински сестри во заедницата на сестрите на Пастор Флендер во Кајзерверт и станала управител на мала приватна болница во Лондон.

Во октомври 1854 година, за време на Кримската војна, Фиренца, заедно со 38 асистенти, отишле во теренските болници на Крим. При организирањето на грижата за ранетите, таа доследно ги спроведуваше принципите на санитација и хигиена. Како резултат на тоа, за помалку од шест месеци, смртноста во болниците се намали од 42 на 2,2%!

Откако си постави задача да ја реформира медицинската служба во армијата, Најтингел се погрижи болниците да бидат опремени со системи за вентилација и канализација; болничкиот персонал требаше да се подложи неопходна подготовка. Беше организирано воено медицинско училиште, а меѓу војниците и офицерите беше извршена објаснувачка работа за важноста од превенција на болести.

Големиот придонес на Флоренс Најтингел во медицинската статистика!

  • Нејзината книга од 800 страници Белешки за факторите кои влијаат на здравјето, ефикасноста и управувањето на болниците од британската армија (1858) содржела цел дел посветен на статистиката и илустриран со дијаграми.
  • Најтингел беше иноватор во користењето на графички слики во статистиката. Таа ги измислила табелите со пити, кои ги нарекла „петел“ и ги користела за да ја опише структурата на смртноста. Многу од нејзините графикони беа вклучени во извештајот на Комисијата за здравствени проблеми во Армијата, што доведе до одлука за реформирање на армиската медицина.
  • Таа го развила првиот формулар за собирање статистика во болниците, кој е претходник на современите обрасци за известување за болничките активности.

Во 1859 година, таа беше избрана за член на Кралското статистичко друштво, а потоа стана почесен член на Американската статистичка асоцијација.

Јохан Карл Фридрих Гаус (30 април 1777 - 23 февруари 1855 година)

На 30 април 1777 година, во градот Брауншвајг е роден големиот германски математичар, механичар, физичар, астроном, геодет и статистичар Јохан Карл Фридрих Гаус.

Тој се смета за еден од најголемите математичари на сите времиња, „Кралот на математичарите“. Лауреат на Медалот Копли (1838), странски член на Шведската (1821) и Руската (1824) академија на науките и на англиското кралско друштво.

Веќе на тригодишна возраст, Карл знаел да чита и пишува, дури и да ги поправа грешките во пресметките на неговиот татко. Според легендата, училишен наставник по математика, за да ги држи децата долго зафатени, ги замолил да го бројат збирот на броевите од 1 до 100. Младиот Гаус забележал дека парните збирови од спротивните краеви се исти: 1+100= 101, 2+99=101, итн итн., и веднаш го добивме резултатот: 50×101=5050. До својата старост, тој беше навикнат повеќето пресметки да ги прави во главата.

Главните научни достигнувања на Карл Гаус во статистиката се создавањето на методот на најмали квадрати, кој е во основата на регресионата анализа.

Тој, исто така, детално го проучувал законот за нормална дистрибуција широко распространет во природата, чиј график оттогаш често се нарекува Гаус. Правилото „три сигма“ (правило на Гаус) кое ја опишува нормалната дистрибуција стана нашироко познато.

Лев Семјонович Камински (1889 - 1962)

На 75-годишнината од Победата во Велики Патриотска војнаБи сакал да се сетам и да зборувам за прекрасен научник, еден од основачите на воената медицинска и санитарна статистика во СССР - Лев Семенович Камински (1889-1962).

Роден е на 27 мај 1889 година во Киев. По дипломирањето со почести на Медицинскиот факултет на Универзитетот во Петроград во 1918 година, Камински беше во редовите на Црвената армија, од април 1919 година до крајот на 1920 година ја извршуваше функцијата главен лекар на 136-та консолидирана евакуациска болница на Југо- Источен фронт.

Од 1922 година, Лев Семјонович беше одговорен за санитарниот и епидемиолошкиот оддел на медицинската и санитарната служба на Северозападната железница. Во текот на овие години започна научна дејностКамински под водство на проф. С.А.Новоселски. Во нивното заедничко фундаментално дело „Загуби во минатите војни“, беше анализиран статистички материјал за човечките загуби во војните на различните армии во светот од 1756 до 1918 година. загуби.

Монографијата „Национална исхрана и јавно здравје“ (1929) детално ги испитува санитарните и хигиенските аспекти на влијанието на војните врз јавното здравје, како и прашањата за организирање медицинска нега за населението и армијата за време на војната.

Од 1935 до 1943 година, Лев Семенович го предводеше одделот за санитарна (од 1942 година - медицинска) статистика на Народниот комесаријат за здравство на СССР. Во октомври 1943 година, проф. Камински станал шеф на одделот за воена медицинска статистика на Воено-медицинската академија по име. С.М.Киров, а од 1956 година ја извршува функцијата професор на Катедрата за статистика и сметководство на Државниот универзитет во Ленинград.

Лев Семјонович се залагаше за широка имплементација квантитативни методиво практиката на санитарната и медицинската статистика. Во 1959 година под негово авторство е објавено упатство„Статистичка обработка на лабораториски и клинички податоци: примена на статистиката во научната и практичната работа на лекар“, која многу години стана еден од најдобрите домашни учебници за медицинска статистика. Во предговорот, Л.С. Камински забележува:
„... Се чини дека е важно лекарите што лекуваат да знаат како да се занимаваат и да знаат како да ги соберат и обработуваат точните бројки, погодни за споредби и споредби“.

Критериуми и методи

СТУДЕНТСКИ т-КРИТЕРИОН ЗА НЕЗАВИСНО НАСЕЛЕНИЕ

Студентскиот т-тест е општо име за класа методи за статистичко тестирање на хипотези (статистички тестови) врз основа на Студентската распределба. Најчестите употреби на t-тестот вклучуваат тестирање на еднаквоста на средствата во два примерока.

Овој критериум беше развиен Вилијам Сили Госет

2. За што се користи Студентскиот т-тест?

Студентскиот t тест се користи за одредување на статистичката значајност на разликите во средини. Може да се користи и во случаи на споредба на независни примероци (на пример, група пациенти со дијабетес и група здрави луѓе) и кога се споредуваат сродните популации (на пример, просечната срцева фрекфенција кај истите пациенти пред и по земањето антиаритмичен лек). Во вториот случај, се пресметува спарениот Student t-тест

3. Во кои случаи може да се користи Студентскиот т-тест?

За да се примени Студентскиот t-тест, потребно е оригиналните податоци да имаат нормална дистрибуција. Важна е и еднаквоста на варијансите (распределбите) на споредените групи (хомоскедастичност). За нееднакви варијанси, се користи t-тестот модифициран од Welch (Welch's t).

Со отсуство нормална дистрибуцијаспоредени примероци, наместо Студентски т-тест, се користат слични методи на непараметриска статистика, меѓу кои најпозната е Мен-Витни U тест.

4. Како да се пресмета Студентскиот т-тест?

За да се споредат просечните вредности, Студентскиот t-тест се пресметува со користење следнава формула:

Каде М 1- аритметичка средина на првата споредена популација (група), М 2- аритметичка средина на втората споредена популација (група), m 1- просечна грешка на првата аритметичка средина, m 2- просечна грешка на втората аритметичка средина.

Добиената студентска вредност на t-тестот мора правилно да се толкува. За да го направите ова, треба да го знаеме бројот на предмети во секоја група (n 1 и n 2). Наоѓање на бројот на степени на слобода ѓспоред следната формула:

F = (n 1 + n 2) - 2

По ова, ја одредуваме критичната вредност на Студентскиот t-тест за потребното ниво на значајност (на пример, p = 0,05) и за даден број на степени на слобода ѓспоред табелата (види подолу).

  • Ако пресметаната вредност на студентскиот t-тест е еднаква или поголема од критичната вредност пронајдена од табелата, заклучуваме дека разликите помеѓу споредените вредности се статистички значајни.
  • Ако вредноста на пресметаниот студентски t-тест е помала од вредноста на табелата, тогаш разликите помеѓу споредените вредности не се статистички значајни.

За проучување на ефикасноста на новиот препарат за железо, беа избрани две групи пациенти со анемија. Во првата група пациентите добивале нов лек две недели, а во втората група плацебо. По ова, беа измерени нивоата на хемоглобин во периферната крв. Во првата група, просечното ниво на хемоглобин беше 115,4±1,2 g/l, а во втората група - 103,7±2,3 g/l (податоци претставени во формат M±m), споредените популации имаат нормална дистрибуција. Бројот на првата група беше 34, а втората - 40 пациенти. Потребно е да се донесе заклучок за статистичката значајност на добиените разлики и ефективноста на новиот препарат за железо.

Решение:За да ја процениме значајноста на разликите, го користиме Студентскиот t-тест, пресметан како разлика во средните вредности поделени со збирот на квадратни грешки:

По извршувањето на пресметките, вредноста на t-тестот се покажа дека е 4,51. Бројот на степени на слобода го наоѓаме како (34 + 40) - 2 = 72. Добиената студентска вредност на т-тестот од 4,51 ја споредуваме со критичната вредност на p = 0,05 означена во табелата: 1,993. Бидејќи пресметаната вредност на критериумот е поголема од критичната, заклучуваме дека забележаните разлики се статистички значајни (ниво на значајност стр.<0,05).


СПОРЕН СТУДЕНТСКИ т-ТЕСТ

Спарениот Студентски т-тест е една од модификациите на Студентскиот метод, кој се користи за одредување на статистичката значајност на разликите во спарените (повторени) мерења.

1. Историја на развојот на т-тестот

беше развиен т-тест Вилијам Госетда се процени квалитетот на пивото во компанијата Гинис. Поради обврските кон компанијата во врска со неоткривањето на деловните тајни, написот на Госет е објавен во 1908 година во списанието Биометрика под псевдонимот „Студент“.

2. За што се користи спарениот Студентски т-тест?

Спарениот Student's t-тест се користи за споредба на два зависни (спарени) примероци. Зависни мерења се оние кои се земаат кај исти пациенти, но во различно време, на пример, крвниот притисок кај хипертензивните пациенти пред и по земањето антихипертензивен лек. Нултата хипотеза вели дека нема разлики помеѓу примероците што се споредуваат, а алтернативната хипотеза вели дека постојат статистички значајни разлики.

3. Во кои случаи можете да го користите спарениот Студентски т-тест?

Главниот услов е зависноста на примероците, односно вредностите што се споредуваат мора да се добијат од повторени мерења на еден параметар кај исти пациенти.

Како и во случајот со споредбите на независни примероци, за да се користи спарен t-тест, оригиналните податоци мора нормално да се дистрибуираат. Доколку овој услов не е исполнет, треба да се користат непараметриски статистички методи за да се споредат средствата за примерок, како на пр. Тест со знак Gили Вилкоксон Т-тест.

Спарениот t тест може да се користи само кога се споредуваат два примероци. Ако треба да споредите три или повеќе повторени мерења, треба да користите еднонасочна анализа на варијанса (АНОВА) за повторени мерки.

4. Како да се пресмета спарениот Студентски т-тест?

Спарениот студентски t-тест се пресметува со следнава формула:

Каде М д- аритметички просек на разликите помеѓу индикаторите измерени пред и потоа, σ d- стандардно отстапување на разликите во индикаторите, n- број на изучени предмети.

5. Како да се интерпретира вредноста на Студентскиот т-тест?

Интерпретацијата на добиената спарена вредност на Студентскиот t-тест не се разликува од проценката на t-тестот за неповрзани популации. Пред сè, треба да го пронајдете бројот на степени на слобода ѓспоред следната формула:

F = n - 1

По ова, ја одредуваме критичната вредност на Студентскиот t-тест за потребното ниво на значајност (на пример, стр.<0,05) и при данном числе степеней свободы ѓспоред табелата (види подолу).

Ги споредуваме критичните и пресметаните вредности на критериумот:

  • Ако пресметаната вредност на спарениот студентски t-тест е еднаква или поголема од критичната вредност пронајдена од табелата, заклучуваме дека разликите помеѓу споредените вредности се статистички значајни.
  • Ако вредноста на пресметаниот спарен Student's t-тест е помала од вредноста на табелата, тогаш разликите помеѓу споредените вредности не се статистички значајни.

6. Пример за пресметување Студентски т-тест

За да се оцени ефикасноста на новиот хипогликемичен агенс, нивото на гликоза во крвта беше мерено кај пациенти со дијабетес мелитус пред и по земањето на лекот. Како резултат на тоа, беа добиени следните податоци:

Решение:

1. Пресметајте ја разликата на секој пар вредности (г):

Пациентот Н Ниво на гликоза во крвта, mmol/l Разлика (г)
пред да го земете лекот по земањето на лекот
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Најдете ја аритметичката средина на разликите користејќи ја формулата:

3. Најдете го стандардното отстапување на разликите од просекот користејќи ја формулата:

4. Пресметајте го спарениот Student’s t-тест:

5. Да ја споредиме добиената вредност на Студентскиот t-тест 8.6 со вредноста на табелата, која со бројот на степени на слобода f еднаков на 10 - 1 = 9 и нивото на значајност p = 0.05, е 2.262. Бидејќи добиената вредност е поголема од критичната, заклучуваме дека постојат статистички значајни разлики во нивото на гликоза во крвта пред и по земањето на новиот лек.

Прикажи табела со критични вредности на Студентскиот т-тест

МАН-ВИТНИ У-КРИТЕРИОН

Mann-Whitney U тестот е непараметриски статистички тест кој се користи за споредување на два независни примероци во однос на нивото на квантитативно измерената карактеристика. Методот се заснова на одредување дали зоната на вкрстени вредности помеѓу две варијации (рангирана серија вредности на параметри во првиот примерок и истата во вториот примерок) е доволно мала. Колку е помала вредноста на критериумот, толку е поголема веројатноста дека разликите помеѓу вредностите на параметрите во примероците се сигурни.

1. Историја на развојот на U-критериумот

Овој метод за идентификација на разликите помеѓу примероците беше предложен во 1945 година од американски хемичар и статистичар Френк Вилкоксон.
Во 1947 година, тој беше значително ревидиран и проширен од математичарите Х.Б. Ман(Х.Б. Ман) и Д.Р. Витни(Д.Р. Витни), со чии имиња денес обично се нарекува.

2. За што се користи Mann-Whitney U тестот?

Mann-Whitney U тестот се користи за проценка на разликите помеѓу два независни примероци во однос на нивото на која било квантитативна карактеристика.

3. Во кои случаи може да се користи Mann-Whitney U тестот?

Тестот Mann-Whitney U е непараметриски тест, затоа, за разлика од Студентски т-тест

U-тестот е погоден за споредување на мали примероци: секој примерок мора да има најмалку 3 карактеристични вредности. Дозволено е да има 2 вредности во еден примерок, но потоа втората мора да има најмалку пет.

Услов за примена на тестот Mann-Whitney U е отсуството на соодветни вредности на атрибутите во споредените групи (сите бројки се различни) или многу мал број такви совпаѓања.

Аналог на Mann-Whitney U тестот за споредување на три или повеќе групи е Крускал-Волис тест.

4. Како да се пресмета Mann-Whitney U тестот?

Прво, од двата споредени примероци, а единечна рангирана серија, со подредување на единиците за набљудување според степенот на зголемување на атрибутот и доделување понизок ранг на помала вредност. Во случај на еднакви вредности на карактеристика за неколку единици, на секоја од нив и се доделува аритметичка средина на последователни вредности на рангирање.

На пример, две единици кои го заземаат 2-то и 3-то место (ранг) во еден рангиран ред имаат исти вредности. Затоа, на секој од нив му е доделен ранг еднаков на (3 + 2) / 2 = 2,5.

Во составената единечна рангирана серија, вкупниот број на рангови ќе биде еднаков на:

N = n 1 + n 2

каде n 1 е бројот на елементи во првиот примерок, а n 2 е бројот на елементи во вториот примерок.

Следно, ние повторно ја делиме единечната рангирана серија на две, кои се состојат соодветно од единиците на првиот и вториот примерок, притоа запомнувајќи ги вредностите на рангирањето за секоја единица. Посебно го пресметуваме збирот на рангови што паѓаат на учеството на елементите од првиот примерок, а одделно - на учеството на елементите од вториот примерок. Го одредуваме поголемиот од двата рангирани збирови (T x) што одговараат на примерок со n x елементи.

Конечно, ја наоѓаме вредноста на тестот Mann-Whitney U користејќи ја формулата:

5. Како да се протолкува вредноста на Mann-Whitney U тестот?

Добиената вредност на U-тестот ја споредуваме со помош на табелата за избраното ниво на статистичка значајност (p=0,05 или p=0,01) со критичната вредност на U за даден број споредени примероци:

  • Ако добиената вредност U помалкутабеларно или еднаквинего, тогаш се препознава статистичката значајност на разликите меѓу нивоата на особината во примероците што се разгледуваат (алтернативната хипотеза е прифатена). Колку е помала вредноста на U, толку е поголема веродостојноста на разликите.
  • Ако добиената вредност U повеќетабеларно, нултата хипотеза е прифатена.
Прикажи табела со критични вредности на Mann-Whitney U тестот на p=0,05

КРИТЕРИОН WILCOxon

Wilcoxon тест за сродни примероци (исто така наречен Wilcoxon T-тест, Wilcoxon тест, Wilcoxon потпишан тест за ранг, Wilcoxon тест за сума на ранг) е непараметриски статистички тест кој се користи за споредба на два сродни (спарени) примероци во однос на нивото на која било измерена квантитативна карактеристика на континуирана или редна скала.

Суштината на методот е дека се споредуваат апсолутните вредности на сериозноста на поместувањата во една или друга насока. За да го направите ова, прво се рангираат сите апсолутни вредности на смените, а потоа се сумираат ранговите. Ако поместувањата во една или друга насока се случат случајно, тогаш збировите на нивните редови ќе бидат приближно еднакви. Ако интензитетот на поместувањата во една насока е поголем, тогаш збирот на рангот на апсолутните вредности на поместувањата во спротивна насока ќе биде значително помал отколку што може да биде со случајни промени.

1. Историја на развојот на тестот Wilcoxon за сродни примероци

Тестот првпат беше предложен во 1945 година од американскиот статистичар и хемичар Френк Вилкоксон (1892-1965). Во истиот научен труд, авторот опишал уште еден критериум што се користи во случај на споредување на независни примероци.

2. За што се користи Wilcoxon тестот?

Wilcoxon T тестот се користи за да се проценат разликите помеѓу две групи на мерења направени на иста популација, но под различни услови или во различно време. Овој тест може да ја открие насоката и сериозноста на промените - односно дали индикаторите се повеќе поместени во една насока отколку во друга.

Класичен пример за ситуација во која може да се користи Wilcoxon T-тестот за сродните популации е студија пред-после која ги споредува резултатите пред и по третманот. На пример, кога се проучува ефикасноста на антихипертензивниот лек, се споредува крвниот притисок пред и по земањето на лекот.

3. Услови и ограничувања за користење на Wilcoxon T-тестот

  1. Вилкоксон тестот е непараметриски тест, затоа, за разлика од спарен Студентски т-тест, не бара нормална распределба на популациите што се споредуваат.
  2. Бројот на субјекти при користење на Wilcoxon T-тестот мора да биде најмалку 5.
  3. Проучената особина може да се мери и на квантитативна континуирана скала (крвен притисок, срцев ритам, содржина на леукоцити во 1 ml крв) и на редна скала (број на поени, сериозност на болеста, степен на контаминација со микроорганизми).
  4. Овој критериум се користи само кога се споредуваат две серии на мерења. Аналог на Wilcoxon T-тестот за споредување на три или повеќе сродни популации е Фридман критериум.

4. Како да се пресмета Wilcoxon T-тестот за сродни примероци?

  1. Пресметајте ја разликата помеѓу вредностите на спарените мерења за секој предмет. Нулта поместувања не се земаат предвид понатаму.
  2. Определете кои од разликите се типични, односно одговараат на насоката на промена на индикаторот што е доминантен во фреквенцијата.
  3. Рангирајте ги разликите на паровите според нивните апсолутни вредности (односно, без да го земете предвид знакот), во растечки редослед. На помалата апсолутна вредност на разликата и се доделува понизок ранг.
  4. Пресметајте го збирот на рангови што одговараат на атипични поместувања.

Така, Wilcoxon T-тестот за поврзани примероци се пресметува со помош на следнава формула:

каде ΣRr е збир на рангови што одговараат на атипични промени во индикаторот.

5. Како да се протолкува вредноста на Wilcoxon тестот?

Резултирачката вредност на Wilcoxon T-тестот се споредува со критичната вредност според табелата за избраното ниво на статистичка значајност ( p=0,05или p=0,01) за даден број споредени примероци n:

  • Доколку пресметаната (емпириска) вредност на T em. помалку од табеларното T cr. или еднакво на него, тогаш се препознава статистичката значајност на промените на индикаторот во типична насока (алтернативната хипотеза е прифатена). Колку е помала вредноста на Т, толку е поголема веродостојноста на разликите.
  • Ако Т ​​емп. повеќе Т кр. , се прифаќа нултата хипотеза за отсуство на статистичка значајност на промените на индикаторот.

Пример за пресметување на тестот Wilcoxon за сродни примероци

Фармацевтска компанија истражува нов лек од групата нестероидни антиинфламаторни лекови. За таа цел, беше избрана група од 10 волонтери кои страдаат од АРВИ со хипертермија. Нивната телесна температура била измерена пред и 30 минути по земањето на новиот лек. Неопходно е да се донесе заклучок за значењето на намалувањето на телесната температура како резултат на земањето на лекот.

  1. Изворните податоци се претставени во следната табела:
  2. За да го пресметаме Wilcoxon T-тестот, ги пресметуваме разликите помеѓу спарените индикатори и ги рангираме нивните апсолутни вредности. Во овој случај, ги истакнуваме атипичните рангови со црвено:
    Н Презиме телото т пред да се земе лекот т тело по земањето на лекот Разлика на индикатори, г |г| Ранг
    1. Иванов 39.0 37.6 -1.4 1.4 7
    2. Петров 39.5 38.7 -0.8 0.8 5
    3. Сидоров 38.6 38.7 0.1 0.1 1.5
    4. Попов 39.1 38.5 -0.6 0.6 4
    5. Николаев 40.1 38.6 -1.5 1.5 8
    6. Козлов 39.3 37.5 -1.8 1.8 9
    7. Игнатиев 38.9 38.8 -0.1 0.1 1.5
    8. Семенов 39.2 38.0 -1.2 1.2 6
    9. Егоров 39.8 39.8 0
    10. Алексеев 38.8 39.3 0.5 0.5 3
    Како што гледаме, типична сменаиндикаторот е неговото намалување, забележано во 7 случаи од 10. Во еден случај (кај пациентот Егоров), температурата не се променила по земањето на лекот и затоа овој случај не бил користен во понатамошна анализа. Во два случаи (кај пациентите Сидоров и Алексеев) е забележано нетипично поместувањетемператури нагоре. Ранговите што одговараат на нетипично поместување се 1,5 и 3.
  3. Ајде да го пресметаме Wilcoxon T-тестот, кој е еднаков на збирот на рангови што одговараат на атипичното поместување на индикаторот:

    T = ΣRr = 3 + 1,5 = 4,5

  4. Ајде да го споредиме T emp. со Т кр. , што на ниво на значајност p=0,05 и n=9 е еднакво на 8. Според тоа, T emp.
  5. Заклучуваме: намалувањето на телесната температура кај пациенти со АРВИ како резултат на земање нов лек е статистички значајно (стр<0.05).
Прикажи табела со критични вредности на Wilcoxon T-тестот

PEARSON CHI-SQARE КРИТЕРИОН

Пирсоновиот χ 2 тест е непараметриски метод кој ни овозможува да ја процениме значајноста на разликите помеѓу вистинскиот (откриениот) број на исходи или квалитативните карактеристики на примерокот што спаѓаат во секоја категорија и теоретскиот број што би се очекувал во испитуваните групи ако нултата хипотеза е вистинита. Едноставно кажано, методот ви овозможува да ја оцените статистичката значајност на разликите помеѓу два или повеќе релативни индикатори (фреквенции, пропорции).

1. Историја на развојот на критериумот χ 2

Тестот хи-квадрат за анализа на табели за непредвидени ситуации беше развиен и предложен во 1900 година од англиски математичар, статистичар, биолог и филозоф, основач на математичката статистика и еден од основачите на биометриката. Карл Пирсон(1857-1936).

2. Зошто се користи Пирсоновиот χ 2 тест?

Во анализата може да се користи хи-квадрат тестот табели за непредвидени ситуациикои содржат информации за зачестеноста на исходите во зависност од присуството на фактор на ризик. На пример, табела за непредвидени ситуации со четири полиња изгледа вака:

Има исход (1) Без исход (0) Вкупно
Постои фактор на ризик (1) А Б А+Б
Без фактор на ризик (0) В Д C+D
Вкупно A+C Б+Д A+B+C+D

Како да пополните таква табела за непредвидени ситуации? Ајде да погледнеме мал пример.

Се спроведува студија за ефектот на пушењето врз ризикот од развој на артериска хипертензија. За таа цел беа избрани две групи испитаници - првата опфати 70 лица кои пушат најмалку 1 кутија цигари дневно, втората опфати 80 непушачи на иста возраст. Во првата група 40 лица имале висок крвен притисок. Во втората, артериска хипертензија е забележана кај 32 лица. Соодветно на тоа, нормалниот крвен притисок кај групата пушачи бил кај 30 лица (70 - 40 = 30) и кај групата непушачи - кај 48 (80 - 32 = 48).

Ја пополнуваме табелата за непредвидени четири полиња со првичните податоци:

Во добиената табела за непредвидени ситуации, секоја линија одговара на одредена група на предмети. Колоните го покажуваат бројот на луѓе со артериска хипертензија или нормален крвен притисок.

Задачата што му се поставува на истражувачот е: дали постојат статистички значајни разлики помеѓу зачестеноста на лицата со крвен притисок меѓу пушачите и непушачите? Ова прашање може да се одговори со пресметување на Пирсон хи-квадрат тест и споредување на добиената вредност со критичната.

  1. Споредливите индикатори треба да се мерат на номинална скала (на пример, полот на пациентот е машки или женски) или на редна скала (на пример, степенот на артериска хипертензија, кој се движи од 0 до 3).
  2. Овој метод ви овозможува да ги анализирате не само табелите со четири полиња, кога и факторот и исходот се бинарни променливи, односно имаат само две можни вредности (на пример, машки или женски пол, присуство или отсуство на одредена болест во анамнезата...). Пирсоновиот хи-квадрат тест може да се користи и во случај на анализа на табели со повеќе полиња, кога факторот и (или) исходот зема три или повеќе вредности.
  3. Групите што се споредуваат мора да бидат независни, односно хи-квадрат тестот не треба да се користи кога се споредуваат набљудувањата пред-после. Мекнемар тест(кога се споредуваат две сродни популации) или пресметани Кокранов Q тест(во случај на споредба на три или повеќе групи).
  4. Кога се анализираат табели со четири полиња очекуваните вредностиво секоја ќелија мора да има најмалку 10. Ако во барем една ќелија очекуваниот феномен има вредност од 5 до 9, мора да се пресмета хи-квадрат тестот со амандманот на Јејтс. Ако во барем една ќелија очекуваниот феномен е помал од 5, тогаш анализата треба да се користи Точниот тест на Фишер.
  5. Кога се анализираат табелите со повеќе полиња, очекуваниот број на набљудувања не треба да биде помал од 5 во повеќе од 20% од ќелиите.

4. Како да се пресмета Пирсоновиот хи-квадрат тест?

За да го пресметате хи-квадрат тестот ви треба:

Овој алгоритам е применлив и за табели со четири и за повеќе полиња.

5. Како да се толкува вредноста на Пирсоновиот хи-квадрат тест?

Доколку добиената вредност на критериумот χ 2 е поголема од критичната вредност, заклучуваме дека постои статистичка врска помеѓу проучуваниот фактор на ризик и исходот на соодветно ниво на значајност.

6. Пример за пресметување на Пирсон хи-квадрат тест

Дозволете ни да ја одредиме статистичката значајност на влијанието на факторот пушење врз инциденцата на артериска хипертензија користејќи ја табелата дискутирана погоре:

  1. Ги пресметуваме очекуваните вредности за секоја ќелија:
  2. Најдете ја вредноста на Пирсон хи-квадрат тест:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Бројот на степени на слобода f = (2-1)*(2-1) = 1. Со помош на табелата ја наоѓаме критичната вредност на Пирсоновиот хи-квадрат тест кој на ниво на значајност p=0,05 и бројот на степени на слобода 1 е 3,841.
  4. Добиената вредност на хи-квадрат тестот ја споредуваме со критичната: 4,396 > 3,841, според тоа, зависноста на инциденцата на артериска хипертензија од присуството на пушење е статистички значајна. Нивото на значајност на оваа врска одговара на стр<0.05.
Прикажи табела со критични вредности на Пирсоновиот хи-квадрат тест

ТОЧЕН КРИТЕРИУМ НА ФИШЕР

Фишеров точен тест е тест кој се користи за споредба на два релативни индикатори кои ја карактеризираат фреквенцијата на одредена карактеристика која има две вредности. Првичните податоци за пресметување на точниот тест на Фишер обично се групирани во форма на табела со четири полиња.

1. Историја на развојот на критериумот

Критериумот прво беше предложен Роналд Фишерво неговата книга Дизајн на експерименти. Ова се случи во 1935 година. Самиот Фишер тврдеше дека Муриел Бристол го поттикнала на оваа идеја. Во раните 1920-ти, Роналд, Муриел и Вилијам Роуч беа стационирани во Англија на земјоделска експериментална станица. Муриел тврдела дека може да го одреди редоследот по кој чај и млеко се истураат во нејзината чаша. Тогаш не беше можно да се потврди точноста на нејзината изјава.

Ова доведе до идејата на Фишер за „нултата хипотеза“. Целта не беше да се докаже дека Муриел може да направи разлика помеѓу различно подготвени шолји чај. Беше одлучено да се побие хипотезата дека жената прави избор по случаен избор. Утврдено е дека нултата хипотеза ниту може да се докаже ниту да се оправда. Но, тоа може да се побие за време на експериментите.

Беа подготвени 8 чаши. Првите четири се полнат со млеко, а другите четири со чај. Чашите беа измешани. Бристол понудил да го вкуси чајот и да ги подели шолјите според начинот на подготовка на чајот. Резултатот требаше да биде две групи. Историјата вели дека експериментот бил успешен.

Благодарение на тестот Фишер, веројатноста Бристол да дејствува интуитивно беше намалена на 0,01428. Односно, беше можно правилно да се идентификува чашката во еден случај од 70. Но, сепак, нема начин да се сведе на нула шансите кои Мадам ги одредува случајно. Дури и ако го зголемите бројот на чаши.

Оваа приказна даде поттик за развојот на „нултата хипотеза“. Во исто време, беше предложен и точниот критериум на Фишер, чија суштина е да се набројат сите можни комбинации на зависни и независни променливи.

2. За што се користи Фишеров точен тест?

Фишеровиот точен тест главно се користи за споредување на мали примероци. Постојат две добри причини за ова. Прво, пресметката на критериумот е прилично гломазна и може да потрае долго или да бара моќни компјутерски ресурси. Второ, критериумот е доста точен (што се одразува дури и во неговото име), што овозможува да се користи во студии со мал број на набљудувања.

Посебно место е дадено на точниот тест на Фишер во медицината. Ова е важен метод за обработка на медицински податоци и најде своја примена во многу научни студии. Благодарение на него, можно е да се проучи врската помеѓу одредени фактори и исходи, да се спореди фреквенцијата на патолошки состојби помеѓу две групи субјекти итн.

3. Во кои случаи може да се користи Фишеров точен тест?

  1. Променливите што се споредуваат треба да се мерат на номинална скала и да имаат само две вредности, на пример, крвниот притисок е нормален или покачен, исходот е поволен или неповолен, има постоперативни компликации или не.
  2. Фишеровиот точен тест е дизајниран да спореди две независни групи поделени по фактор. Според тоа, факторот исто така треба да има само две можни вредности.
  3. Критериумот е погоден за споредување на многу мали примероци: Фишеровиот точен тест може да се користи за анализа на четири-комплетни табели во случај на вредности на очекуваниот феномен помали од 5, што е ограничување за примена. Пирсон хи-квадрат тест, дури и земајќи го предвид амандманот на Јејтс.
  4. Точниот тест на Фишер може да биде едностран или двостран. Со еднострана опција, точно се знае каде ќе отстапи еден од индикаторите. На пример, една студија споредува колку пациенти закрепнале во споредба со контролната група. Се претпоставува дека терапијата не може да ја влоши состојбата на пациентите, туку само или да ја излечи или не.
    Тест со две опашки ги проценува разликите во фреквенцијата во две насоки. Односно, се проценува веројатноста за поголема и помала фреквенција на феноменот во експерименталната група во споредба со контролната група.

Аналог на точниот тест на Фишер е Пирсон хи-квадрат тест, додека точниот тест на Фишер има поголема моќност, особено кога се споредуваат мали примероци, и затоа има предност во овој случај.

4. Како да се пресмета точниот тест на Фишер?

Да речеме дека ја проучуваме зависноста на фреквенцијата на раѓања на деца со вродени малформации (CDD) од пушењето на мајката за време на бременоста. За ова, беа избрани две групи трудници, од кои едната беше експериментална група, составена од 80 жени кои пушеле во првиот триместар од бременоста, а втората беше споредбена група, вклучувајќи 90 жени кои водеа здрав начин на живот во текот на бременоста. Бројот на случаи на фетални вродени малформации во експерименталната група беше 10, во споредбената група - 2.

Прво, создаваме табела за непредвидени ситуации со четири полиња:

Точниот тест на Фишер се пресметува со следнава формула:

каде N е вкупниот број на предмети во две групи; ! - фактор, кој е производ на број и низа од броеви, од кои секој е помал од претходниот за 1 (на пример, 4! = 4 3 2 1)

Како резултат на пресметките, откриваме дека P = 0,0137.

5. Како да се протолкува вредноста на Фишеровиот точен тест?

Предноста на методот е што добиениот критериум одговара на точната вредност на нивото на значајност стр. Односно, вредноста од 0,0137 добиена во нашиот пример е нивото на значајност на разликите помеѓу споредените групи во фреквенцијата на развој на вродени малформации на фетусот. Потребно е само да се спореди овој број со критичното ниво на значајност, обично земено во медицинските истражувања како 0,05.

  • Доколку вредноста на Фишеровиот точен тест е поголема од критичната вредност, нултата хипотеза се прифаќа и се донесува заклучок дека нема статистички значајни разлики во зачестеноста на исходот во зависност од присуството на факторот на ризик.
  • Доколку вредноста на Фишеровиот точен тест е помала од критичната вредност, се прифаќа алтернативната хипотеза и се донесува заклучок дека постојат статистички значајни разлики во зачестеноста на исходот во зависност од изложеноста на факторот на ризик.

Во нашиот пример П< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


СООДНОС НА КОЈНОСТИ

Соодносот на шанси е статистички показател (на руски неговото име обично се скратува како ИЛИ, а на англиски - ИЛИ од „сооднос на шанси“), еден од главните начини да се опише во нумерички термини колку е отсуството или присуството на одреден исход. поврзано со присуството или отсуството на одреден фактор во одредена статистичка група.

1. Историја на развојот на индикаторот коефициент на шанси

Терминот „шанса“ потекнува од теоријата на коцкање, каде што овој концепт се користел за да го означи односот на победничките позиции и оние загубените. Во научната медицинска литература, индикаторот за коефициент на шанси првпат беше споменат во 1951 година во работата на Ј. Корнфилд. Последователно, овој истражувач објави трудови кои ја забележаа потребата да се пресмета интервал на доверба од 95% за коефициентот на шансите. (Корнфилд, Ј. Метод за проценка на компаративни стапки од клинички податоци. Апликации за рак на белите дробови, дојката и грлото на матката // Весник на Националниот институт за рак, 1951 година. - N.11. - P.1269-1275.)

2. За што се користи соодносот на шансите?

Соодносот на шансите ја проценува поврзаноста помеѓу одреден исход и фактор на ризик.

Соодносот на шансите ви овозможува да ги споредите студиските групи според фреквенцијата на откривање на одреден фактор на ризик. Важно е резултатот од примената на коефициентот да не е само утврдување на статистичката значајност на односот помеѓу факторот и исходот, туку и негова квантитативна проценка.

3. Услови и ограничувања за користење на коефициенти

  1. Индикаторите за исходот и факторите мора да се мерат на номинална скала. На пример, ефективен знак е присуството или отсуството на вродена малформација кај фетусот, проучуваниот фактор е пушењето на мајката (пуши или не пуши).
  2. Овој метод овозможува анализа само на табели со четири полиња, кога и факторот и исходот се бинарни променливи, односно имаат само две можни вредности (на пример, пол - машки или женски, артериска хипертензија - присуство или отсуство, исход на болеста - со или без подобрување ...).
  3. Групите што се споредуваат мора да бидат независни, односно, односот на шансите не е погоден за споредби пред-после.
  4. Индикаторот за односот на шансите се користи во студии за контрола на случаи (на пример, првата група се пациенти со хипертензија, втората се релативно здрави луѓе). За проспективни студии, кога групите се формираат врз основа на присуство или отсуство на фактор на ризик (на пример, првата група се пушачи, втората група се непушачи), исто така може да се пресмета релативен ризик.

4. Како да се пресмета коефициентот?

Соодносот на шансите е вредноста на дропка во која броителот ги содржи шансите за одреден настан за првата група, а именителот ги содржи шансите за истиот настан за втората група.

Шансае односот на бројот на субјекти кои имаат одредена карактеристика (исход или фактор) со бројот на субјекти кои ја немаат оваа карактеристика.

На пример, беше избрана група на пациенти оперирани од некроза на панкреасот, чиј број беше 100 луѓе. По 5 години, 80 од нив се уште биле живи. Според тоа, шансата за преживување била 80 до 20, или 4.

Удобен начин е да се пресмета соодносот на шансите со сумирање на податоците во табела 2x2:

Има исход (1) Без исход (0) Вкупно
Постои фактор на ризик (1) А Б А+Б
Без фактор на ризик (0) В Д C+D
Вкупно A+C Б+Д A+B+C+D

За оваа табела, односот на шансите се пресметува со помош на следнава формула:

Многу е важно да се процени статистичката значајност на идентификуваната поврзаност помеѓу исходот и факторот на ризик. Ова се должи на фактот дека дури и со ниски вредности на коефициентот, блиску до единство, врската, сепак, може да испадне значајна и треба да се земе предвид во статистичките заклучоци. Спротивно на тоа, со големи ИЛИ вредности, индикаторот се покажува како статистички незначаен и, според тоа, идентификуваната врска може да се занемари.

За да се процени важноста на коефициентот на шансите, се пресметуваат границите на 95% интервал на доверба (се користи кратенката 95% CI или 95% CI од англискиот „интервал на доверба“). Формула за наоѓање на горната гранична вредност од 95% CI:

Формула за наоѓање на вредноста на долната граница од 95% CI:

5. Како да се интерпретира вредноста на коефициентот?

  • Ако соодносот на шансите е поголем од 1, тоа значи дека шансите да се најде фактор на ризик се поголеми во групата со присутен исход. Оние. факторот има директна врска со веројатноста да се случи исходот.
  • Соодносот на шансите помал од 1 покажува дека шансите за откривање на фактор на ризик се поголеми во втората група. Оние. факторот има обратна врска со веројатноста да се случи исходот.
  • Со однос на шансите еднаков на еден, шансите за откривање на фактор на ризик во споредените групи се исти. Според тоа, факторот нема никакво влијание врз веројатноста за исходот.

Дополнително, во секој случај, статистичката значајност на коефициентот нужно се оценува врз основа на вредностите на интервалот на доверба од 95%.

  • Ако интервалот на доверба не вклучува 1, т.е. двете вредности на границите се или повисоки или пониски од 1, се извлекува заклучок за статистичката значајност на идентификуваната врска помеѓу факторот и исходот на ниво на значајност стр.<0,05.
  • Ако интервалот на доверба вклучува 1, т.е. неговата горна граница е поголема од 1, а нејзината долна граница е помала од 1, заклучено е дека не постои статистичка значајност на врската помеѓу факторот и исходот на ниво на значајност од p>0,05.
  • Големината на интервалот на доверба е обратно пропорционална со нивото на значајност на односот помеѓу факторот и исходот, т.е. колку е помал 95% CI, толку е позначајна идентификуваната врска.

6. Пример за пресметување на индикаторот на коефициентот

Да замислиме две групи: првата се состоеше од 200 жени на кои им беше дијагностицирана вродена малформација на фетусот (Exodus+). Од нив, 50 луѓе пушеле за време на бременоста (Фактор+) (А), биле непушачи (Фактор-) - 150 лица (СО).

Втората група ја сочинуваа 100 жени без знаци на вродени малформации на плодот (Исход -) меѓу кои 10 лица пушеле за време на бременоста (Фактор+) (Б), не пушеле (Фактор-) - 90 луѓе (Д).

1. Ајде да создадеме табела за непредвидени ситуации со четири полиња:

2. Пресметајте ја вредноста на коефициентот:

ИЛИ = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Најдете ги границите на 95% CI. Вредноста на долната граница пресметана со горната формула беше 1,45, а горната граница беше 6,21.

Така, студијата покажа дека шансите да се сретнете со жена која пуши кај пациенти со дијагностицирани вродени малформации на плодот се 3 пати поголеми отколку кај жени без знаци на вродени малформации на фетусот. Набљудуваната зависност е статистички значајна, бидејќи 95% CI не вклучува 1, вредностите на неговите долни и горни граници се поголеми од 1.


РЕЛАТИВЕН РИЗИК

Ризикот е веројатноста за појава на одреден исход, како што е болест или повреда. Ризикот може да има вредности од 0 (нема веројатност да се случи исходот) до 1 (во сите случаи се очекува неповолен исход). Во медицинската статистика, по правило, промените во ризикот од исход се проучуваат во зависност од некој фактор. Пациентите се условно поделени во 2 групи, од кои едната е под влијание на факторот, а другата не е.

Релативниот ризик е односот на зачестеноста на исходите меѓу субјектите кои биле под влијание на факторот што се проучува со зачестеноста на исходите меѓу субјектите кои не биле под влијание на овој фактор. Во научната литература често се користи скратеното име на индикаторот - RR или RR (од англискиот "релативен ризик").

1. Историја на развојот на индикаторот за релативен ризик

Пресметката на релативниот ризик е позајмена од медицинската статистика од економијата. Правилната проценка на влијанието на политичките, економските и социјалните фактори врз побарувачката за производ или услуга може да доведе до успех, а потценувањето на овие фактори може да доведе до финансиски неуспех и банкрот на претпријатието.

2. За што се користи релативниот ризик?

Релативниот ризик се користи за да се спореди веројатноста за исход во зависност од присуството на фактор на ризик. На пример, кога се проценува ефектот на пушењето врз инциденцата на хипертензија, кога се проучува зависноста на инциденцата на рак на дојка од употребата на орални контрацептиви, итн. можни несакани ефекти.

3. Услови и ограничувања за примена на релативен ризик

  1. Показателите за факторите и исходот треба да се мерат на номинална скала (на пример, пол на пациентот - машки или женски, артериска хипертензија - присутна или не).
  2. Овој метод овозможува анализа само на табели со четири полиња, кога и факторот и исходот се непостојани променливи, односно имаат само две можни вредности (на пример, возраст помлада или постара од 50 години, присуство или отсуство на одредена болест во анамнезата).
  3. Релативниот ризик се користи во проспективните студии, кога студиските групи се формираат врз основа на присуството или отсуството на фактор на ризик. Во студиите за контрола на случај, наместо да се користи релативниот ризик коефициенти на шансите.

4. Како да се пресмета релативниот ризик?

За да се пресмета релативниот ризик, потребно е:

5. Како да се толкува релативната вредност на ризик?

Индикаторот за релативен ризик се споредува со 1 со цел да се одреди природата на врската помеѓу факторот и исходот:

  • Ако RR е еднаков на 1, можеме да заклучиме дека факторот што се испитува не влијае на веројатноста за исходот (нема врска помеѓу факторот и исходот).
  • За вредности поголеми од 1, се заклучува дека факторот ја зголемува фреквенцијата на исходите (директна врска).
  • За вредности помали од 1, тоа укажува на намалување на веројатноста за исходот кога е изложен на факторот ( Повратни информации).

Вредностите на границите на интервалот на доверба од 95% исто така се нужно проценети. Ако двете вредности - и долната и горната граница - се на иста страна од 1, или, со други зборови, интервалот на доверба не вклучува 1, тогаш се извлекува заклучок за статистичката значајност на идентификуваната врска помеѓу факторот и исходот со веројатност за грешка стр<0,05.

Ако долната граница на 95% CI е помала од 1, а горната е поголема, тогаш се заклучува дека нема статистичка значајност на влијанието на факторот врз фреквенцијата на исходот, без оглед на вредноста на RR (p>0,05).

6. Пример за пресметување на индикаторот за релативен ризик

Во 1999 година, во Оклахома беше спроведена студија за инциденцата на чир на желудникот кај мажите. Редовното консумирање брза храна е избрано како фактор кој влијае. Во првата група имало 500 мажи кои постојано јаделе брза храна, меѓу кои чир на желудникот бил дијагностициран кај 96 лица. Втората група вклучувала 500 поддржувачи на здрава исхрана, меѓу кои чир на желудникот бил дијагностициран во 31 случај. Врз основа на добиените податоци, конструирана е следната табела за непредвидени ситуации:


КРИТЕРИУМ ЗА КОРЕЛАЦИЈА НА ПИРСОН

Тестот за корелација Пирсон е метод на параметарска статистика што ви овозможува да го одредите присуството или отсуството на линеарна врска помеѓу два квантитативни показатели, како и да ја оцените неговата близина и статистичка значајност. Со други зборови, тестот за корелација Пирсон ви овозможува да одредите дали еден индикатор се менува (се зголемува или намалува) како одговор на промените во друг? Во статистичките пресметки и заклучоци, коефициентот на корелација обично се означува како r xy или R xy.

1. Историја на развојот на критериумот на корелација

Тестот за корелација Пирсон беше развиен од тим британски научници предводени од Карл Пирсон(1857-1936) во 90-тите години на 19 век, за да се поедностави анализата на коваријансата на две случајни променливи. Покрај Карл Пирсон, луѓето работеа и на критериумот за корелација Пирсон Френсис ЕџвортИ Рафаел Велдон.

2. За што се користи Пирсон тестот за корелација?

Тестот за корелација Пирсон ви овозможува да ја одредите близината (или јачината) на корелацијата помеѓу два индикатора измерени на квантитативна скала. Користејќи дополнителни пресметки, можете исто така да одредите колку е статистички значајна идентификуваната врска.

На пример, користејќи го критериумот за корелација Пирсон, можете да одговорите на прашањето дали постои врска помеѓу температурата на телото и содржината на леукоцити во крвта за време на акутни респираторни инфекции, помеѓу висината и тежината на пациентот, помеѓу содржината на флуор во водата за пиење и инциденцата на забен кариес кај населението.

3. Услови и ограничувања за примена на Пирсон хи-квадрат тест

  1. Споредливите индикатори треба да се мерат на квантитативна скала (на пример, отчукувањата на срцето, телесната температура, бројот на бели крвни зрнца на 1 ml крв, систолниот крвен притисок).
  2. Користејќи го критериумот за корелација Пирсон, можете само да го одредите присуството и силата на линеарна врска помеѓу количините. Другите карактеристики на врската, вклучувајќи ја насоката (директна или обратна), природата на промените (праволиниски или криволиниски), како и присуството на зависност на една променлива од друга, се одредуваат со помош на регресивна анализа.
  3. Бројот на споредени количини мора да биде еднаков на два. Во случај на анализа на односот на три или повеќе параметри, треба да го користите методот факторска анализа.
  4. Критериумот за корелација Пирсон е параметарски и затоа услов за негова примена е нормалната распределба на секоја од споредените променливи. Доколку е неопходно да се изврши корелација на индикатори чија дистрибуција се разликува од нормалната, вклучувајќи ги и оние измерени на редовна скала, треба да користите Спирмановиот коефициент на корелација на ранг.
  5. Треба јасно да се разликуваат концептите на зависност и корелација. Зависноста на количините го одредува присуството на корелација меѓу нив, но не и обратно.

На пример, висината на детето зависи од неговата возраст, односно колку е постаро детето толку е повисоко. Ако земеме две деца на различна возраст, тогаш со висок степен на веројатност растот на постарото дете ќе биде поголем од оној на помалото. Овој феномен се нарекува зависност, што подразбира причинско-последична врска помеѓу индикаторите. Се разбира, меѓу нив постои и корелација, што значи дека промените на еден индикатор се придружени со промени во друг индикатор.

Во друга ситуација, разгледајте ја врската помеѓу висината на детето и отчукувањата на срцето (HR). Како што е познато, и двете од овие вредности директно зависат од возраста, така што во повеќето случаи, децата со поголема висина (а со тоа и постара возраст) ќе имаат пониски вредности на срцевиот ритам. Односно, ќе се забележи корелација и може да биде доста блиска. Меѓутоа, ако земеме деца на иста возраст, но различни висини, тогаш, најверојатно, нивниот пулс ќе се разликува незначително, и затоа можеме да заклучиме дека пулсот е независен од висината.

Горенаведениот пример покажува колку е важно да се прави разлика помеѓу концептите на поврзаност и зависност на индикаторите, фундаментални во статистиката, за да се извлечат точни заклучоци.

4. Како да се пресмета коефициентот на корелација на Пирсон?

Коефициентот на корелација на Пирсон се пресметува со следнава формула:

5. Како да се протолкува вредноста на Пирсоновиот коефициент на корелација?

Вредностите на коефициентот на корелација на Пирсон се толкуваат врз основа на нивните апсолутни вредности. Можните вредности на коефициентот на корелација варираат од 0 до ±1. Колку е поголема апсолутната вредност на r xy, толку е поголема блискоста на односот помеѓу двете величини. r xy = 0 укажува на целосен недостаток на комуникација. r xy = 1 – означува присуство на апсолутна (функционална) врска. Ако вредноста на критериумот за корелација Пирсон се покаже дека е повеќе од 1 или помала од -1, направена е грешка во пресметките.

За да се процени затегнатоста или силата на корелацијата, обично се користат општоприфатени критериуми, според кои апсолутните вредности на r xy< 0.3 свидетельствуют о слабврска, r xy вредности од 0,3 до 0,7 - за поврзување просекзатегнатост, вредности на r xy > 0,7 - o силнакомуникации.

Попрецизна проценка на силата на корелацијата може да се добие со користење на табелата Чадок:

Статистичката значајност на коефициентот на корелација r xy се проценува со помош на t-тестот, пресметан со следнава формула:

Добиената t r вредност се споредува со критичната вредност на одредено ниво на значајност и бројот на степени на слобода n-2. Ако t r надминува t крит, тогаш се донесува заклучок за статистичката значајност на идентификуваната корелација.

6. Пример за пресметување на коефициентот на корелација на Пирсон

Целта на студијата беше да се идентификува, да се утврди блискоста и статистичката значајност на корелацијата помеѓу два квантитативни индикатори: нивото на тестостерон во крвта (X) и процентот на мускулна маса во телото (Y). Првичните податоци за примерок составен од 5 субјекти (n = 5) се сумирани во табелата:


СПЕРМАНОВ КРИТЕРИОН

Спирмановиот коефициент на корелација е непараметриски метод кој се користи за статистички проучување на врската помеѓу појавите. Во овој случај, се одредува вистинскиот степен на паралелизам помеѓу двете квантитативни серии на проучуваните карактеристики и се дава проценка на близината на воспоставената врска со помош на квантитативно изразен коефициент.

1. Историја на развојот на коефициентот на корелација на ранг

Овој критериум беше развиен и предложен за анализа на корелација во 1904 година Чарлс Едвард Спирман, англиски психолог, професор на универзитетите во Лондон и Честерфилд.

2. За што се користи Спирман коефициентот?

Спирмановиот коефициент на корелација на ранг се користи за да се идентификува и процени блискоста на врската помеѓу две серии споредени квантитативни индикатори. Ако редовите на индикаторите, подредени според степенот на зголемување или намалување, во повеќето случаи се совпаѓаат (поголема вредност на еден индикатор одговара на поголема вредност на друг индикатор - на пример, кога се споредуваат висината на пациентот и неговата телесна тежина), заклучок се прави за присуството директнокорелација врска. Ако редовите на индикаторите имаат спротивна насока (поголема вредност на еден индикатор одговара на помала вредност на друг - на пример, кога се споредуваат возраста и отчукувањата на срцето), тогаш тие зборуваат за обратноврски помеѓу индикаторите.

    Спирмановиот коефициент на корелација ги има следниве својства:
  1. Коефициентот на корелација може да зема вредности од минус еден до еден, а со rs=1 има строго директна врска, а со rs= -1 има строго повратна врска.
  2. Ако коефициентот на корелација е негативен, тогаш постои повратна врска, ако е позитивен, тогаш постои директна врска.
  3. Ако коефициентот на корелација е нула, тогаш практично нема врска помеѓу количините.
  4. Колку е поблизок модулот на коефициентот на корелација до единството, толку е посилен односот помеѓу измерените величини.

3. Во кои случаи може да се користи коефициентот Спирман?

Поради фактот што коефициентот е метод на непараметриска анализа, не е потребно тестирање за нормалност на дистрибуција.

Споредливи индикатори може да се мерат и на континуирана скала (на пример, бројот на црвени крвни зрнца во 1 μl крв) и на редна скала (на пример, поени стручна проценкаод 1 до 5).

Ефективноста и квалитетот на проценката на Спирман се намалуваат ако разликата помеѓу различните вредности на која било од измерените количини е доволно голема. Не се препорачува да се користи коефициентот Спирман ако има нерамномерна распределба на вредностите на измерената количина.

4. Како да се пресмета коефициентот на Спирман?

Пресметката на коефициентот на корелација на ранг Спирман ги вклучува следните чекори:

5. Како да се интерпретира вредноста на коефициентот на Спирман?

При користење на коефициентот на корелација на ранг, условно се проценува блискоста на врската помеѓу карактеристиките, земајќи ги предвид вредностите на коефициентите помали од 0,3 како знак за слаба врска; вредностите поголеми од 0,3, но помали од 0,7 се знак за умерена близина на врската, а вредностите од 0,7 или повеќе се знак за голема близина на врската.

Може да се користи и за проценка на затегнатоста на врската. Чадок скала.

Статистичката значајност на добиениот коефициент се проценува со помош на Студентски т-тест. Ако пресметаната вредност на t-тестот е помала од табеларната вредност за даден број на степени на слобода, набљудуваната врска не е статистички значајна. Доколку е поголема, тогаш корелацијата се смета за статистички значајна.


МЕТОД КОЛМОГОРОВ-СМИРНОВ

Тестот Колмогоров-Смирнов е непараметриски тест за добрина на одговарање, во класична смисла има за цел да тестира едноставни хипотези за тоа дали анализираниот примерок припаѓа на некој познат закон за распределба. Најпознатата примена на овој критериум е проверка на популациите што се испитуваат за нормалност на дистрибуција.

1. Историја на развојот на критериумот Колмогоров-Смирнов

Критериумот Колмогоров-Смирнов беше развиен од советски математичари Андреј Николаевич КолмогоровИ Николај Василиевич Смирнов.
Колмогоров А.Н. (1903-1987) - Херој на социјалистичкиот труд, професор на Москва државен универзитет, академик на Академијата на науките на СССР - најголемиот математичар на 20 век, е еден од основачите модерна теоријаверојатности.
Смирнов Н.В. (1900-1966) - дописен член на Академијата на науките на СССР, еден од креаторите на непараметриските методи на математичката статистика и теоријата на граничните распределби на статистиката на редот.

Последователно, тестот за добросостојба Колмогоров-Смирнов беше изменет за да се користи за тестирање на популации за нормалност на дистрибуција од американски статистичар, професор на Универзитетот Џорџ Вашингтон Хуберт Лилифорс(Хуберт Витман Лилифорс, 1928-2008). Професорот Лилифорс беше еден од пионерите во употребата на компјутерска опремаво статистичките пресметки.

Хуберт Лилифорс

2. Зошто се користи критериумот Колмогоров-Смирнов?

Овој критериум ни овозможува да ја процениме значајноста на разликите помеѓу распределбите на два примерока, вклучително и можноста да се користи за да се оцени усогласеноста на распределбата на примерокот што се испитува со законот за нормална дистрибуција.

3. Во кои случаи може да се користи критериумот Колмогоров-Смирнов?

Тестот Колмогоров-Смирнов е дизајниран да тестира за нормална дистрибуција на множества квантитативни податоци.

За поголема веродостојност на добиените податоци, волумените на примероците што се разгледуваат треба да бидат доволно големи: n ≥ 50. Кога големината на проценетата популација е од 25 до 50 елементи, препорачливо е да се користи Болшевската корекција.

4. Како да се пресмета критериумот Колмогоров-Смирнов?

Критериумот Колмогоров-Смирнов се пресметува со помош на специјални статистички програми. Се заснова на статистика од формата:

Каде супа С- врв на множеството S, Fn- дистрибутивна функција на населението што се проучува, F(x)- функција на нормална дистрибуција

Заклучените вредности на веројатност се засноваат на претпоставката дека средната и стандардната девијација на нормалната дистрибуција се познати априори и не се проценети од податоците.

Меѓутоа, во пракса, параметрите обично се пресметуваат директно од податоците. Во овој случај, тестот за нормалност вклучува композитна хипотеза („колку е веројатно да се добие D статистика со оваа или поголема значајност во зависност од средната вредност и стандардното отстапување пресметани од податоците“) и дадени се веројатностите на Lilliefors (Lilliefors, 1967). ).

5. Како да се толкува вредноста на тестот Колмогоров-Смирнов?

Ако статистиката Д Колмогоров-Смирнов е значајна (стр<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


РУСКА АКАДЕМИЈА ЗА НАЦИОНАЛНА ЕКОНОМИЈА И ЈАВНА СЛУЖБА под ПРЕТСЕДАТЕЛ НА РУСКАТА ФЕДЕРАЦИЈА

ОРИОЛ ГРАНЦА

Катедра за математика и математички методи во менаџментот

Самостојна работа

Математика

на тема „Серија на варијации и нејзините карактеристики“

за редовни студенти на Факултетот за економија и менаџмент

области на обука „Управување со човечки ресурси“


Цел на работата:Совладување на концептите на математичка статистика и методи на примарна обработка на податоци.

Пример за решавање на типични проблеми.

Задача 1.

Следниве податоци се добиени преку анкетата ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

Неопходно:

1) Составете серија на варијации (статистичка дистрибуција на примерокот), откако претходно запишав рангирана дискретна серија опции.

2) Конструирај фреквентен многуаголник и кумулирај.

3) Состави серија распределби на релативни фреквенции (фреквенции).

4) Најдете ги главните нумерички карактеристики на сериите на варијации (користете поедноставени формули за да ги најдете): а) аритметичка средина, б) медијана Мехи модата Мо, в) дисперзија и 2, г) стандардна девијација с, д) коефициент на варијација В.

5) Објаснете го значењето на добиените резултати.

Решение.

1) Да се ​​состави рангирана дискретна серија на опции Да ги подредиме податоците од анкетата по големина и да ги подредиме во растечки редослед

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

Ајде да составиме серија на варијации со запишување на набљудуваните вредности (варијанти) во првиот ред од табелата, а соодветните фреквенции во вториот (Табела 1)

Табела 1.

2) Фреквентен полигон е прекината линија што ги поврзува точките ( x i; n i), јас=1, 2,…, м, Каде м X.

Дозволете ни да го прикажеме многуаголникот на фреквенции од серијата на варијации (сл. 1).

Сл.1. Фреквентен полигон

Кумулативната крива (кумулира) за дискретна серија на варијации претставува скршена линија што ги поврзува точките ( x i; н и нак), јас=1, 2,…, м.

Ајде да ги најдеме акумулираните фреквенции н и нак(акумулираната фреквенција покажува колку варијанти се забележани со карактеристична вредност помала X). Пронајдените вредности ги внесуваме во третиот ред од Табела 1.



Ајде да изградиме кумулација (сл. 2).

Сл.2. Кумулира

3) Ајде да ги најдеме релативните фреквенции (фреквенции), каде , каде м– број на различни карактеристични вредности X, што ќе го пресметаме со еднаква точност.

Дозволете ни да ја запишеме дистрибутивната серија на релативни фреквенции (фреквенции) во форма на Табела 2

табела 2

4) Ајде да ги најдеме главните нумерички карактеристики на сериите на варијации:

а) Најдете ја аритметичката средина користејќи поедноставена формула:

,

каде се условните опции

Да ставиме Со= 3 (една од просечните набљудувани вредности), к= 1 (разликата помеѓу две соседни опции) и изготви пресметковна табела (Табела 3).

Табела 3.

x i nјас у јас у и н и u i 2 n i
-3 -12
-2 -26
-1 -14
Збир -11

Потоа аритметичката средина

б) Медијана Мехсерија на варијации е вредноста на карактеристиката што паѓа во средината на рангираната серија на набљудувања. Оваа дискретна серија на варијации содржи парен број на поими ( n=80), што значи дека медијаната е еднаква на половина од збирот на двете средни опции.

Мода Моваријација серија се нарекува опција која одговара на највисоката фреквенција. За дадена варијација серија, најголема фреквенција n max = 24 одговара на опцијата X= 3, значи мода Мо=3.

в) Варијанса и 2, што е мерка за дисперзија на можните вредности на индикаторот Xоколу неговата просечна вредност, ја наоѓаме со помош на поедноставена формула:

, Каде у јас– условни опции

Ќе вклучиме и средни пресметки во Табела 3.

Потоа варијансата

г) Стандардна девијација сго наоѓаме користејќи ја формулата:

.

д) Коефициент на варијација В: (),

Коефициентот на варијација е немерлива количина, затоа е погоден за споредување на расејувањето варијација серија, чии варијанти имаат различни димензии.

Коефициентот на варијација

.

5) Значењето на добиените резултати е дека вредноста ја карактеризира просечната вредност на карактеристиката Xво рамките на разгледуваниот примерок, односно просечната вредност беше 2,86. Стандардна девијација сго опишува апсолутното ширење на вредностите на индикаторот Xа во овој случај изнесува с≈ 1,55. Коефициентот на варијација Вја карактеризира релативната варијабилност на индикаторот X, односно релативното распространување околу неговата просечна вредност, а во овој случај е .

Одговор: ; ; ; .

Задача 2.

Следниве податоци се достапни за акционерскиот капитал на 40-те најголеми банки во Централна Русија:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

Неопходно:

1) Конструирајте серија на варијации на интервали.

2) Пресметајте ја средната вредност на примерокот и варијансата на примерокот

3) Најдете го стандардното отстапување и коефициентот на варијација.

4) Конструирај хистограм на распределби на фреквенции.

Решение.

1) Ајде да избереме произволен број интервали, на пример, 8. Тогаш ширината на интервалот е:

.

Ајде да создадеме пресметковна табела:

Опција за интервал, x k –x k +1 Фреквенција, n i Средината на интервалот x i Условна опција, и јас и јас н и и јас 2 n i (и јас+ 1) 2 n i
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
Збир – 5

Вредноста избрана како лажна нула е c= 62,5 (оваа опција се наоѓа приближно во средината на серијата на варијации) .

Условните опции се одредуваат со формулата

При обработката на големи количини на информации, што е особено важно при извршување на современите научни достигнувања, истражувачот се соочува со сериозна задача правилно да ги групира изворните податоци. Ако податоците се од дискретна природа, тогаш, како што видовме, не се појавуваат никакви проблеми - само треба да ја пресметате фреквенцијата на секоја карактеристика. Доколку карактеристиката што се проучува има континуираноприродата (што е почеста во пракса), тогаш изборот на оптимален број интервали за групирање на карактеристики во никој случај не е тривијална задача.

За групирање на континуирани случајни променливи, целиот варијациски опсег на карактеристиката е поделен на одреден број интервали До.

Групиран интервал (континуирано) варијација серијасе нарекуваат интервали рангирани според вредноста на атрибутот (), каде што бројот на набљудувања кои спаѓаат во r"th интервал, или релативните фреквенции (), се означени заедно со соодветните фреквенции ():

Карактеристични вредносни интервали

mi фреквенција

столбест дијаграмИ кумулира (огива),веќе детално дискутирани од нас, се одлично средство за визуелизација на податоците, што ви овозможува да добиете примарна идеја за структурата на податоците. Ваквите графикони (сл. 1.15) се конструирани за континуирани податоци на ист начин како и за дискретни податоци, само земајќи го предвид фактот дека континуираните податоци целосно го пополнуваат регионот на нивните можни вредности, земајќи какви било вредности.

Ориз. 1.15.

Затоа колоните на хистограмот и кумулатот мора да се допираат една со друга и да немаат области каде што вредностите на атрибутите не спаѓаат во сите можни(т.е., хистограмот и кумулациите не треба да имаат „дупки“ долж оската на апсцисата, кои не ги содржат вредностите на променливата што се проучува, како на Сл. 1.16). Висината на лентата одговара на фреквенцијата - бројот на набљудувања што спаѓаат во даден интервал, или релативната фреквенција - пропорцијата на набљудувања. Интервали не смее да се вкрстуваи обично се со иста ширина.

Ориз. 1.16.

Хистограмот и многуаголникот се апроксимации на кривата на густина на веројатност (диференцијална функција) f(x)теоретска дистрибуција, разгледана во текот на теоријата на веројатност. Затоа, нивната конструкција е толку важна во примарната статистичка обработка на квантитативните континуирани податоци - според нивниот изглед може да се суди за хипотетичкиот закон за распределба.

Кумулација – крива на акумулирани фреквенции (фреквенции) од серија на варијации на интервали. Графикот на функцијата кумулативна дистрибуција се споредува со кумулаторот F(x), дискутирано и во курсот за теорија на веројатност.

Во основа, концептите на хистограм и кумулираат се поврзани конкретно со континуирани податоци и нивните интервални серии на варијации, бидејќи нивните графикони се емпириски проценки на функцијата на густина на веројатност и функцијата на дистрибуција, соодветно.

Изградбата на серија на варијации на интервали започнува со одредување на бројот на интервали к.И оваа задача е можеби најтешката, најважната и контроверзната во прашањето што се проучува.

Бројот на интервали не треба да биде премногу мал, бидејќи тоа ќе го направи хистограмот премногу мазен ( премногу измазнети),ги губи сите карактеристики на варијабилност на оригиналните податоци - на Сл. 1.17 можете да видите како истите податоци на кои графиконите на Сл. 1.15, се користи за конструирање на хистограм со помал број интервали (лев график).

Во исто време, бројот на интервали не треба да биде премногу голем - во спротивно нема да можеме да ја процениме густината на дистрибуцијата на проучуваните податоци долж нумеричката оска: хистограмот ќе биде недоволно измазнет (подмачкан),со празни интервали, нерамни (види Сл. 1.17, десен график).

Ориз. 1.17.

Како да се одреди најпосакуваниот број на интервали?

Уште во 1926 година, Херберт Стургес предложи формула за пресметување на бројот на интервали во кои е неопходно да се подели оригиналниот сет на вредности на карактеристиката што се проучува. Оваа формула навистина стана исклучително популарна - повеќето статистички учебници ја нудат, а многу статистички пакети ја користат стандардно. Колку е ова оправдано и во сите случаи е многу сериозно прашање.

Значи, на што се заснова формулата на Sturges?

Размислете за биномната дистрибуција)

Споделете со пријателите или заштедете за себе:

Се вчитува...