Kontakti      O sajtu

Grupisanje podataka i konstruisanje serije distribucije. Statistička studija varijacionih serija i izračunavanje prosječnih vrijednosti Kako pronaći varijacione serije u statistici

Stanje:

Postoje podaci o starosnom sastavu radnika (godine): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Konstruirajte niz intervalne distribucije.
    2. Izradite grafički prikaz serije.
    3. Grafički odredite mod i medijan.

Rješenje:

1) Prema Sturgessovoj formuli, stanovništvo se mora podijeliti na 1 + 3,322 lg 30 = 6 grupa.

Maksimalna starost - 38, minimalna - 18 godina.

Širina intervala Pošto krajevi intervala moraju biti cijeli brojevi, populaciju dijelimo u 5 grupa. Širina intervala - 4.

Radi lakšeg izračunavanja, podatke ćemo rasporediti u rastućem redoslijedu: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.

Raspodjela radnika po godinama

Grafički, serija se može prikazati kao histogram ili poligon. Histogram - trakasti grafikon. Osnova kolone je širina intervala. Visina stuba je jednaka frekvenciji.

Poligon (ili poligon distribucije) - graf frekvencije. Da bismo ga izgradili pomoću histograma, povezujemo sredine gornjih strana pravokutnika. Zatvaramo poligon na osi Ox na udaljenosti jednakim polovini intervala od ekstremnih vrijednosti x.

Mod (Mo) je vrijednost karakteristike koja se proučava, a koja se najčešće javlja u datoj populaciji.

Da biste odredili način rada iz histograma, potrebno je odabrati najviši pravougaonik, povući liniju od desnog vrha ovog pravokutnika do gornjeg desnog ugla prethodnog pravokutnika, a od lijevog vrha modalnog pravokutnika povući liniju do lijevog vrha sljedećeg pravougaonika. Od presjeka ovih linija povucite okomitu na x-osu. Apscisa će biti moda. Mo ≈ 27.5. To znači da je najčešća dob u ovoj populaciji 27-28 godina.

Medijan (Me) je vrijednost karakteristike koja se proučava, a koja se nalazi u sredini uređene serije varijacija.

Medijanu nalazimo koristeći kumulat. Kumulati - graf akumuliranih frekvencija. Apscise su varijante niza. Ordinate su akumulirane frekvencije.

Da bismo odredili medijan preko kumulata, nalazimo tačku duž ordinatne ose koja odgovara 50% akumuliranih frekvencija (u našem slučaju 15), kroz nju povlačimo pravu liniju, paralelnu sa Ox osi, i iz tačke njegov presek sa kumulatom, nacrtajte okomitu na x osu. Apscisa je medijana. Me ≈ 25.9. To znači da je polovina zaposlenih u ovoj populaciji mlađa od 26 godina.

Pojmovnik statističkih pojmova

Pitanja opće statistike

ŠTA JE MEDICINSKA STATISTIKA?

Statistika je kvantitativni opis i mjerenje događaja, pojava, objekata. Podrazumijeva se kao grana praktične djelatnosti (prikupljanje, obrada i analiza podataka o masovnim pojavama), kao grana znanja, tj. poseban naučna disciplina, i, kao skup sažetaka, konačnih digitalnih indikatora prikupljenih za karakterizaciju bilo koje oblasti društvenih pojava.

Statistika je nauka koja proučava obrasce masovnih pojava koristeći metodu generalizirajućih indikatora.

Medicinska statistika – nezavisna društvene nauke, studiranje kvantitativna strana masovnih društvenih pojava neraskidivo povezan sa njihovom kvalitativnom stranom, omogućavajući metod generalizujućih indikatora proučavaju obrasce ovih pojava, najvažnijih procesa u ekonomiji, drustveni zivot društvo, njegovo zdravlje, sistem organizovanja zdravstvene zaštite stanovništva.

Statističke metode su skup tehnika za obradu materijala masovnih opservacija koje uključuju: grupisanje, sumiranje, dobijanje indikatora, njihovu statističku analizu itd.

Statističke metode u medicini koriste se za:

  1. studija stanja zdravstvo stanovništvo u cjelini i njegove glavne grupe prikupljanjem i analizom statističkih podataka o veličini i sastavu stanovništva, njegovoj reprodukciji, fizički razvoj, rasprostranjenost i trajanje raznih bolesti itd.;
  2. identifikovanje i uspostavljanje veza opšti nivo morbiditeta i mortaliteta od bilo koje pojedinačne bolesti sa različitim faktorima okruženje;
  3. prikupljanje i proučavanje brojčanih podataka o mreži zdravstvenih ustanova, njihovoj djelatnosti i kadrovima za planiranje zdravstvene djelatnosti, praćenje realizacije planova razvoja mreže i djelatnosti zdravstvenih ustanova i ocjenjivanje kvaliteta rada pojedinih zdravstvenih ustanova;
  4. ocjenjivanje djelotvornosti mjera za prevenciju i liječenje bolesti;
  5. utvrđivanje statističke značajnosti rezultata istraživanja u klinici i eksperimentu.

Sekcije medicinske statistike:

  • opšte teorijski i metodološke osnove statistika,
  • zdravstvena statistika stanovništva,
  • zdravstvena statistika.

IZRADA BAZE PODATAKA U MS EXCEL-u

Kako bi baza podataka bila pogodna za naknadnu obradu, potrebno je slijediti jednostavne principe:

1) Optimalni program za kreiranje baze podataka je MS Excel. Podaci iz Excela mogu se naknadno lako prenijeti u druge specijalizovane statističke pakete, kao što su Statistica, SPSS, itd. za složenije manipulacije. Međutim, do 80-90% proračuna može se jednostavno izvesti u samom Excelu pomoću dodatka za analizu podataka.

2) Gornji red tabele sa bazom podataka je dizajniran kao zaglavlje u koje se unose nazivi onih indikatora koji se uzimaju u obzir u ovoj koloni. Nepoželjno je koristiti spajanje ćelija (ovaj zahtjev se općenito odnosi na cijelu bazu podataka), jer će to učiniti mnoge operacije nevažećim. Također, ne biste trebali kreirati zaglavlje „dvospratno“, u kojem gornji red označava naziv grupe homogenih indikatora, a donji red označava specifične indikatore. Za grupisanje homogenih indikatora, bolje ih je označiti jednobojnom ispunom ili uključiti funkciju grupisanja u zagradama u njihov naziv.

Na primjer, ne ovako:

OPĆA ANALIZA KRVI
ER LEU TR
ER(UAC) LEU(UAC) TR(UAC)

u potonjoj verziji, osigurano je i zaglavlje „single-story“ i vizualna homogenost podataka (svi se odnose na UAC indikatore).

3) Prva kolona treba da sadrži serijski broj pacijenta u ovoj bazi podataka, bez povezivanja ni sa jednim od indikatora koji se proučavaju. To će vam omogućiti da naknadno osigurate lak povratak na prvobitni redosled pacijenata u bilo kojoj fazi, čak i nakon brojnih sortiranja liste.

4) Druga kolona se obično popunjava prezimenima (ili punim imenima) pacijenata.

5) Kvantitativni pokazatelji (oni koji se mjere brojevima, na primjer - visina, težina, krvni pritisak, otkucaji srca itd.) unose se u tabelu u numeričkom formatu. Čini se da je to već jasno, ali zapamtite da su u Excelu, počevši od verzije 2007, razlomke označene točkom: 4.5. Ako upišete broj odvojen zarezom, on će biti percipiran kao tekst, a ove kolone će se morati prepisati.

6) Teže je s kvalitativnim pokazateljima. One od njih koje imaju dvije varijante značenja (tzv. binarne vrijednosti: Da-Ne, Prisutno-Odsutno, Muško-Žensko) bolje su prevesti u binarni sistem: 0 i 1. Vrijednost 1 se obično dodjeljuje pozitivnoj vrijednosti (Da, Prisutno), 0 negativnoj vrijednosti (Ne, Odsutno).

7) Kvalitativni indikatori koji imaju nekoliko vrijednosti, koje se razlikuju po težini, stepenu pojave (Slab-Srednji-Jaki; Hladno-Toplo-Vruće) mogu se rangirati i, shodno tome, prevesti u brojeve. Najnižem nivou fenomena je dodijeljen najniži rang - 0 ili 1, sljedeći stupnjevi su označeni vrijednostima rangova po redu. Na primjer: nema bolesti - 0, blagi stepen - 1, umjeren stepen - 2, teški stepen - 3.

8) Ponekad nekoliko vrijednosti odgovara jednom pokazatelju kvaliteta. Na primjer, u koloni „Popratna dijagnoza“, ako postoji više bolesti, želimo ih označiti odvojene zarezima. To ne bi trebalo činiti, jer je obrada takvih podataka vrlo teška i ne može se automatizirati. Stoga je bolje napraviti nekoliko kolona sa određenim grupama bolesti ("bolesti kardiovaskularnog sistema", "bolesti gastrointestinalnog trakta" itd.) ili određenim nozologijama ("hronični gastritis", "IHD" itd.) , u koji unosimo podatke u binarni, binarni oblik: 1 (što znači “Ova bolest postoji”) - 0 (“Ova bolest ne postoji”).

9) Da biste razlikovali pojedinačne grupe indikatora, možete aktivno koristiti boju: na primjer, kolone s UAC indikatorima su istaknute crvenom bojom, OAM podaci žutom, itd.

10) Svaki pacijent mora odgovarati jednom redu tabele.

Ovakav dizajn baze podataka omogućava ne samo da se značajno pojednostavi proces njene statističke obrade, već i da se olakša njeno dovršavanje u fazi prikupljanja materijala.

KOJU METODU ODABRATI ZA STATISTIČKU ANALIZU?

Nakon što su svi podaci prikupljeni, svaki istraživač se suočava sa pitanjem izbora najprikladnijeg metoda statističke obrade. I to nije iznenađujuće: moderna statistika kombinira ogroman broj različitih kriterija i metoda. Svi oni imaju svoje karakteristike i mogu, ali i ne moraju biti prikladni za dvije naizgled slične situacije. U ovom članku pokušat ćemo sistematizirati sve osnovne, najčešće metode Statistička analiza prema njihovoj namjeni.

Međutim, prvo, nekoliko riječi o tome kakvi statistički podaci postoje, jer upravo to određuje izbor najpogodnije metode analize.

Mjerna skala

Prilikom provođenja studije određuju se vrijednosti svake jedinice promatranja razni znakovi. Ovisno o skali na kojoj se mjere, svi znakovi se dijele na kvantitativno I kvaliteta. Kvalitativni indikatori u studijama raspoređeni su prema tzv nominalno skala. Pored toga, indikatori se mogu prikazati prema rang skala.

Na primjer, radi se poređenje srčanih performansi kod sportista i ljudi koji vode sjedilački način života.

U ovom slučaju kod ispitanika su utvrđeni sljedeći znakovi:

  • sprat- je nominalno indikator koji ima dvije vrijednosti - mušku ili žensku.
  • Dob - kvantitativno indeks,
  • sport - nominalno indikator koji ima dva značenja: angažovan ili neuključen,
  • otkucaja srca - kvantitativno indeks,
  • sistolnog krvnog pritiska - kvantitativno indeks,
  • prisustvo pritužbi na bol u grudima- je visoka kvaliteta indikator, čije se vrijednosti mogu odrediti i jednim i drugim nominalno(pritužbi ima - nema pritužbi), a prema rang skala u zavisnosti od učestalosti (na primjer, ako se bol javlja nekoliko puta dnevno - indikatoru se dodjeljuje rang 3, nekoliko puta mjesečno - rang 2, nekoliko puta godišnje - rang 1, ako nema pritužbi na bol u grudima - rang 0 ) .

Broj upoređenih populacija

Sljedeće pitanje koje treba riješiti pri odabiru statističke metode je broj populacija koje će se porediti u okviru studije.

  • U većini slučajeva, u kliničkim ispitivanjima radimo sa dvije grupe pacijenata - osnovni I kontrolu. Basic, ili iskusan, općenito se smatra grupom u kojoj je primijenjena metoda dijagnoze ili liječenja koja se proučava, odnosno u kojoj pacijenti boluju od bolesti koja je predmet ovog istraživanja. Test grupu, nasuprot tome, čine pacijenti koji primaju uobičajenu njegu, placebo ili oni koji nemaju bolest koja se proučava. Takve populacije, predstavljene različitim pacijentima, nazivaju se nepovezano.
    Ima ih još povezane, ili dubl, agregati, kada govorimo o istim ljudima, ali se upoređuju vrijednosti neke dobijene karakteristike prije i poslije istraživanja. Broj upoređenih populacija je također jednak 2, ali se na njih primjenjuju različite tehnike nego na nepovezane.
  • Druga opcija je opisati jedan totalitet, koji, mora se priznati, uglavnom leži u osnovi svakog istraživanja. Čak i ako je glavna svrha rada poređenje dvije ili više grupa, svaka od njih mora se prvo okarakterizirati. Metode koje se koriste za ovo deskriptivna statistika. Osim toga, za jednu populaciju mogu se primijeniti metode korelacione analize , koji se koristi za pronalaženje veze između dvije ili više karakteristika koje se proučavaju (na primjer, ovisnost visine o tjelesnoj težini ili ovisnost brzine otkucaja srca o tjelesnoj temperaturi).
  • Konačno, može se porediti nekoliko populacija. Ovo je vrlo često u medicinskim istraživanjima. Pacijenti se mogu grupirati u zavisnosti od upotrebe različitih lijekova (na primjer, kada se uporedi efikasnost antihipertenzivnih lijekova: grupa 1 - ACE inhibitori, 2 - beta-blokatori, 3 - lijekovi centralnog djelovanja), prema težini bolesti ( grupa 1 - blaga, 2 - srednja, 3 - teška) itd.

Takođe je važno pitati normalnost distribucije populacije koje se proučavaju. Ovo određuje da li se metode mogu primijeniti parametarska analiza ili samo neparametarski. Uslovi koji moraju biti ispunjeni u normalno raspoređenim populacijama su:

  1. maksimalna blizina ili jednakost vrijednosti aritmetičke sredine, moda i medijana;
  2. usklađenost sa pravilom „tri sigme“ (najmanje 68,3% varijanti je u intervalu M±1σ, najmanje 95,5% varijanti je u intervalu M±2σ, najmanje 99,7% varijanti je u intervalu M±3σ;
  3. indikatori se mjere na kvantitativnoj skali;
  4. pozitivni rezultati testiranja na normalnost distribucije pomoću posebnih kriterijuma - Kolmogorov-Smirnov ili Shapiro-Wilk.

Nakon utvrđivanja svih karakteristika koje smo naveli za proučavane populacije, predlažemo korištenje sljedeće tabele za odabir najoptimalnije metode statističke analize.

Metoda Merna skala indikatora Broj upoređenih populacija Svrha obrade Distribucija podataka
Studentov t-test kvantitativno 2 normalno
Studentov t-test sa Bonferronijevom korekcijom kvantitativno 3 ili više nema poređenja povezani setovi normalno
Upareni Studentov t-test kvantitativno 2 normalno
Jednosmjerna analiza varijanse (ANOVA) kvantitativno 3 ili više poređenje nepovezanih populacija normalno
Jednosmjerna analiza varijanse (ANOVA) s ponovljenim mjerenjima kvantitativno 3 ili više poređenje srodnih populacija normalno
Mann-Whitney U test kvantitativno, rangiranje 2 poređenje nepovezanih populacija bilo koji
Rosenbaumov Q test kvantitativno, rangiranje 2 poređenje nepovezanih populacija bilo koji
Kruskal-Wallisov test kvantitativno 3 ili više poređenje nepovezanih populacija bilo koji
Wilcoxon test kvantitativno, rangiranje 2 poređenje srodnih populacija bilo koji
Test G-znaka kvantitativno, rangiranje 2 poređenje srodnih populacija bilo koji
Friedmanov kriterijum kvantitativno, rangiranje 3 ili više poređenje srodnih populacija bilo koji
Pearsonov χ2 test nominalno 2 ili više poređenje nepovezanih populacija bilo koji
Fišerov tačan test nominalno 2 poređenje nepovezanih populacija bilo koji
McNemar test nominalno 2 poređenje srodnih populacija bilo koji
Cochranov Q test nominalno 3 ili više poređenje srodnih populacija bilo koji
Relativni rizik (Risk Ratio, RR) nominalno 2 poređenje nepovezanih populacija u kohortnim studijama bilo koji
Odnos kvota (ILI) nominalno 2 poređenje nepovezanih populacija u studijama slučaj-kontrola bilo koji
Pearsonov koeficijent korelacije kvantitativno 2 reda mjerenja normalno
Spearmanov koeficijent korelacije ranga kvantitativno, rangiranje 2 reda mjerenja utvrđivanje veza između znakova bilo koji
Kendall koeficijent korelacije kvantitativno, rangiranje 2 reda mjerenja utvrđivanje veza između znakova bilo koji
Kendallov koeficijent podudarnosti kvantitativno, rangiranje 3 ili više redova mjerenja utvrđivanje veza između znakova bilo koji
Izračun prosječnih vrijednosti (M) i prosječne greške (m) kvantitativno 1 deskriptivna statistika bilo koji
Izračunavanje medijana (Me) i percentila (kvartila) rang 1 deskriptivna statistika bilo koji
Izračun relativnih vrijednosti (P) i prosječne greške (m) nominalno 1 deskriptivna statistika bilo koji
Shapiro-Wilkov test kvantitativno 1 analiza distribucije bilo koji
Kolmogorov-Smirnov kriterijum kvantitativno 1 analiza distribucije bilo koji
Smirnov-Cramer-von Misesov kriterijum ω 2 kvantitativno 1 analiza distribucije bilo koji
Kaplan-Meierova metoda bilo koji 1 analiza preživljavanja bilo koji
Cox proporcionalni model opasnosti bilo koji 1 analiza preživljavanja bilo koji

Great Statisticians

Karl Pearson (27. mart 1857. – 27. april 1936.)

Karl Pearson, veliki engleski matematičar, statističar, biolog i filozof, rođen je 27. marta 1857. godine; osnivač matematičke statistike, jedan od osnivača biometrije.

Dobivši zvanje profesora sa 27 godina primijenjena matematika Na Univerzitetskom koledžu u Londonu, Karl Pearson je počeo da proučava statistiku, koju je doživljavao kao opšte naučno sredstvo, u skladu sa njegovim nimalo opšteprihvaćenim razmišljanjima o potrebi da se studentima pruži širok pogled.

Pearsonova glavna dostignuća u oblasti statistike uključuju razvoj temelja teorije korelacije i kontingencije karakteristika, uvođenje “Pearsonovih krivulja” za opisivanje empirijskih distribucija i izuzetno važnog hi-kvadrat kriterija, kao i kompilaciju veliki broj statističkih tabela. Pirson je primijenio statističku metodu, a posebno teoriju korelacije u mnogim granama nauke.

Evo jedne od njegovih izjava: "Prvom amaterskom uvođenju modernih statističkih metoda u etabliranu nauku suprotstavlja se tipičan prezir. Ali ja sam doživio vrijeme kada su mnogi od njih počeli tajno primjenjivati ​​upravo one metode koje su u početku osuđivali."

A već 1920. godine, Pearson je napisao bilješku u kojoj je naveo da je cilj biometrijske škole „pretvoriti statistiku u granu primijenjene matematike, generalizirati, odbaciti ili opravdati oskudne metode stare škole političkih i društvenih statističara. , i generalno, transformisati statistiku sa terena za amatere i debatere u ozbiljnu granu nauke. Bilo je potrebno kritikovati nesavršene i često pogrešne metode u medicini, antropologiji, kraniometriji, psihologiji, kriminologiji, biologiji, sociologiji, u kako bi se ovim naukama obezbijedila nova i moćnija sredstva. Bitka je trajala skoro dvadeset godina, ali su se mnogi pojavili znaci da su stara neprijateljstva ostavljena i da su nove metode univerzalno prihvaćene."

Karl Pearson je imao vrlo raznolika interesovanja: studirao je fiziku u Hajdelbergu, zanimao se za društvenu i ekonomsku ulogu religije, pa čak i predavao o njemačkoj istoriji i književnosti u Kembridžu i Londonu.

Malo poznata činjenica je da je Karl Pearson sa 28 godina držao predavanja o “ženskom pitanju” i čak osnovao Klub muškaraca i žena, koji je postojao do 1889. godine, u kojem je bilo sve što je vezano za žene, uključujući i odnose među spolovima. slobodno i neograničeno raspravljalo.

Klub je činio podjednak broj muškaraca i žena, uglavnom liberala srednje klase, socijalista i feministkinja.

Predmet razgovora u klubu bio je širok spektar pitanja: od seksualnih odnosa u staroj grčkoj Atini do situacije budističkih časnih sestara, od odnosa prema braku do problema prostitucije. U suštini, Klub muškaraca i žena osporio je davno uspostavljene norme muško-ženske interakcije, kao i ideje o „pravilnoj“ seksualnosti. U Viktorijanskoj Engleskoj, gdje su seksualnost mnogi doživljavali kao „bazu“ i „životinju“, a neznanje o seksualnom obrazovanju je bilo široko rasprostranjeno, rasprava o takvim pitanjima bila je zaista radikalna.

Godine 1898., Pirsonu je Kraljevsko društvo dodijelilo Darwinovu medalju, što je on odbio, vjerujući da nagrade „treba dodijeliti mladim ljudima da ih ohrabre“.

Florence Nightingale (12. maja 1820. – 13. avgusta 1910.)

Florence Nightingale (1820-1910) - medicinska sestra i javna ličnost u Velikoj Britaniji, na čiji rođendan danas obilježavamo Međunarodni dan medicinskih sestara.

Rođena je u Firenci u bogatoj aristokratskoj porodici, stekla je odlično obrazovanje i znala je šest jezika. WITH mladost sanjala da postane sestra milosrđa, 1853. godine stekla je medicinsko obrazovanje u zajednici sestara pastora Flender u Kaiserwerthu i postala upraviteljica male privatne bolnice u Londonu.

U oktobru 1854. godine, tokom Krimski rat, Firenca, zajedno sa 38 asistenata, otišao je u terenske bolnice na Krimu. Organizirajući zbrinjavanje ranjenika, dosljedno je provodila principe sanitacije i higijene. Kao rezultat toga, za manje od šest mjeseci, smrtnost u bolnicama smanjena je sa 42 na 2,2%!

Postavivši sebi zadatak da reformiše medicinsku službu u vojsci, Nightingale je obezbedila da bolnice budu opremljene ventilacionim i kanalizacionim sistemima; bolničko osoblje je moralo da se podvrgne neophodna priprema. Organizovana je Vojnomedicinska škola, a među vojnicima i oficirima obavljen je rad na objašnjavanju važnosti prevencije bolesti.

Veliki doprinos Florence Nightingale medicinskoj statistici!

  • Njena knjiga od 800 stranica Bilješke o faktorima koji utječu na zdravlje, efikasnost i upravljanje bolnicama britanske vojske (1858.) sadržavala je cijeli odjeljak posvećen statistici i ilustrovan dijagramima.
  • Nightingale je bio inovator u korištenju grafičkih slika u statistici. Izmislila je tortne dijagrame, koje je nazvala "petlići češalj" i koristila ih da opiše strukturu smrtnosti. Mnogi njeni grafikoni uvršteni su u izvještaj Komisije za zdravstvene probleme u vojsci, što je dovelo do odluke o reformi vojne medicine.
  • Razvila je prvi obrazac za prikupljanje statistike u bolnicama, koji je prethodnik savremenih obrazaca za izvještavanje o bolničkoj djelatnosti.

Godine 1859. izabrana je za člana Kraljevskog statističkog društva, a potom je postala počasni član Američkog statističkog udruženja.

Johann Carl Friedrich Gauss (30. aprila 1777. – 23. februara 1855.)

30. aprila 1777. godine u gradu Braunšvajgu rođen je veliki nemački matematičar, mehaničar, fizičar, astronom, geometar i statističar Johan Karl Fridrih Gaus.

Smatra se jednim od najvećih matematičara svih vremena, "kraljem matematičara". Dobitnik Copleyeve medalje (1838), strani član Švedske (1821) i Ruske (1824) akademije nauka i Engleskog kraljevskog društva.

Već u dobi od tri godine, Karl je mogao čitati i pisati, čak je i ispravljao očeve računske greške. Prema legendi, školski učitelj matematike, da bi djecu zadržao duže vrijeme, zamolio ih je da prebroje zbir brojeva od 1 do 100. Mladi Gauss je primijetio da su parovi zbroji sa suprotnih krajeva isti: 1+100= 101, 2+99=101, itd itd., i odmah dobio rezultat: 50×101=5050. Do starosti je bio navikao da većinu svojih proračuna obavlja u svojoj glavi.

Glavna naučna dostignuća Carla Gausa u statistici su stvaranje metode najmanjih kvadrata, koja je u osnovi regresione analize.

Također je detaljno proučavao zakon normalne distribucije raširen u prirodi, čiji se graf od tada često nazivao Gausovim. Pravilo "tri sigma" (Gaussovo pravilo) koje opisuje normalnu distribuciju postalo je široko poznato.

Lev Semjonovič Kaminski (1889 – 1962)

Na 75. godišnjicu Pobjede u Velikoj Otadžbinski ratŽelio bih se sjetiti i pričati o divnom naučniku, jednom od osnivača vojnomedicinske i sanitarne statistike u SSSR-u - Levu Semenoviču Kaminskom (1889-1962).

Rođen je 27. maja 1889. u Kijevu. Nakon što je 1918. diplomirao sa odlikom na Medicinskom fakultetu Univerziteta u Petrogradu, Kaminski je bio u redovima Crvene armije, od aprila 1919. do kraja 1920. bio je na poziciji glavnog lekara 136. konsolidovane evakuacione bolnice Južne Istočni front.

Od 1922. godine Lev Semjonovič je bio zadužen za sanitarno-epidemiološki odjel medicinske i sanitarne službe Sjeverozapadne željeznice. Tokom ovih godina počelo je naučna djelatnost Kaminsky pod vodstvom prof. S.A.Novoselsky. U njihovom zajedničkom temeljnom djelu „Gubici u prošlim ratovima“ analiziran je statistički materijal o ljudskim gubicima u ratovima raznih vojski svijeta od 1756. do 1918. U narednim radovima, Kaminski je razvio i potkrijepio novu, precizniju klasifikaciju vojske gubici.

U monografiji “Narodna ishrana i javno zdravlje” (1929) detaljno su razmatrani sanitarno-higijenski aspekti uticaja ratova na javno zdravlje, kao i pitanja organizacije zdravstvene zaštite stanovništva i vojske tokom rata.

Od 1935. do 1943. Lev Semenovič je vodio odjel sanitarne (od 1942. - medicinske) statistike Narodnog komesarijata zdravlja SSSR-a. Oktobra 1943. godine prof. Kaminski je postao šef katedre za vojno-medicinsku statistiku na Vojnomedicinskoj akademiji po imenu. S.M. Kirov, a od 1956. godine bio je profesor na Katedri za statistiku i računovodstvo Lenjingradskog državnog univerziteta.

Lev Semjonovič se zalagao za široku implementaciju kvantitativne metode u praksu sanitarne i medicinske statistike. Godine 1959. pod njegovim autorstvom objavljena je tutorial“Statistička obrada laboratorijskih i kliničkih podataka: primjena statistike u naučnom i praktičnom radu ljekara”, koji je dugi niz godina postao jedan od najboljih domaćih udžbenika medicinske statistike. U predgovoru L.S. Kaminsky napominje:
“... Čini se važnim da liječnici znaju kako se latiti posla i znati kako prikupiti i obraditi ispravne brojeve, pogodne za poređenja i poređenja.”

Kriterijumi i metode

STUDENTSKI t-KRITERIJ ZA NEZAVISNE POPULACIJE

Studentov t-test je opšti naziv za klasu metoda za statističko testiranje hipoteza (statistički testovi) zasnovane na Studentovoj distribuciji. Najčešća upotreba t-testa uključuje testiranje jednakosti srednjih vrijednosti u dva uzorka.

Ovaj kriterijum je razvijen William Seeley Gosett

2. Za šta se koristi Studentov t-test?

Studentov t test se koristi za određivanje statističke značajnosti razlika u srednjim vrijednostima. Može se koristiti i u slučajevima poređenja nezavisnih uzoraka (na primjer, grupa pacijenata sa dijabetesom i grupa zdravih ljudi) i kada se upoređuje srodne populacije (na primjer, prosječna brzina otkucaja srca kod istih pacijenata prije i nakon uzimanja antiaritmički lek). U potonjem slučaju izračunava se upareni Studentov t-test

3. U kojim slučajevima se može koristiti Studentov t-test?

Za primenu Studentovog t-testa potrebno je da izvorni podaci imaju normalnu distribuciju. Jednakost varijansi (distribucija) upoređenih grupa (homoskedastičnost) je takođe važna. Za nejednake varijanse koristi se t-test kako ga je modificirao Welch (Welchov t).

Sa odsustvom normalna distribucija upoređeni uzorci, umjesto Studentovog t-testa, koriste se slične metode neparametarske statistike, među kojima je najpoznatija Mann-Whitney U test.

4. Kako izračunati Studentov t-test?

Za upoređivanje prosječnih vrijednosti, Studentov t-test se izračunava pomoću sljedeću formulu:

Gdje M 1- aritmetička sredina prve upoređene populacije (grupe), M 2- aritmetička sredina druge upoređene populacije (grupe), m 1- prosječna greška prve aritmetičke sredine, m 2- prosječna greška druge aritmetičke sredine.

Rezultirajuća vrijednost Studentovog t-testa mora se ispravno interpretirati. Da bismo to učinili, moramo znati broj ispitanika u svakoj grupi (n 1 i n 2). Određivanje broja stepeni slobode f prema sljedećoj formuli:

F = (n 1 + n 2) - 2

Nakon toga određujemo kritičnu vrijednost Studentovog t-testa za traženi nivo značajnosti (na primjer, p = 0,05) i za dati broj stupnjeva slobode f prema tabeli (vidi dole).

  • Ako je izračunata vrijednost Studentovog t-testa jednaka ili veća od kritične vrijednosti pronađene iz tabele, zaključujemo da su razlike između upoređenih vrijednosti statistički značajne.
  • Ako je vrijednost izračunatog Studentovog t-testa manja od vrijednosti u tabeli, onda razlike između upoređenih vrijednosti nisu statistički značajne.

Za proučavanje efikasnosti novog preparata gvožđa odabrane su dve grupe pacijenata sa anemijom. U prvoj grupi pacijenti su dvije sedmice primali novi lijek, au drugoj su primali placebo. Nakon toga je izmjeren nivo hemoglobina u perifernoj krvi. U prvoj grupi prosječni nivo hemoglobina bio je 115,4±1,2 g/l, au drugoj grupi 103,7±2,3 g/l (podaci prikazani u M±m formatu), upoređene populacije imaju normalnu distribuciju. U prvoj grupi je bilo 34, a u drugoj 40 pacijenata. Neophodno je izvući zaključak o statističkoj značajnosti dobijenih razlika i efikasnosti novog preparata gvožđa.

Rješenje: Za procjenu značajnosti razlika koristimo Studentov t-test, izračunat kao razlika srednjih vrijednosti podijeljena sa zbirom grešaka na kvadrat:

Nakon izvršenih proračuna, ispostavilo se da je vrijednost t-testa 4,51. Broj stepena slobode nalazimo kao (34 + 40) - 2 = 72. Uporedimo rezultujuću vrednost Studentovog t-testa od 4,51 sa kritičnom vrednošću pri p = 0,05 prikazanom u tabeli: 1,993. Budući da je izračunata vrijednost kriterija veća od kritične vrijednosti, zaključujemo da su uočene razlike statistički značajne (nivo značajnosti p<0,05).


t-TEST UPARENOG UČENIKA

Upareni Studentov t-test je jedna od modifikacija Studentove metode, koja se koristi za određivanje statističke značajnosti razlika u parnim (ponovljenim) mjerenjima.

1. Istorija razvoja t-testa

razvijen je t-test William Gosett za procjenu kvaliteta piva u kompaniji Guinness. Zbog obaveza prema kompaniji u pogledu neotkrivanja poslovne tajne, Gossetov članak je 1908. godine objavljen u časopisu Biometrija pod pseudonimom "Student".

2. Za šta se koristi upareni Studentov t-test?

Upareni Studentov t-test se koristi za poređenje dva zavisna (uparena) uzorka. Zavisna mjerenja su ona koja se vrše kod istih pacijenata, ali u različito vrijeme, na primjer, krvni tlak kod hipertenzivnih pacijenata prije i nakon uzimanja antihipertenzivnog lijeka. Nul hipoteza kaže da nema razlika između uzoraka koji se porede, alternativna hipoteza kaže da postoje statistički značajne razlike.

3. U kojim slučajevima možete koristiti upareni Studentov t-test?

Glavni uvjet je ovisnost uzoraka, odnosno vrijednosti koje se uspoređuju moraju se dobiti iz ponovljenih mjerenja jednog parametra kod istih pacijenata.

Kao iu slučaju poređenja nezavisnih uzoraka, da bi se koristio upareni t-test, originalni podaci moraju biti normalno raspoređeni. Ako ovaj uslov nije ispunjen, treba koristiti neparametarske statističke metode za poređenje srednjih vrijednosti uzorka, kao npr Test G-znaka ili Wilcoxon T-test.

Upareni t test se može koristiti samo kada se porede dva uzorka. Ako treba da uporedite tri ili više ponovljenih merenja, koristite jednosmjerna analiza varijanse (ANOVA) za ponovljene mjere.

4. Kako izračunati upareni Studentov t-test?

Upareni Studentov t-test se izračunava pomoću sljedeće formule:

Gdje M d- aritmetički prosjek razlika između indikatora izmjerenih prije i poslije, σ d- standardna devijacija razlika u pokazateljima, n- broj predmeta koji se proučavaju.

5. Kako protumačiti vrijednost Studentovog t-testa?

Interpretacija rezultirajuće uparene vrijednosti Studentovog t-testa ne razlikuje se od procjene t-testa za nepovezane populacije. Prije svega, morate pronaći broj stupnjeva slobode f prema sljedećoj formuli:

F = n - 1

Nakon toga određujemo kritičnu vrijednost Studentovog t-testa za traženi nivo značajnosti (na primjer, p<0,05) и при данном числе степеней свободы f prema tabeli (vidi dole).

Uspoređujemo kritične i izračunate vrijednosti kriterija:

  • Ako je izračunata vrijednost uparenog Studentovog t-testa jednaka ili veća od kritične vrijednosti pronađene iz tabele, zaključujemo da su razlike između upoređenih vrijednosti statistički značajne.
  • Ako je vrijednost izračunatog uparenog Studentovog t-testa manja od vrijednosti u tabeli, tada razlike između upoređenih vrijednosti nisu statistički značajne.

6. Primjer izračunavanja Studentovog t-testa

Kako bi se procijenila efikasnost novog hipoglikemijskog sredstva, mjereni su nivoi glukoze u krvi kod pacijenata sa dijabetes melitusom prije i nakon uzimanja lijeka. Kao rezultat, dobijeni su sljedeći podaci:

Rješenje:

1. Izračunajte razliku svakog para vrijednosti (d):

Pacijent N Nivo glukoze u krvi, mmol/l razlika (d)
prije uzimanja lijeka nakon uzimanja lijeka
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Pronađite aritmetičku sredinu razlika koristeći formulu:

3. Pronađite standardnu ​​devijaciju razlika od prosjeka koristeći formulu:

4. Izračunajte upareni Studentov t-test:

5. Uporedimo dobijenu vrednost Studentovog t-testa 8.6 sa tabelarnom vrednošću, koja uz broj stepena slobode f od 10 - 1 = 9 i nivo značajnosti p = 0,05 iznosi 2,262. Budući da je dobijena vrijednost veća od kritične, zaključujemo da postoje statistički značajne razlike u razinama glukoze u krvi prije i nakon uzimanja novog lijeka.

Prikaži tabelu kritičnih vrednosti Studentovog t-testa

MANN-WHITNEY U-KRITERIJ

Mann-Whitney U test je neparametarski statistički test koji se koristi za poređenje dva nezavisna uzorka u smislu nivoa kvantitativno mjerene osobine. Metoda se zasniva na utvrđivanju da li je zona ukrštanja vrijednosti između dva varijantna niza (rangirana serija vrijednosti parametara u prvom uzorku i ista u drugom uzorku) dovoljno mala. Što je niža vrijednost kriterija, vjerojatnije je da su razlike između vrijednosti parametara u uzorcima pouzdane.

1. Istorijat razvoja U-kriterijuma

Ovu metodu identifikacije razlika između uzoraka predložio je 1945. godine američki hemičar i statističar. Frank Wilcoxon.
Godine 1947. matematičari su ga značajno revidirali i proširili H.B. Mann(H.B. Mann) i D.R. Whitney(D.R. Whitney), po čijim se imenima danas obično naziva.

2. Za šta se koristi Mann-Whitney U test?

Mann-Whitney U test se koristi za procjenu razlika između dva nezavisna uzorka u smislu nivoa bilo koje kvantitativne karakteristike.

3. U kojim slučajevima se može koristiti Mann-Whitney U test?

Mann-Whitney U test je neparametarski test, dakle, za razliku od Studentov t-test

U-test je pogodan za poređenje malih uzoraka: svaki uzorak mora imati najmanje 3 karakteristične vrijednosti. Dozvoljeno je da u jednom uzorku postoje 2 vrijednosti, ali onda drugi mora imati najmanje pet.

Uvjet za primjenu Mann-Whitney U testa je nepostojanje odgovarajućih vrijednosti atributa u upoređenim grupama (svi brojevi su različiti) ili vrlo mali broj takvih podudaranja.

Analog Mann-Whitney U testa za poređenje tri ili više grupa je Kruskal-Wallisov test.

4. Kako izračunati Mann-Whitney U test?

Prvo, iz oba upoređena uzorka, a jednorangirana serija, raspoređivanjem jedinica posmatranja prema stepenu povećanja atributa i dodeljivanjem nižeg ranga manjoj vrednosti. U slučaju jednakih vrijednosti karakteristike za nekoliko jedinica, svakoj od njih se dodjeljuje aritmetička sredina uzastopnih vrijednosti ranga.

Na primjer, dvije jedinice koje zauzimaju 2. i 3. mjesto (rang) u jednom rangiranom redu imaju iste vrijednosti. Dakle, svakom od njih je dodijeljen rang jednak (3 + 2) / 2 = 2,5.

U sastavljenoj pojedinačno rangiranoj seriji, ukupan broj rangova će biti jednak:

N = n 1 + n 2

gdje je n 1 broj elemenata u prvom uzorku, a n 2 broj elemenata u drugom uzorku.

Zatim ponovo dijelimo pojedinačnu rangiranu seriju na dvije, koje se sastoje od jedinica prvog i drugog uzorka, a pamtimo vrijednosti ranga za svaku jedinicu. Odvojeno izračunavamo zbir rangova koji padaju na udio elemenata prvog uzorka, a posebno - na udio elemenata drugog uzorka. Određujemo veći od dva zbroja ranga (T x) koji odgovara uzorku sa n x elemenata.

Konačno, nalazimo vrijednost Mann-Whitney U testa koristeći formulu:

5. Kako protumačiti vrijednost Mann-Whitney U testa?

Upoređujemo rezultujuću vrijednost U-testa koristeći tabelu za odabrani nivo statističke značajnosti (p=0,05 ili p=0,01) sa kritičnom vrijednošću U za dati broj upoređenih uzoraka:

  • Ako je rezultirajuća vrijednost U manje tabelarni ili jednaki nego, tada se prepoznaje statistička značajnost razlika između nivoa osobine u uzorcima koji se razmatraju (prihvaćena je alternativna hipoteza). Što je manja vrijednost U, veća je pouzdanost razlika.
  • Ako je rezultirajuća vrijednost U više tabelarno, prihvata se nulta hipoteza.
Prikažite tabelu kritičnih vrijednosti Mann-Whitney U testa na p=0,05

WILCOxon CRITERION

Wilcoxon test za srodne uzorke (takođe nazvan Wilcoxon T-test, Wilcoxon test, Wilcoxon signed rank test, Wilcoxon rank sum test) je neparametarski statistički test koji se koristi za poređenje dva povezana (uparena) uzorka u smislu nivoa bilo koje izmjerene kvantitativne karakteristike na kontinuiranoj ili rednoj skali.

Suština metode je da se uspoređuju apsolutne vrijednosti težine pomaka u jednom ili drugom smjeru. Da biste to učinili, prvo se rangiraju sve apsolutne vrijednosti pomaka, a zatim se rangovi zbrajaju. Ako se pomaci u jednom ili drugom smjeru događaju nasumično, tada će zbroji njihovih rangova biti približno jednaki. Ako je intenzitet pomaka u jednom smjeru veći, tada će zbir rangova apsolutnih vrijednosti pomaka u suprotnom smjeru biti znatno niži nego što bi mogao biti sa slučajnim promjenama.

1. Istorija razvoja Wilcoxon testa za srodne uzorke

Test je prvi predložio američki statističar i hemičar Frank Wilcoxon (1892-1965) 1945. godine. U istom naučnom radu autor je opisao još jedan kriterijum koji se koristi u slučaju poređenja nezavisnih uzoraka.

2. Za šta se koristi Wilcoxon test?

Wilcoxon T test se koristi za procjenu razlika između dva seta mjerenja uzetih na istoj populaciji, ali pod različitim uvjetima ili u različito vrijeme. Ovaj test može otkriti smjer i ozbiljnost promjena – odnosno da li su indikatori više pomaknuti u jednom smjeru nego u drugom.

Klasičan primjer situacije u kojoj se Wilcoxonov T-test za srodne populacije može koristiti je studija prije i poslije koja uspoređuje rezultate prije i poslije liječenja. Na primjer, kada se proučava efikasnost antihipertenzivnog lijeka, krvni tlak se upoređuje prije i nakon uzimanja lijeka.

3. Uslovi i ograničenja upotrebe Wilcoxon T-testa

  1. Wilcoxon test je neparametarski test, dakle, za razliku od upareni Studentov t-test, ne zahtijeva normalnu distribuciju populacija koje se porede.
  2. Broj ispitanika kada se koristi Wilcoxon T-test mora biti najmanje 5.
  3. Ispitivano svojstvo se može mjeriti kako na kvantitativnoj kontinuiranoj skali (krvni pritisak, broj otkucaja srca, sadržaj leukocita u 1 ml krvi) tako i na ordinalnoj skali (broj bodova, težina bolesti, stepen kontaminacije mikroorganizmima).
  4. Ovaj kriterijum se koristi samo kada se porede dve serije merenja. Analog Wilcoxonovog T-testa za poređenje tri ili više srodnih populacija je Friedmanov kriterijum.

4. Kako izračunati Wilcoxon T-test za povezane uzorke?

  1. Izračunajte razliku između vrijednosti uparenih mjerenja za svaki predmet. Nulti pomaci se dalje ne uzimaju u obzir.
  2. Odredite koje su razlike tipične, odnosno odgovaraju smjeru promjene indikatora koji je dominantan po učestalosti.
  3. Poredajte razlike parova prema njihovim apsolutnim vrijednostima (tj. bez uzimanja u obzir predznaka), uzlaznim redoslijedom. Manjoj apsolutnoj vrijednosti razlike dodjeljuje se niži rang.
  4. Izračunajte zbir rangova koji odgovaraju atipičnim pomacima.

Dakle, Wilcoxonov T-test za povezane uzorke se izračunava pomoću sljedeće formule:

gdje je ΣRr zbir rangova koji odgovaraju atipičnim promjenama indikatora.

5. Kako protumačiti vrijednost Wilcoxon testa?

Rezultirajuća vrijednost Wilcoxon T-testa se upoređuje sa kritičnom vrijednošću prema tabeli za odabrani nivo statističke značajnosti ( p=0,05 ili p=0,01) za dati broj upoređenih uzoraka n:

  • Ako je izračunata (empirijska) vrijednost T em. manji od tabelarnog T cr. ili jednaka, tada se prepoznaje statistička značajnost promjena indikatora u tipičnom smjeru (prihvaća se alternativna hipoteza). Što je niža T vrijednost, veća je pouzdanost razlika.
  • Ako je T emp. više T cr. , prihvata se nulta hipoteza o odsustvu statističke značajnosti promjena indikatora.

Primjer izračunavanja Wilcoxonovog testa za povezane uzorke

Farmaceutska kompanija istražuje novi lijek iz grupe nesteroidnih protuupalnih lijekova. U tu svrhu odabrana je grupa od 10 dobrovoljaca oboljelih od ARVI sa hipertermijom. Izmjerena im je tjelesna temperatura prije i 30 minuta nakon uzimanja novog lijeka. Neophodno je izvući zaključak o značaju smanjenja tjelesne temperature kao rezultat uzimanja lijeka.

  1. Izvorni podaci prikazani su u sljedećoj tabeli:
  2. Da bismo izračunali Wilcoxon T-test, izračunavamo razlike između uparenih indikatora i rangiramo njihove apsolutne vrijednosti. U ovom slučaju crvenom bojom ističemo netipične rangove:
    N Prezime tijelo t prije uzimanja lijeka t tijelo nakon uzimanja lijeka Razlika indikatora, d |d| Rang
    1. Ivanov 39.0 37.6 -1.4 1.4 7
    2. Petrov 39.5 38.7 -0.8 0.8 5
    3. Sidorov 38.6 38.7 0.1 0.1 1.5
    4. Popov 39.1 38.5 -0.6 0.6 4
    5. Nikolaev 40.1 38.6 -1.5 1.5 8
    6. Kozlov 39.3 37.5 -1.8 1.8 9
    7. Ignatiev 38.9 38.8 -0.1 0.1 1.5
    8. Semenov 39.2 38.0 -1.2 1.2 6
    9. Egorov 39.8 39.8 0
    10. Aleksejev 38.8 39.3 0.5 0.5 3
    kao što vidimo, tipična smena indikator je njegovo smanjenje, uočeno u 7 slučajeva od 10. U jednom slučaju (kod pacijenta Egorov) temperatura se nije promijenila nakon uzimanja lijeka, te stoga ovaj slučaj nije korišten u daljoj analizi. U dva slučaja (kod pacijenata Sidorov i Alekseev) je zabeleženo atipičan pomak temperature naviše. Rangovi koji odgovaraju atipičnom pomaku su 1,5 i 3.
  3. Izračunajmo Wilcoxonov T-test, koji je jednak zbroju rangova koji odgovaraju atipičnom pomaku indikatora:

    T = ΣRr = 3 + 1,5 = 4,5

  4. Uporedimo T emp. sa T cr. , što je na nivou značajnosti p=0,05 i n=9 jednako 8. Dakle, T emp.
  5. Zaključujemo: smanjenje tjelesne temperature kod pacijenata s ARVI kao rezultat uzimanja novog lijeka je statistički značajno (p<0.05).
Prikaži tabelu kritičnih vrijednosti Wilcoxon-ovog T-testa

PEARSON HI-KVADRAT KRITERIJ

Pearsonov χ 2 test je neparametarska metoda koja nam omogućava da procijenimo značaj razlika između stvarnog (otkrivenog) broja ishoda ili kvalitativnih karakteristika uzorka koji spadaju u svaku kategoriju i teoretskog broja koji bi se očekivao u ispitivanim grupama ako bi nulta hipoteza je tačna. Pojednostavljeno rečeno, metoda vam omogućava da procenite statističku značajnost razlika između dva ili više relativnih indikatora (učestalosti, proporcije).

1. Istorijat razvoja χ 2 kriterijuma

Hi-kvadrat test za analizu kontingentnih tabela razvio je i predložio 1900. godine engleski matematičar, statističar, biolog i filozof, osnivač matematičke statistike i jedan od osnivača biometrije. Karl Pearson(1857-1936).

2. Zašto se koristi Pearsonov χ 2 test?

U analizi se može koristiti hi-kvadrat test tabele za nepredviđene situacije koji sadrži informacije o učestalosti ishoda u zavisnosti od prisustva faktora rizika. Na primjer, tabela nepredviđenih situacija sa četiri polja izgleda ovako:

Postoji ishod (1) Nema ishoda (0) Ukupno
Postoji faktor rizika (1) A B A+B
Bez faktora rizika (0) C D C+D
Ukupno A+C B+D A+B+C+D

Kako popuniti takvu tabelu nepredviđenih situacija? Pogledajmo mali primjer.

Provodi se istraživanje o utjecaju pušenja na rizik od razvoja arterijske hipertenzije. U tu svrhu odabrane su dvije grupe ispitanika - prva je uključivala 70 osoba koje puše najmanje 1 kutiju cigareta dnevno, druga je obuhvatila 80 nepušača iste dobi. U prvoj grupi 40 osoba imalo je visok krvni pritisak. U drugom, arterijska hipertenzija je uočena kod 32 osobe. Shodno tome, normalan krvni pritisak u grupi pušača bio je kod 30 osoba (70 - 40 = 30), a u grupi nepušača - kod 48 (80 - 32 = 48).

Popunjavamo tabelu kontingentnosti sa četiri polja sa početnim podacima:

U rezultujućoj tabeli kontingencije, svaki red odgovara određenoj grupi subjekata. Kolone pokazuju broj osoba s arterijskom hipertenzijom ili normalnim krvnim tlakom.

Zadatak koji se postavlja pred istraživača je: postoje li statistički značajne razlike između učestalosti osoba sa krvnim pritiskom među pušačima i nepušačima? Na ovo pitanje se može odgovoriti izračunavanjem Pearsonovog hi-kvadrat testa i poređenjem rezultirajuće vrijednosti sa kritičnom.

  1. Uporedive indikatore treba mjeriti na nominalnoj skali (na primjer, spol pacijenta je muški ili ženski) ili na ordinalnoj skali (na primjer, stepen arterijske hipertenzije, u rasponu od 0 do 3).
  2. Ova metoda vam omogućava da analizirate ne samo tabele sa četiri polja, kada su i faktor i rezultat binarne varijable, odnosno imaju samo dvije moguće vrijednosti (na primjer, muški ili ženski spol, prisustvo ili odsustvo određena bolest u anamnezi...). Pirsonov hi-kvadrat test se takođe može koristiti u slučaju analize tabela sa više polja, kada faktor i (ili) ishod imaju tri ili više vrednosti.
  3. Grupe koje se porede moraju biti nezavisne, to jest, hi-kvadrat test ne treba da se koristi kada se porede posmatranja pre i posle. McNemar test(kada se porede dvije povezane populacije) ili izračunati Cochranov Q test(u slučaju poređenja tri ili više grupa).
  4. Prilikom analize tabela sa četiri polja očekivane vrijednosti u svakoj ćeliji mora biti najmanje 10. Ako u barem jednoj ćeliji očekivani fenomen ima vrijednost od 5 do 9, mora se izračunati hi-kvadrat test sa Yatesovim amandmanom. Ako je u barem jednoj ćeliji očekivana pojava manja od 5, tada treba koristiti analizu Fišerov tačan test.
  5. Prilikom analize tabela sa više polja, očekivani broj opservacija ne bi trebao biti manji od 5 u više od 20% ćelija.

4. Kako izračunati Pearsonov hi-kvadrat test?

Za izračunavanje hi-kvadrat testa potrebno vam je:

Ovaj algoritam je primenljiv i za tabele sa četiri polja i sa više polja.

5. Kako protumačiti vrijednost Pearsonovog hi-kvadrat testa?

Ako je dobijena vrijednost kriterija χ 2 veća od kritične vrijednosti, zaključujemo da postoji statistička veza između proučavanog faktora rizika i ishoda na odgovarajućem nivou značajnosti.

6. Primjer izračunavanja Pearsonovog hi-kvadrat testa

Odredimo statističku značajnost uticaja faktora pušenja na pojavu arterijske hipertenzije koristeći gornju tabelu:

  1. Izračunavamo očekivane vrijednosti za svaku ćeliju:
  2. Pronađite vrijednost Pearsonovog hi-kvadrat testa:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Broj stepeni slobode f = (2-1)*(2-1) = 1. Koristeći tabelu, nalazimo kritičnu vrijednost Pirsonovog hi-kvadrat testa, koji na nivou značajnosti p=0,05 i broj stepena slobode 1 je 3,841.
  4. Dobivenu vrijednost hi-kvadrat testa upoređujemo sa kritičnom: 4,396 > 3,841, pa je ovisnost incidencije arterijske hipertenzije od prisustva pušenja statistički značajna. Nivo značajnosti ovog odnosa odgovara str<0.05.
Prikaži tabelu kritičnih vrijednosti Pearsonovog hi-kvadrat testa

FIŠEROV TAČAN KRITERIJ

Fisherov egzaktni test je test koji se koristi za poređenje dva relativna indikatora koji karakteriziraju učestalost određene karakteristike koja ima dvije vrijednosti. Početni podaci za izračunavanje Fišerovog egzaktnog testa obično se grupišu u obliku tabele sa četiri polja.

1. Istorijat razvoja kriterija

Kriterijum je prvi predložen Ronald Fisher u svojoj knjizi Dizajn eksperimenata. To se dogodilo 1935. godine. Sam Fischer je tvrdio da ga je Muriel Bristol navela na ovu ideju. Početkom 1920-ih, Ronald, Muriel i William Roach bili su stacionirani u Engleskoj u poljoprivrednoj eksperimentalnoj stanici. Mjurijel je tvrdila da može da odredi redosled kojim su joj čaj i mleko sipani u šolju. U to vrijeme nije bilo moguće provjeriti tačnost njene izjave.

To je dovelo do Fišerove ideje o „nultoj hipotezi“. Cilj nije bio dokazati da Muriel može razlikovati različite šoljice čaja. Odlučeno je da se pobije hipoteza da žena bira nasumce. Utvrđeno je da se nulta hipoteza ne može dokazati niti opravdati. Ali to se može opovrgnuti tokom eksperimenata.

Pripremljeno je 8 šoljica. Prve četiri se prvo napune mlijekom, a ostale četiri čajem. Šolje su bile pomešane. Bristol je ponudio da probaju čaj i podijele šolje prema načinu pripreme čaja. Rezultat je trebao biti dvije grupe. Istorija kaže da je eksperiment bio uspješan.

Zahvaljujući Fišerovom testu, verovatnoća da je Bristol delovao intuitivno smanjena je na 0,01428. Odnosno, bilo je moguće ispravno identificirati čašu u jednom slučaju od 70. Ali ipak, ne postoji način da se šanse koje gospođa slučajno odredi na nulu. Čak i ako povećate broj šoljica.

Ova priča je dala podsticaj razvoju „nulte hipoteze“. Istovremeno je predložen Fisherov tačan kriterij, čija je suština nabrajanje svih mogućih kombinacija zavisnih i nezavisnih varijabli.

2. Za šta se koristi Fisherov tačan test?

Fisherov egzaktni test se uglavnom koristi za poređenje malih uzoraka. Dva su dobra razloga za to. Prvo, izračunavanje kriterija je prilično glomazno i ​​može potrajati dugo ili zahtijevati moćne računarske resurse. Drugo, kriterij je prilično tačan (što se odražava čak i u njegovom nazivu), što mu omogućava da se koristi u studijama s malim brojem zapažanja.

Posebno mjesto zauzima Fisherov egzaktni test u medicini. Ovo je važna metoda za obradu medicinskih podataka i našla je svoju primjenu u mnogim naučnim studijama. Zahvaljujući njemu moguće je proučavati odnos između pojedinih faktora i ishoda, upoređivati ​​učestalost patoloških stanja između dvije grupe ispitanika itd.

3. U kojim slučajevima se može koristiti Fisherov egzaktni test?

  1. Varijable koje se porede treba da se mere na nominalnoj skali i imaju samo dve vrednosti, na primer, krvni pritisak je normalan ili povišen, ishod je povoljan ili nepovoljan, postoje postoperativne komplikacije ili ne.
  2. Fisherov egzaktni test je dizajniran da uporedi dvije nezavisne grupe podijeljene po faktorima. Prema tome, faktor bi također trebao imati samo dvije moguće vrijednosti.
  3. Kriterij je prikladan za poređenje vrlo malih uzoraka: Fisherov egzaktni test može se koristiti za analizu četiri potpune tablice u slučaju vrijednosti očekivane pojave manje od 5, što je ograničenje za primjenu Pearsonov hi-kvadrat test, čak i uzimajući u obzir Yatesov amandman.
  4. Fisherov egzaktni test može biti jednostrani ili dvostrani. Kod jednostrane opcije, tačno se zna gdje će jedan od indikatora odstupiti. Na primjer, studija uspoređuje koliko se pacijenata oporavilo u odnosu na kontrolnu grupu. Pretpostavlja se da terapija ne može pogoršati stanje pacijenata, već ga samo izliječiti ili ne.
    Dvostrani test procjenjuje frekvencijske razlike u dva smjera. Odnosno, procjenjuje se vjerovatnoća i veće i manje učestalosti pojave u eksperimentalnoj grupi u odnosu na kontrolnu grupu.

Analog Fisherovog egzaktnog testa je Pearsonov hi-kvadrat test, dok Fisherov egzaktni test ima veću snagu, posebno kada se porede mali uzorci, te stoga ima prednost u ovom slučaju.

4. Kako izračunati Fisherov tačan test?

Recimo da proučavamo zavisnost učestalosti rađanja djece sa urođenim malformacijama (KDD) od pušenja kod majke tokom trudnoće. Za to su odabrane dvije grupe trudnica, od kojih je jedna bila eksperimentalna, koju je činilo 80 žena koje su pušile u prvom tromjesečju trudnoće, a druga je bila uporedna grupa, uključujući 90 žena koje vode zdrav način života tokom cijele trudnoće. Broj slučajeva kongenitalne malformacije fetusa u eksperimentalnoj grupi bio je 10, u grupi za poređenje - 2.

Prvo, kreiramo tabelu nepredviđenih situacija sa četiri polja:

Fisherov tačan test se izračunava pomoću sljedeće formule:

gdje je N ukupan broj subjekata u dvije grupe; ! - faktorijel, koji je proizvod broja i niza brojeva, od kojih je svaki manji od prethodnog za 1 (na primjer, 4! = 4 3 2 1)

Kao rezultat proračuna, nalazimo da je P = 0,0137.

5. Kako protumačiti vrijednost Fisherovog egzaktnog testa?

Prednost metode je što rezultujući kriterijum odgovara tačnoj vrednosti nivoa značajnosti p. Odnosno, vrijednost 0,0137 dobijena u našem primjeru je nivo značajnosti razlika između upoređenih grupa u učestalosti razvoja kongenitalnih malformacija fetusa. Potrebno je samo uporediti ovaj broj sa kritičnim nivoom značaja koji se u medicinskim istraživanjima obično uzima kao 0,05.

  • Ako je vrijednost Fisherovog egzaktnog testa veća od kritične vrijednosti, prihvata se nulta hipoteza i zaključuje se da nema statistički značajnih razlika u učestalosti ishoda u zavisnosti od prisustva faktora rizika.
  • Ako je vrijednost Fisherovog egzaktnog testa manja od kritične vrijednosti, prihvata se alternativna hipoteza i zaključuje se da postoje statistički značajne razlike u učestalosti ishoda u zavisnosti od izloženosti faktoru rizika.

U našem primjeru P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


ODDS RATIO

Odds ratio je statistički pokazatelj (na ruskom se njegov naziv obično skraćuje kao OR, a na engleskom - OR od "odds ratio"), jedan od glavnih načina da se numerički opiše koliko je odsustvo ili prisustvo određenog ishoda vezano za prisustvo ili odsustvo određenog faktora u određenoj statističkoj grupi.

1. Istorijat razvoja indikatora omjera šansi

Izraz “šansa” dolazi iz teorije kockanja, gdje se ovaj koncept koristio za označavanje omjera dobitnih i izgubljenih pozicija. U naučnoj medicinskoj literaturi indikator omjera šansi se prvi put spominje 1951. godine u radu J. Kornfielda. Nakon toga, ovaj istraživač je objavio radove koji su ukazali na potrebu izračunavanja intervala povjerenja od 95% za omjer šanse. (Cornfield, J. Metoda za procjenu komparativnih stopa iz kliničkih podataka. Primjena na rak pluća, dojke i grlića maternice // Journal of the National Cancer Institute, 1951. - N.11. - P.1269–1275.)

2. Za šta se koristi omjer šanse?

Odnos šanse procjenjuje povezanost između određenog ishoda i faktora rizika.

Odnos šanse vam omogućava da uporedite studijske grupe prema učestalosti otkrivanja određenog faktora rizika. Važno je da rezultat primjene omjera izgleda nije samo utvrđivanje statističke značajnosti odnosa između faktora i ishoda, već i njegova kvantitativna procjena.

3. Uvjeti i ograničenja za korištenje omjera kvota

  1. Pokazatelji ishoda i faktora moraju se mjeriti na nominalnoj skali. Na primjer, efektivni znak je prisustvo ili odsustvo kongenitalne malformacije kod fetusa, proučavani faktor je pušenje majke (puši ili ne puši).
  2. Ova metoda omogućava analizu samo tabela sa četiri polja, kada su i faktor i ishod binarne varijable, odnosno imaju samo dvije moguće vrijednosti (na primjer, spol - muški ili ženski, arterijska hipertenzija - prisutnost ili odsustvo, ishod bolesti - sa ili bez poboljšanja...).
  3. Grupe koje se uspoređuju moraju biti nezavisne, odnosno omjer izgleda nije prikladan za poređenja prije i poslije.
  4. Pokazatelj omjera izgleda koristi se u studijama slučaj-kontrola (na primjer, prva grupa su pacijenti sa hipertenzijom, druga su relativno zdravi ljudi). Za prospektivne studije, kada se grupe formiraju na osnovu prisustva ili odsustva faktora rizika (na primjer, prva grupa su pušači, druga grupa su nepušači), također se može izračunati relativni rizik.

4. Kako izračunati omjer šanse?

Odnos šanse je vrijednost razlomka u kojem brojnik sadrži šanse određenog događaja za prvu grupu, a nazivnik sadrži šanse za isti događaj za drugu grupu.

Šansa je omjer broja ispitanika koji imaju određenu karakteristiku (ishod ili faktor) prema broju ispitanika koji nemaju ovu karakteristiku.

Na primjer, odabrana je grupa pacijenata operiranih od pankreasne nekroze, čiji je broj bio 100 osoba. Nakon 5 godina, njih 80 je još uvijek bilo živo. Shodno tome, šansa za preživljavanje bila je 80 prema 20, odnosno 4.

Pogodan način je da izračunate omjer šanse sumiranjem podataka u tablicu 2x2:

Postoji ishod (1) Nema ishoda (0) Ukupno
Postoji faktor rizika (1) A B A+B
Bez faktora rizika (0) C D C+D
Ukupno A+C B+D A+B+C+D

Za ovu tabelu, omjer šanse se izračunava pomoću sljedeće formule:

Veoma je važno procijeniti statističku značajnost identificirane povezanosti između ishoda i faktora rizika. To je zbog činjenice da čak i uz niske vrijednosti omjera šansi, blizu jedinice, odnos se ipak može pokazati značajnim i treba ga uzeti u obzir u statističkim zaključcima. Suprotno tome, kod velikih vrijednosti OR indikator se ispostavlja kao statistički beznačajan, te se stoga identificirani odnos može zanemariti.

Da bi se procijenila značajnost omjera šansi, izračunavaju se granice intervala pouzdanosti od 95% (koristi se skraćenica 95% CI ili 95% CI od engleskog "interval pouzdanosti"). Formula za pronalaženje gornje granične vrijednosti od 95% CI:

Formula za pronalaženje vrijednosti donje granice od 95% CI:

5. Kako protumačiti vrijednost omjera šanse?

  • Ako je omjer šanse veći od 1, to znači da su šanse za pronalaženje faktora rizika veće u grupi s prisutnim ishodom. One. faktor ima direktnu vezu sa vjerovatnoćom da će se ishod dogoditi.
  • Odnos šanse manji od 1 ukazuje da su šanse za otkrivanje faktora rizika veće u drugoj grupi. One. faktor ima inverznu vezu sa vjerovatnoćom da će se ishod dogoditi.
  • Sa omjerom šanse jednakim jedan, šanse za otkrivanje faktora rizika u upoređenim grupama su iste. Shodno tome, faktor nema nikakav uticaj na vjerovatnoću ishoda.

Dodatno, u svakom slučaju, statistička značajnost omjera šansi se nužno procjenjuje na osnovu vrijednosti intervala pouzdanosti od 95%.

  • Ako interval pouzdanosti ne uključuje 1, tj. obje vrijednosti granica su ili veće ili niže od 1, izvodi se zaključak o statističkoj značajnosti identificiranog odnosa između faktora i ishoda na nivou značajnosti p<0,05.
  • Ako interval pouzdanosti uključuje 1, tj. njegova gornja granica veća od 1, a donja manja od 1, zaključuje se da ne postoji statistička značajnost odnosa između faktora i ishoda na nivou značajnosti p>0,05.
  • Veličina intervala povjerenja je obrnuto proporcionalna nivou značajnosti odnosa između faktora i ishoda, tj. što je manji CI od 95%, to je identifikovani odnos značajniji.

6. Primjer izračunavanja indikatora omjera šanse

Zamislimo dvije grupe: prvu je činilo 200 žena kojima je dijagnosticirana urođena malformacija fetusa (Exodus+). Od toga, 50 osoba je pušilo tokom trudnoće (Faktor+) (A), bili su nepušači (Faktor-) - 150 osoba (SA).

Drugu grupu činilo je 100 žena bez znakova kongenitalne malformacije fetusa (Ishod -) od kojih je 10 osoba pušilo tokom trudnoće (Faktor+) (B), nije pušio (Faktor-) - 90 ljudi (D).

1. Kreirajmo kontingentnu tabelu sa četiri polja:

2. Izračunajte vrijednost omjera šansi:

ILI = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Pronađite granice 95% CI. Vrijednost donje granice izračunate po gornjoj formuli bila je 1,45, a gornja granica 6,21.

Tako je studija pokazala da su šanse da se sretne žena pušačica među pacijentima s dijagnostikovanim urođenim malformacijama fetusa 3 puta veće nego među ženama bez znakova kongenitalne malformacije fetusa. Uočena ovisnost je statistički značajna, budući da 95% CI ne uključuje 1, vrijednosti njegove donje i gornje granice su veće od 1.


RELATIVNI RIZIK

Rizik je vjerovatnoća da će se dogoditi određeni ishod, kao što je bolest ili povreda. Rizik može imati vrijednosti od 0 (nema vjerovatnoće da će se ishod dogoditi) do 1 (nepovoljan ishod se očekuje u svim slučajevima). U medicinskoj statistici, po pravilu, proučavaju se promjene u riziku ishoda u zavisnosti od nekog faktora. Pacijenti su uslovno podijeljeni u 2 grupe, od kojih je jedna pod utjecajem faktora, a druga ne.

Relativni rizik je omjer učestalosti ishoda među subjektima na koje je faktor koji se proučavao utjecao i učestalosti ishoda među subjektima na koje ovaj faktor nije utjecao. U naučnoj literaturi se često koristi skraćeni naziv indikatora - RR ili RR (od engleskog "relativni rizik").

1. Istorija razvoja indikatora relativnog rizika

Izračun relativnog rizika je pozajmljen medicinskom statistikom iz ekonomije. Ispravna procjena uticaja političkih, ekonomskih i društvenih faktora na potražnju za proizvodom ili uslugom može dovesti do uspjeha, a potcjenjivanje ovih faktora može dovesti do finansijskog propasti i bankrota preduzeća.

2. Za šta se koristi relativni rizik?

Relativni rizik se koristi za poređenje vjerovatnoće ishoda u zavisnosti od prisustva faktora rizika. Na primjer, prilikom procjene utjecaja pušenja na incidenciju hipertenzije, prilikom proučavanja ovisnosti incidencije karcinoma dojke od upotrebe oralnih kontraceptiva itd. Relativni rizik je najvažniji pokazatelj u propisivanju određenih metoda liječenja ili provođenju studija sa moguće nuspojave.

3. Uslovi i ograničenja za primenu relativnog rizika

  1. Indikatore faktora i ishoda treba mjeriti na nominalnoj skali (na primjer, spol pacijenta - muški ili ženski, arterijska hipertenzija - prisutna ili ne).
  2. Ova metoda omogućava analizu samo tabela sa četiri polja, kada su i faktor i ishod inarne varijable, odnosno imaju samo dvije moguće vrijednosti (na primjer, starost mlađa ili starija od 50 godina, prisutnost ili odsustvo određene bolesti u anamnezi).
  3. Relativni rizik se koristi u prospektivnim studijama, kada se studijske grupe formiraju na osnovu prisustva ili odsustva faktora rizika. U studijama slučaj-kontrola, relativni rizik treba koristiti umjesto omjeri izgleda.

4. Kako izračunati relativni rizik?

Za izračunavanje relativnog rizika potrebno je:

5. Kako tumačiti relativnu vrijednost rizika?

Pokazatelj relativnog rizika uspoređuje se sa 1 kako bi se utvrdila priroda odnosa između faktora i ishoda:

  • Ako je RR jednak 1, možemo zaključiti da faktor koji se proučava ne utiče na vjerovatnoću ishoda (nema veze između faktora i ishoda).
  • Za vrijednosti veće od 1, zaključuje se da faktor povećava učestalost ishoda (direktna veza).
  • Za vrijednosti manje od 1, to ukazuje na smanjenje vjerovatnoće ishoda kada je izložen faktoru ( Povratne informacije).

Vrijednosti granica intervala pouzdanosti od 95% također se nužno procjenjuju. Ako su obje vrijednosti - i donja i gornja granica - na istoj strani od 1, ili, drugim riječima, interval povjerenja ne uključuje 1, tada se izvodi zaključak o statističkoj značajnosti identificirane veze između faktor i ishod sa vjerovatnoćom greške p<0,05.

Ako je donja granica 95% CI manja od 1, a gornja veća, onda se zaključuje da nema statističke značajnosti uticaja faktora na učestalost ishoda, bez obzira na vrijednost RR (p>0,05).

6. Primjer izračunavanja pokazatelja relativnog rizika

Godine 1999. u Oklahomi je sprovedeno istraživanje o učestalosti čira na želucu kod muškaraca. Kao faktor uticaja izabrana je redovna konzumacija brze hrane. U prvoj grupi bilo je 500 muškaraca koji su stalno jeli brzu hranu, među kojima je čir na želucu dijagnostikovan kod 96 osoba. Drugu grupu činilo je 500 pristalica zdrave prehrane, među kojima je čir na želucu dijagnosticiran u 31 slučaju. Na osnovu dobijenih podataka napravljena je sljedeća tabela kontingencije:


PEARSON KORELACIJSKI KRITERIJ

Pearsonov korelacijski test je metoda parametarske statistike koja vam omogućava da utvrdite prisustvo ili odsustvo linearne veze između dva kvantitativna indikatora, kao i da ocijenite njegovu bliskost i statističku značajnost. Drugim riječima, Pearsonov korelacijski test vam omogućava da odredite da li se jedan indikator mijenja (povećava ili smanjuje) kao odgovor na promjene u drugom? U statističkim proračunima i zaključcima, koeficijent korelacije se obično označava kao r xy ili R xy.

1. Istorijat razvoja korelacionog kriterijuma

Pirsonov korelacijski test razvio je tim britanskih naučnika predvođen Karl Pearson(1857-1936) 90-ih godina 19. vijeka, kako bi se pojednostavila analiza kovarijanse dvije slučajne varijable. Pored Karla Pirsona, ljudi su radili i na kriterijumu Pirsonove korelacije Francis Edgeworth I Raphael Weldon.

2. Za šta se koristi Pearsonov korelacijski test?

Pearsonov korelacijski test vam omogućava da odredite bliskost (ili snagu) korelacije između dva indikatora mjerena na kvantitativnoj skali. Koristeći dodatne proračune, također možete odrediti koliko je identificirani odnos statistički značajan.

Na primjer, koristeći Pearsonov korelacijski kriterij, možete odgovoriti na pitanje postoji li veza između tjelesne temperature i sadržaja leukocita u krvi tokom akutnih respiratornih infekcija, između visine i težine pacijenta, između sadržaja fluora u vode za piće i učestalosti karijesa zuba u populaciji.

3. Uvjeti i ograničenja za primjenu Pearsonovog hi-kvadrat testa

  1. Uporedive pokazatelje treba mjeriti na kvantitativnoj skali (na primjer, broj otkucaja srca, tjelesna temperatura, broj bijelih krvnih zrnaca u 1 ml krvi, sistolni krvni tlak).
  2. Koristeći kriterijum Pearsonove korelacije, možete odrediti samo prisustvo i snagu linearne veze između veličina. Ostale karakteristike odnosa, uključujući pravac (direktan ili obrnuti), prirodu promjena (pravolinijski ili krivolinijski), kao i prisustvo zavisnosti jedne varijable od druge, određuju se pomoću regresiona analiza.
  3. Broj upoređenih količina mora biti jednak dva. U slučaju analize odnosa tri ili više parametara, trebali biste koristiti metodu faktorska analiza.
  4. Pirsonov korelacioni kriterijum je parametarski, pa je stoga uslov za njegovu primenu normalna distribucija svake od upoređenih varijabli. Ako je potrebno izvršiti analizu korelacije indikatora čija se distribucija razlikuje od normalne, uključujući i one mjerene na ordinalnoj skali, treba koristiti Spearmanov koeficijent korelacije ranga.
  5. Trebalo bi jasno razlikovati koncepte zavisnosti i korelacije. Ovisnost veličina određuje postojanje korelacije između njih, ali ne i obrnuto.

Na primjer, visina djeteta zavisi od njegovih godina, odnosno, što je dijete starije, to je više. Ako uzmemo dvoje djece različitog uzrasta, onda će s velikim stepenom vjerovatnoće rast starijeg djeteta biti veći od rasta mlađeg. Ovaj fenomen se naziva zavisnost, što implicira uzročno-posledičnu vezu između indikatora. Naravno, postoji i korelacija između njih, što znači da su promjene u jednom indikatoru praćene promjenama u drugom indikatoru.

U drugoj situaciji, razmotrite odnos između visine djeteta i otkucaja srca (HR). Kao što je poznato, obje ove vrijednosti direktno zavise od starosti, pa će u većini slučajeva djeca veće visine (a samim tim i starije dobi) imati niže vrijednosti otkucaja srca. To jest, korelacija će se uočiti i može biti prilično bliska. Međutim, ako uzmemo djecu iste dobi, ali različite visine, tada će se, najvjerojatnije, njihov broj otkucaja srca neznatno razlikovati, te stoga možemo zaključiti da je broj otkucaja srca neovisan o visini.

Navedeni primjer pokazuje koliko je važno razlikovati koncepte povezanosti i zavisnosti indikatora, koji su fundamentalni u statistici, kako bi se izveli ispravni zaključci.

4. Kako izračunati Pearsonov koeficijent korelacije?

Pearsonov koeficijent korelacije izračunava se pomoću sljedeće formule:

5. Kako protumačiti vrijednost Pirsonovog koeficijenta korelacije?

Vrijednosti Pearsonovog koeficijenta korelacije se tumače na osnovu njihovih apsolutnih vrijednosti. Moguće vrijednosti koeficijenta korelacije variraju od 0 do ±1. Što je veća apsolutna vrijednost r xy, to je veća bliskost odnosa između dvije veličine. r xy = 0 ukazuje na potpuni nedostatak komunikacije. r xy = 1 – ukazuje na postojanje apsolutne (funkcionalne) veze. Ako se ispostavi da je vrijednost kriterija Pearsonove korelacije veća od 1 ili manja od -1, napravljena je greška u proračunima.

Za procjenu čvrstoće, ili snage, korelacije obično se koriste općeprihvaćeni kriteriji prema kojima apsolutne vrijednosti r xy< 0.3 свидетельствуют о slab veze, r xy vrijednosti od 0,3 do 0,7 - o vezi prosjek nepropusnost, vrijednosti r xy > 0,7 - o jaka komunikacije.

Preciznija procjena jačine korelacije može se dobiti korištenjem Chaddockove tabele:

Statistička značajnost koeficijenta korelacije r xy procjenjuje se pomoću t-testa, izračunatog pomoću sljedeće formule:

Dobijena vrijednost t r se upoređuje sa kritičnom vrijednošću na određenom nivou značajnosti i brojem stupnjeva slobode n-2. Ako t r prelazi t crit, onda se izvodi zaključak o statističkoj značajnosti identifikovane korelacije.

6. Primjer izračunavanja Pearsonovog koeficijenta korelacije

Svrha istraživanja je bila da se identifikuje, utvrdi bliskost i statistička značajnost korelacije između dva kvantitativna indikatora: nivoa testosterona u krvi (X) i procenta mišićne mase u telu (Y). Početni podaci za uzorak koji se sastoji od 5 ispitanika (n = 5) sumirani su u tabeli:


SPEARMANOV KRITERIJ

Spearmanov koeficijent korelacije ranga je neparametarska metoda koja se koristi u svrhu statističkog proučavanja odnosa između pojava. U ovom slučaju se utvrđuje stvarni stepen paralelizma između dve kvantitativne serije proučavanih karakteristika i daje se ocena bliskosti uspostavljene veze pomoću kvantitativno izraženog koeficijenta.

1. Istorijat razvoja koeficijenta rang korelacije

Ovaj kriterijum je razvijen i predložen za analizu korelacije 1904. godine Charles Edward Spearman, engleski psiholog, profesor na Univerzitetima u Londonu i Chesterfieldu.

2. Za šta se koristi Spearmanov koeficijent?

Spearmanov koeficijent korelacije ranga koristi se za identifikaciju i procjenu bliskosti odnosa između dvije serije upoređenih kvantitativnih indikatora. Ako se rangovi indikatora, poredani po stepenu povećanja ili smanjenja, u većini slučajeva poklapaju (veća vrijednost jednog pokazatelja odgovara većoj vrijednosti drugog indikatora - na primjer, kada se poredi visina pacijenta i njegova tjelesna težina), zaključak je se radi o prisustvu ravno korelacione veze. Ako rangovi indikatora imaju suprotan smjer (viša vrijednost jednog indikatora odgovara nižoj vrijednosti drugog - na primjer, kada se uporedi starost i broj otkucaja srca), onda govore o obrnuto veze između indikatora.

    Spearmanov koeficijent korelacije ima sljedeća svojstva:
  1. Koeficijent korelacije može imati vrijednosti od minus jedan do jedan, a sa rs=1 postoji striktno direktan odnos, a sa rs= -1 postoji striktno povratna veza.
  2. Ako je koeficijent korelacije negativan, postoji povratna veza; ako je pozitivan, onda postoji direktna veza.
  3. Ako je koeficijent korelacije nula, onda praktički nema veze između veličina.
  4. Što je modul koeficijenta korelacije bliži jedinici, to je jača veza između mjerenih veličina.

3. U kojim slučajevima se može koristiti Spearmanov koeficijent?

Zbog činjenice da je koeficijent metoda neparametarske analize, testiranje normalnosti distribucije nije potrebno.

Uporedivi pokazatelji mogu se mjeriti i na kontinuiranoj skali (na primjer, broj crvenih krvnih zrnaca u 1 μl krvi) i na ordinalnoj skali (na primjer, bodovi stručna procjena od 1 do 5).

Učinkovitost i kvaliteta Spearmanove procjene opadaju ako je razlika između različitih vrijednosti bilo koje mjerene veličine dovoljno velika. Ne preporučuje se korištenje Spearmanovog koeficijenta ako postoji neravnomjerna raspodjela vrijednosti mjerene veličine.

4. Kako izračunati Spearmanov koeficijent?

Izračun koeficijenta korelacije Spearmanovog ranga uključuje sljedeće korake:

5. Kako protumačiti vrijednost Spearmanovog koeficijenta?

Kada se koristi koeficijent korelacije ranga, uslovno se ocjenjuje bliskost veze između karakteristika, smatrajući da su vrijednosti koeficijenta manje od 0,3 znak slabe povezanosti; vrijednosti veće od 0,3, ali manje od 0,7 su znak umjerene bliskosti veze, a vrijednosti od 0,7 ili više su znak velike bliskosti veze.

Može se koristiti i za procjenu nepropusnosti veze. Chaddock skala.

Statistička značajnost dobijenog koeficijenta procjenjuje se pomoću Studentovog t-testa. Ako je izračunata vrijednost t-testa manja od vrijednosti u tabeli za dati broj stupnjeva slobode, promatrani odnos nije statistički značajan. Ako je veći, tada se korelacija smatra statistički značajnom.


METODA KOLMOGOROV-SMIRNOV

Kolmogorov-Smirnov test je neparametarski test dobrote uklapanja, u klasičnom smislu je namijenjen testiranju jednostavnih hipoteza o tome da li analizirani uzorak pripada nekom poznatom zakonu raspodjele. Najpoznatija primjena ovog kriterija je provjera normalnosti distribucije ispitivanih populacija.

1. Istorija razvoja kriterijuma Kolmogorov-Smirnov

Kolmogorov-Smirnov kriterijum razvili su sovjetski matematičari Andrej Nikolajevič Kolmogorov I Nikolaj Vasiljevič Smirnov.
Kolmogorov A.N. (1903-1987) - Heroj socijalističkog rada, profesor u Moskvi državni univerzitet, akademik Akademije nauka SSSR - najveći matematičar 20. veka, jedan je od osnivača moderna teorija vjerovatnoće.
Smirnov N.V. (1900-1966) - dopisni član Akademije nauka SSSR, jedan od tvoraca neparametarskih metoda matematičke statistike i teorije graničnih distribucija statistike reda.

Nakon toga, Kolmogorov-Smirnov test dobrosti je modificiran kako bi se koristio za testiranje populacije na normalnost distribucije od strane američkog statističara, profesora na Univerzitetu George Washington. Hubert Lilliefors(Hubert Whitman Lilliefors, 1928-2008). Profesor Lilifors je bio jedan od pionira u upotrebi kompjuterska oprema u statističkim proračunima.

Hubert Lilliefors

2. Zašto se koristi Kolmogorov-Smirnov kriterijum?

Ovaj kriterijum nam omogućava da procenimo značaj razlika između distribucija dva uzorka, uključujući i mogućnost njegovog korišćenja za procenu usklađenosti distribucije uzorka koji se proučava sa zakonom normalne distribucije.

3. U kojim slučajevima se može koristiti Kolmogorov-Smirnov kriterijum?

Kolmogorov-Smirnov test je dizajniran da testira normalnu distribuciju skupova kvantitativnih podataka.

Za veću pouzdanost dobijenih podataka, zapremine uzoraka koji se razmatraju treba da budu dovoljno veliki: n ≥ 50. Kada je veličina procenjene populacije od 25 do 50 elemenata, preporučljivo je koristiti Bolševljevu korekciju.

4. Kako izračunati Kolmogorov-Smirnov kriterijum?

Kolmogorov-Smirnov kriterijum se izračunava pomoću posebnih statističkih programa. Zasnovan je na statistici oblika:

Gdje sup S- supremum skupa S, Fn- funkcija distribucije populacije koja se proučava, F(x)- funkcija normalne distribucije

Pretpostavljene vrijednosti vjerovatnoće su zasnovane na pretpostavci da su srednja vrijednost i standardna devijacija normalne distribucije a priori poznate i da se ne procjenjuju iz podataka.

Međutim, u praksi se parametri obično izračunavaju direktno iz podataka. U ovom slučaju, test normalnosti uključuje složenu hipotezu („koliko je vjerovatno da će se dobiti D statistika ove ili veće važnosti u zavisnosti od srednje vrijednosti i standardne devijacije izračunate iz podataka“) i date su Lillieforsove vjerovatnoće (Lilliefors, 1967. ).

5. Kako protumačiti vrijednost Kolmogorov-Smirnov testa?

Ako je statistika D Kolmogorov-Smirnov značajna (str<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


RUSKA AKADEMIJA NARODNE EKONOMIJE I JAVNE SLUŽBE pod PREDSEDNIKOM RUSKOG FEDERACIJE

ORLOJSKA FILIJALA

Katedra za matematiku i matematičke metode u menadžmentu

Samostalan rad

Matematika

na temu “Varijacijski niz i njegove karakteristike”

za redovne studente Fakulteta za ekonomiju i menadžment

oblasti obuke "Upravljanje ljudskim resursima"


Cilj rada: Ovladavanje pojmovima matematičke statistike i metodama primarne obrade podataka.

Primjer rješavanja tipičnih problema.

Zadatak 1.

Anketom su dobijeni sljedeći podaci ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

potrebno:

1) Sastavite seriju varijacija (statistička distribucija uzorka), nakon što ste prethodno zapisali rangiranu diskretnu seriju opcija.

2) Konstruirajte frekvencijski poligon i kumulirajte.

3) Sastaviti niz distribucija relativnih frekvencija (frekvencija).

4) Pronađite glavne numeričke karakteristike niza varijacija (koristite pojednostavljene formule da ih pronađete): a) aritmetička sredina, b) medijana Meh i moda Mo, c) disperzija s 2, d) standardna devijacija s, e) koeficijent varijacije V.

5) Objasnite značenje dobijenih rezultata.

Rješenje.

1) Za kompajliranje rangirani diskretni niz opcija Razvrstajmo podatke ankete po veličini i rasporedimo ih uzlaznim redoslijedom

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

Sastavimo niz varijacija tako što ćemo posmatrane vrijednosti (varijante) upisati u prvi red tabele, a odgovarajuće frekvencije u drugi (tabela 1)

Tabela 1.

2) Frekvencijski poligon je izlomljena linija koja povezuje tačke ( x i; n i), i=1, 2,…, m, Gdje m X.

Predstavimo poligon frekvencija varijacionog niza (slika 1).

Fig.1. Frekvencijski poligon

Kumulativna kriva (kumulacija) za diskretnu seriju varijacija predstavlja izlomljenu liniju koja povezuje tačke ( x i; n i nak), i=1, 2,…, m.

Nađimo akumulirane frekvencije n i nak(akumulirana učestalost pokazuje koliko je varijanti uočeno sa manjom karakterističnom vrijednošću X). Pronađene vrijednosti unosimo u treći red tabele 1.



Napravimo kumulat (slika 2).

Fig.2. Kumulira

3) Nađimo relativne frekvencije (frekvencije), gdje , gdje m– broj različitih karakterističnih vrijednosti X, koje ćemo izračunati sa jednakom tačnošću.

Zapišimo distributivnu seriju relativnih frekvencija (frekvencija) u obliku tabele 2

tabela 2

4) Nađimo glavne numeričke karakteristike serije varijacija:

a) Pronađite aritmetičku sredinu koristeći pojednostavljenu formulu:

,

gdje su uslovne opcije

Hajde da stavimo With= 3 (jedna od prosječnih posmatranih vrijednosti), k= 1 (razlika između dvije susjedne opcije) i sastaviti proračunsku tablicu (tabela 3).

Tabela 3.

x i n i u i u i n i u i 2 n i
-3 -12
-2 -26
-1 -14
Suma -11

Zatim aritmetička sredina

b) Medijan Meh varijacijski niz je vrijednost karakteristike koja se nalazi u sredini rangirane serije opažanja. Ova diskretna serija varijacija sadrži paran broj pojmova ( n=80), što znači da je medijana jednaka polovini zbira dvije srednje opcije.

Moda Mo varijacijski niz naziva se opcija koja odgovara najvišoj frekvenciji. Za dati niz varijacija, najveća frekvencija n max = 24 odgovara opciji X= 3, znači moda Mo=3.

c) Varijanca s 2, što je mjera disperzije mogućih vrijednosti indikatora X oko njegove prosječne vrijednosti, nalazimo ga pomoću pojednostavljene formule:

, Gdje u i– uslovne opcije

U tabelu 3 ćemo takođe uključiti međukalkulacije.

Zatim varijansa

d) Standardna devijacija s nalazimo ga pomoću formule:

.

e) Koeficijent varijacije V: (),

Koeficijent varijacije je nemjerljiva veličina, pa je pogodan za poređenje raspršenja varijantne serije, čije varijante imaju različite dimenzije.

Koeficijent varijacije

.

5) Smisao dobijenih rezultata je da vrednost karakteriše prosečnu vrednost karakteristike X u okviru razmatranog uzorka, odnosno prosječna vrijednost iznosila je 2,86. Standardna devijacija s opisuje apsolutni raspon vrijednosti indikatora X i u ovom slučaju iznosi s≈ 1,55. Koeficijent varijacije V karakteriše relativnu varijabilnost indikatora X, odnosno relativno širenje oko njegove prosječne vrijednosti, au ovom slučaju je .

odgovor: ; ; ; .

Zadatak 2.

Dostupni su sljedeći podaci o vlasničkom kapitalu 40 najvećih banaka u centralnoj Rusiji:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

potrebno:

1) Konstruirajte niz intervalnih varijacija.

2) Izračunajte srednju vrijednost uzorka i varijansu uzorka

3) Pronađite standardnu ​​devijaciju i koeficijent varijacije.

4) Konstruisati histogram distribucije frekvencija.

Rješenje.

1) Odaberimo proizvoljan broj intervala, na primjer, 8. Tada je širina intervala:

.

Kreirajmo tabelu proračuna:

opcija intervala, x k –x k +1 frekvencija, n i Sredina intervala x i Uslovna opcija, i ja i i n i i ja 2 n i (i i+ 1) 2 n i
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
Suma – 5

Vrijednost odabrana kao lažna nula je c= 62.5 (ova opcija se nalazi otprilike u sredini serije varijacija) .

Uvjetne opcije određuju se formulom

Prilikom obrade velikih količina informacija, što je posebno važno pri izvođenju savremenih naučnih razvoja, istraživač se suočava sa ozbiljnim zadatkom pravilnog grupisanja izvornih podataka. Ako su podaci po prirodi diskretni, onda, kao što smo vidjeli, ne nastaju nikakvi problemi - samo trebate izračunati učestalost svake karakteristike. Ako karakteristika koja se proučava ima kontinuirano prirode (što je češće u praksi), tada odabir optimalnog broja intervala grupisanja karakteristika nikako nije trivijalan zadatak.

Za grupisanje kontinuiranih slučajnih varijabli, cijeli raspon varijacije karakteristike se dijeli na određeni broj intervala To.

Grupirani interval (kontinuirano) varijantne serije nazivaju se intervali rangirani po vrijednosti atributa (), gdje su brojevi opažanja koja spadaju u r"-ti interval, ili relativne frekvencije (), naznačeni zajedno sa odgovarajućim frekvencijama ():

Intervali karakterističnih vrijednosti

mi frekvencija

trakasti grafikon I kumulirati (ogiva), o kojima smo već detaljno raspravljali, odlično su sredstvo za vizualizaciju podataka, omogućavajući vam da dobijete primarnu ideju o strukturi podataka. Takvi grafovi (slika 1.15) se konstruišu za kontinuirane podatke na isti način kao i za diskretne podatke, samo uzimajući u obzir činjenicu da kontinuirani podaci u potpunosti ispunjavaju područje njihovih mogućih vrijednosti, uzimajući bilo koje vrijednosti.

Rice. 1.15.

Zbog toga stupci na histogramu i kumulatu moraju se dodirivati ​​i nemaju područja u kojima vrijednosti atributa ne spadaju u sve moguće(tj. histogram i kumulati ne bi trebali imati „rupe“ duž ose apscise, koje ne sadrže vrijednosti varijable koja se proučava, kao na slici 1.16). Visina trake odgovara učestalosti – broju zapažanja u datom intervalu, ili relativnoj frekvenciji – proporciji zapažanja. Intervali ne smije se ukrštati i obično su iste širine.

Rice. 1.16.

Histogram i poligon su aproksimacije krivulje gustoće vjerovatnoće (diferencijalna funkcija) f(x) teorijska raspodjela, razmatrana u okviru teorije vjerovatnoće. Stoga je njihova konstrukcija toliko važna u primarnoj statističkoj obradi kvantitativnih kontinuiranih podataka – po njihovom izgledu može se suditi o hipotetičkom zakonu raspodjele.

Kumulacija – kriva akumuliranih frekvencija (učestalosti) intervalne varijacione serije. Grafikon kumulativne funkcije raspodjele uspoređuje se sa kumulatom F(x), o kojoj se također govori u okviru kursa teorije vjerovatnoće.

U osnovi, koncepti histograma i kumulata su posebno povezani sa kontinuiranim podacima i njihovim intervalnim serijama varijacije, budući da su njihovi grafikoni empirijske procjene funkcije gustoće vjerovatnoće i funkcije distribucije, respektivno.

Konstrukcija intervalne varijacione serije počinje određivanjem broja intervala k. A ovaj zadatak je možda najteži, najvažniji i kontroverzni u pitanju koje se proučava.

Broj intervala ne bi trebao biti premali, jer će to učiniti histogram previše glatkim ( preglađen), gubi sve karakteristike varijabilnosti originalnih podataka - na sl. 1.17 možete vidjeti kako isti podaci na kojima su prikazani grafovi na Sl. 1.15, koji se koristi za konstruisanje histograma sa manjim brojem intervala (lijevi grafikon).

U isto vrijeme, broj intervala ne bi trebao biti prevelik - inače nećemo moći procijeniti gustinu distribucije proučavanih podataka duž numeričke ose: histogram će biti nedovoljno izglađen. (podjednačeno), sa praznim intervalima, neujednačeni (vidi sliku 1.17, desni grafikon).

Rice. 1.17.

Kako odrediti najpoželjniji broj intervala?

Još 1926. godine Herbert Sturges je predložio formulu za izračunavanje broja intervala na koje je potrebno podijeliti izvorni skup vrijednosti karakteristike koja se proučava. Ova formula je zaista postala izuzetno popularna - nudi je većina statističkih udžbenika, a mnogi statistički paketi je koriste po defaultu. Koliko je to opravdano iu svim slučajevima veoma je ozbiljno pitanje.

Dakle, na čemu se zasniva Sturgesova formula?

Uzmite u obzir binomnu distribuciju)

Podijelite sa prijateljima ili sačuvajte za sebe:

Učitavanje...