Grupimi i të dhënave dhe ndërtimi i një serie shpërndarjeje. Studimi statistikor i serive të variacioneve dhe llogaritja e vlerave mesatare Si të gjeni një seri variacionesh në statistika

Kushti:

Ekzistojnë të dhëna për përbërjen e moshës së punëtorëve (vjet): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28. , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Ndërtoni një seri shpërndarjeje intervali.
    2. Ndërtoni një paraqitje grafike të serisë.
    3. Përcaktoni grafikisht mënyrën dhe mesataren.

Zgjidhja:

1) Sipas formulës Sturgess, popullsia duhet të ndahet në 1 + 3,322 lg 30 = 6 grupe.

Mosha maksimale është 38 vjeç, minimumi 18.

Gjerësia e intervalit Meqenëse skajet e intervaleve duhet të jenë numra të plotë, ne do ta ndajmë popullsinë në 5 grupe. Gjerësia e intervalit - 4.

Për të lehtësuar llogaritjet, le t'i renditim të dhënat në rend rritës: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 , 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Shpërndarja e punëtorëve në moshë

Grafikisht, një seri mund të shfaqet si një histogram ose një poligon. Histogram - grafik me shtylla. Baza e kolonës është gjerësia e intervalit. Lartësia e shiritit është e barabartë me frekuencën.

Një shumëkëndësh (ose poligon i shpërndarjes) është një grafik frekuencash. Për ta ndërtuar atë sipas histogramit, ne lidhim mesin e anëve të sipërme të drejtkëndëshave. Ne mbyllim shumëkëndëshin në boshtin x në distanca të barabarta me gjysmën e intervalit nga vlerat ekstreme x.

Modaliteti (Mo) është vlera e tiparit në studim, i cili shfaqet më shpesh në një popullatë të caktuar.

Për të përcaktuar modalitetin nga histogrami, duhet të zgjidhni drejtkëndëshin më të lartë, të vizatoni një vijë nga kulmi i djathtë i këtij drejtkëndëshi në këndin e sipërm të djathtë të drejtkëndëshit të mëparshëm dhe të vizatoni një vijë nga kulmi i majtë i drejtkëndëshit modal në kulmi i majtë i drejtkëndëshit të ardhshëm. Nga pika e kryqëzimit të këtyre vijave, vizatoni një pingul me boshtin x. Abshisa do të jetë modë. Mo ≈ 27,5. Kjo do të thotë se mosha më e zakonshme në këtë popullatë është 27-28 vjeç.

Mesatarja (Me) është vlera e tiparit në studim, i cili ndodhet në mes të një serie variacionesh të renditura.

Mesoren e gjejmë sipas kumulimit. Kumulimi - grafiku i frekuencave të grumbulluara. Abshisat janë variante të një serie. Ordinatat janë frekuencat e grumbulluara.

Për të përcaktuar mesataren për kumulatin, gjejmë përgjatë boshtit të ordinatave një pikë që korrespondon me 50% të frekuencave të grumbulluara (në rastin tonë, 15), vizatojmë një vijë të drejtë përmes saj, paralel me boshtin Ox dhe vizatojmë një pingul me boshti x nga pika e prerjes së tij me kumulatin. Abshisa është mediana. Unë ≈ 25,9. Kjo do të thotë se gjysma e punëtorëve në këtë popullsi janë nën 26 vjeç.

Fjalor i termave statistikore

Pyetje të përgjithshme të statistikave

ÇFARË ËSHTË STATISTIKA MJEKËSORE?

Statistika është një përshkrim dhe matje sasiore e ngjarjeve, dukurive, objekteve. Kuptohet si degë e veprimtarisë praktike (mbledhja, përpunimi dhe analiza e të dhënave për dukuritë masive), si degë e dijes, d.m.th. një disiplinë e veçantë shkencore dhe si një grup treguesish përmbledhës, përfundimtarë dixhitalë të mbledhur për të karakterizuar çdo fushë të fenomeneve shoqërore.

Statistika është një shkencë që studion modelet e fenomeneve masive me metodën e përgjithësimit të treguesve.

Statistikat mjekësore - të pavarura Shkenca shoqërore duke studiuar ana sasiore e dukurive masive shoqërore të lidhura pazgjidhshmërisht me anën cilësore të tyre, duke lejuar Metoda e treguesve të përgjithësuar të studiojë modelet e këtyre dukurive, proceset më të rëndësishme në jetën ekonomike dhe sociale të shoqërisë, shëndetin e saj dhe sistemin e organizimit të kujdesit mjekësor për popullatën.

Metodat statistikore janë një grup teknikash për përpunimin e materialeve të vëzhgimeve masive, të cilat përfshijnë: grupimin, përmbledhjen, marrjen e treguesve, analizën statistikore të tyre etj.

Metodat statistikore në mjekësi përdoren për:

  1. studim shtetëror shëndetit publik popullsia në tërësi dhe grupet kryesore të saj duke mbledhur dhe analizuar të dhëna statistikore për madhësinë dhe përbërjen e popullsisë, riprodhimin e saj, zhvillimin fizik, prevalencën dhe kohëzgjatjen e sëmundjeve të ndryshme etj.;
  2. identifikimi dhe vendosja e lidhjeve midis nivelit të përgjithshëm të sëmundshmërisë dhe vdekshmërisë nga çdo sëmundje individuale me faktorë të ndryshëm mjedisi;
  3. mbledhjen dhe studimin e të dhënave numerike për rrjetin e institucioneve mjekësore, aktivitetet dhe personelin e tyre për planifikimin e aktiviteteve të kujdesit shëndetësor, monitorimin e zbatimit të planeve për zhvillimin e rrjetit dhe aktiviteteve të institucioneve shëndetësore dhe vlerësimin e cilësisë së punës së institucioneve mjekësore individuale;
  4. vlerësimi i efektivitetit të masave për parandalimin dhe trajtimin e sëmundjeve;
  5. përcaktimi i rëndësisë statistikore të rezultateve të studimit në klinikë dhe eksperiment.

Seksionet e statistikave mjekësore:

  • bazat e përgjithshme teorike dhe metodologjike të statistikave,
  • Statistikat e shëndetit të popullsisë,
  • statistikat shëndetësore.

KRIJIMI I BAZAVE TË TË DHËNAVE NË MS EXCEL

Në mënyrë që baza e të dhënave të jetë e përshtatshme për përpunim të mëtejshëm, duhet të ndiqen parime të thjeshta:

1) Programi më i mirë për krijimin e një baze të dhënash është MS Excel. Të dhënat nga Excel më vonë mund të transferohen lehtësisht në paketa të tjera të specializuara statistikore, si Statistica, SPSS, etj. për manipulime më komplekse. Sidoqoftë, deri në 80-90% të llogaritjeve mund të kryhen më së miri në vetë Excel duke përdorur shtesën Analiza e të Dhënave.

2) Vija e sipërme e tabelës me bazën e të dhënave është projektuar si titull, ku futen emrat e atyre treguesve që merren parasysh në këtë kolonë. Është e padëshirueshme të përdoret bashkimi i qelizave (kjo kërkesë vlen për të gjithë bazën e të dhënave në përgjithësi), pasi në këtë rast shumë operacione do të bëhen të pavlefshme. Gjithashtu, nuk duhet të krijoni një kokë "dykatëshe", në të cilën vija e sipërme tregon emrin e një grupi treguesish homogjenë, dhe rreshti i fundit - tregues specifikë. Për të grupuar treguesit homogjenë, është më mirë t'i shënoni me një mbushje me një ngjyrë ose të përfshini një veçori grupimi në kllapa në emrin e tyre.

Për shembull, jo në këtë mënyrë:

ANALIZA E PËRGJITHSHME GJAKUT
ER LEU TR
ER(UAC) LEU(UAC) TR (UAC)

në versionin e fundit, sigurohen si titulli "njëkatësh" dhe homogjeniteti vizual i të dhënave (të gjitha ato i referohen treguesve UAC).

3) Kolona e parë duhet të përmbajë numrin serial të pacientit në këtë bazë të dhënash, pa e lidhur atë me asnjë nga treguesit e studiuar. Kjo do të bëjë të mundur që në të ardhmen të sigurohet një rikthim i lehtë në rendin origjinal të pacientëve në çdo fazë, edhe pas renditjeve të shumta të listës.

4) Kolona e dytë zakonisht plotësohet me emrat (ose emrat e plotë) të pacientëve.

5) Treguesit sasiorë (ata që maten me numra, për shembull - lartësia, pesha, presioni i gjakut, rrahjet e zemrës, etj.) përshtaten në tabelë në një format numerik. Duket se kjo është tashmë e qartë, por duhet të mbahet mend se në Excel, duke filluar nga versioni 2007, vlerat e pjesshme shënohen me një pikë: 4.5. Nëse shkruani një numër të ndarë me presje, atëherë ai do të perceptohet si tekst dhe këto kolona do të duhet të rishkruhen.

6) Me tregues cilësorë është më e vështirë. Ato që kanë dy kuptime (të ashtuquajturat vlera binare: Po-Jo, Në dispozicion-Mungon, Mashkull-Femër), është më mirë të përkthehen në një sistem binar: 0 dhe 1. Vlera 1 zakonisht i caktohet një vlere pozitive. (Po, E disponueshme) , 0 - negative (Jo, Asnjë).

7) Treguesit cilësorë që kanë disa vlera që ndryshojnë në ashpërsi, niveli i fenomenit (i dobët-mesatar-i fortë; i ftohtë- i ngrohtë- i nxehtë) mund të renditen dhe, në përputhje me rrethanat, të përkthehen edhe në numra. Niveli më i ulët i fenomenit i caktohet grada më e ulët - 0 ose 1, shkallët e ardhshme tregohen nga vlerat e gradave sipas renditjes. Për shembull: Pa sëmundje - 0, e lehtë - 1, e moderuar - 2, e rëndë - 3.

8) Ndonjëherë një tregues i cilësisë korrespondon me disa vlera. Për shembull, në kolonën "Diagnoza shoqëruese", nëse ka disa sëmundje, duam t'i tregojmë ato të ndara me presje. Kjo nuk duhet bërë, pasi përpunimi i të dhënave të tilla është shumë i vështirë dhe nuk mund të automatizohet. Prandaj, është më mirë të bëhen disa kolona me grupe të veçanta sëmundjesh ("Sëmundjet CVD", "sëmundjet e traktit gastrointestinal", etj.) ose nozologjitë e caktuara ("chr.gastritis", "IHD", etj.), në të cilat të dhënat futen në formë binare, binare: 1 (që do të thotë "Ka një sëmundje të caktuar") - 0 ("Nuk ka sëmundje të caktuar").

9) Për të dalluar grupet individuale të treguesve, mund të përdorni në mënyrë aktive ngjyrën: për shembull, kolonat me tregues të UÇK-së theksohen me të kuqe, të dhënat e OAM - me të verdhë, etj.

10) Çdo pacient duhet të korrespondojë me një rresht të tabelës.

Një dizajn i tillë i bazës së të dhënave lejon jo vetëm të thjeshtojë ndjeshëm procesin e përpunimit të saj statistikor, por edhe të lehtësojë plotësimin e tij në fazën e mbledhjes së materialit.

CILA METODA TË ZGJEDHET PËR ANALIZË STATISTIKORE?

Pas mbledhjes së të gjitha të dhënave, çdo studiues përballet me pyetjen e zgjedhjes së metodës më të përshtatshme të përpunimit statistikor. Dhe kjo nuk është për t'u habitur: statistikat moderne kombinojnë një numër të madh kriteresh dhe metodash të ndryshme. Të gjithë kanë karakteristikat e tyre, mund të jenë ose jo të përshtatshme për dy situata në dukje të ngjashme. Në këtë artikull do të përpiqemi të sistemojmë të gjitha metodat kryesore, më të zakonshme Analiza statistikore sipas qëllimit të tyre.

Sidoqoftë, së pari, disa fjalë se çfarë lloj të dhënash statistikore ekzistojnë, pasi zgjedhja e metodës më të përshtatshme të analizës varet nga kjo.

Shkalla e matjes

Gjatë kryerjes së një studimi, vlerat e veçorive të ndryshme përcaktohen për secilën njësi të vëzhgimit. Në varësi të shkallës në të cilën maten, të gjitha shenjat ndahen në sasiore Dhe cilësisë. Treguesit cilësorë në kërkime shpërndahen sipas të ashtuquajturit nominale shkallë. Përveç kësaj, treguesit mund të paraqiten nga renditjen shkallë.

Për shembull, bëhet një krahasim i treguesve të aktivitetit kardiak te atletët dhe personat që udhëheqin një mënyrë jetese të ulur.

Në të njëjtën kohë, në lëndët u përcaktuan karakteristikat e mëposhtme:

  • kat- eshte nominale një tregues që merr dy vlera - mashkull ose femër.
  • mosha - sasiore indeks,
  • sportive - nominale një tregues që merr dy vlera: i angazhuar ose jo i angazhuar,
  • rrahjet e zemrës - sasiore indeks,
  • presioni sistolik i gjakut - sasiore indeks,
  • ankesat për dhimbje gjoksi- eshte cilësisë tregues, vlerat e të cilit mund të përcaktohen si nominale(ka ankesa - nuk ka ankesa), dhe sipas renditjen një shkallë në varësi të frekuencës (për shembull, nëse dhimbja shfaqet disa herë në ditë - treguesit i caktohet një gradë 3, disa herë në muaj - një gradë 2, disa herë në vit - një gradë 1, nëse ka nuk ka ankesa për dhimbje gjoksi - caktohet një gradë 0) .

Numri i popullatave të përputhura

Çështja tjetër që duhet trajtuar për të zgjedhur një metodë statistikore është numri i popullatave që duhet të përputhen brenda studimit.

  • Në shumicën e rasteve, në provat klinike, kemi të bëjmë me dy grupe pacientësh - bazë Dhe kontrollin. bazë, ose me përvojë, konsiderohet të jetë grupi në të cilin është përdorur metoda e studiuar e diagnostikimit ose e trajtimit, ose në të cilin pacientët vuajnë nga sëmundja që është objekt i këtij studimi. kontrollin Grupi, në të kundërt, përbëhet nga pacientë që marrin kujdes mjekësor konvencional, placebo, ose individë që nuk e kanë sëmundjen në studim. Popullata të tilla të përfaqësuara nga pacientë të ndryshëm quhen pa lidhje.
    Ka ende të lidhura, ose çiftëzohet, agregat, kur bëhet fjalë për të njëjtët njerëz, por vlerat e çdo veçorie krahasohen, merren para dhe pas kërkimore. Numri i grupeve të krahasuara është gjithashtu i barabartë me 2, por metoda të ndryshme aplikohen për to sesa për ato të palidhura.
  • Një tjetër opsion është përshkrimi një tërësia, e cila, pa dyshim, qëndron në themel të çdo kërkimi në përgjithësi. Edhe nëse qëllimi kryesor i punës është krahasimi i dy ose më shumë grupeve, fillimisht duhet të karakterizohet secili prej tyre. Për këtë përdoren metoda Statistika përshkruese. Përveç kësaj, për një popullsi të vetme, mund të aplikohen metoda analiza e korrelacionit , përdoret për të gjetur një lidhje midis dy ose më shumë karakteristikave në studim (për shembull, varësia e gjatësisë nga pesha e trupit ose varësia e rrahjeve të zemrës nga temperatura e trupit).
  • Së fundi, mund të ketë disa grupe të krahasuara. Kjo është shumë e zakonshme në kërkimet mjekësore. Pacientët mund të grupohen në varësi të përdorimit të barnave të ndryshme (për shembull, kur krahasohet efektiviteti i barnave antihipertensive: grupi 1 - frenuesit ACE, 2 - beta-bllokuesit, 3 - barnat me veprim qendror), sipas ashpërsisë së sëmundjes ( grupi 1 - i butë, 2 - i mesëm, 3 - i rëndë), etj.

E rëndësishme është edhe pyetja normaliteti i shpërndarjes popullatat e studiuara. Varet nëse metodat mund të aplikohen analiza parametrike ose vetëm joparametrike. Kushtet që duhet të plotësohen në popullatat e shpërndara normalisht janë:

  1. afërsia ose barazia maksimale e vlerave të mesatares aritmetike, mënyrës dhe mesatares;
  2. pajtueshmëria me rregullin "tre sigma" (të paktën 68.3% e variantit është në intervalin M ± 1σ, të paktën 95.5% e variantit është në intervalin M ± 2σ, të paktën 99.7% e variantit është në intervalin intervali prej M ± 3σ;
  3. treguesit maten në shkallë sasiore;
  4. rezultatet pozitive të testimit për normalitetin e shpërndarjes duke përdorur kritere të veçanta - Kolmogorov-Smirnov ose Shapiro-Wilk.

Pas përcaktimit të të gjitha karakteristikave të popullatave të studiuara të treguara nga ne, sugjerojmë përdorimin e tabelës së mëposhtme për të zgjedhur metodën më optimale të analizës statistikore.

Metoda Shkalla për matjen e treguesve Numri i popullsive të krahasuara Qëllimi i përpunimit Shpërndarja e të dhënave
T-testi i studentit sasiore 2 normale
T-test i nxënësit me korrigjim Bonferroni sasiore 3 ose më shumë krahasimi i popullatave të palidhura normale
T-testi i nxënësit në çift sasiore 2 normale
Analiza njëkahëshe e variancës (ANOVA) sasiore 3 ose më shumë krahasimi i popullatave të palidhura normale
Analiza njëkahëshe e variancës (ANOVA) me masa të përsëritura sasiore 3 ose më shumë krahasimi i popullatave të lidhura normale
Testi U Mann-Whitney sasiore, renditje 2 krahasimi i popullatave të palidhura ndonjë
Rosenbaum Q-test sasiore, renditje 2 krahasimi i popullatave të palidhura ndonjë
Testi Kruskell-Wallis sasiore 3 ose më shumë krahasimi i popullatave të palidhura ndonjë
Testi Wilcoxon sasiore, renditje 2 krahasimi i popullatave të lidhura ndonjë
Shenjat e testit G sasiore, renditje 2 krahasimi i popullatave të lidhura ndonjë
Kriteri Friedman sasiore, renditje 3 ose më shumë krahasimi i popullatave të lidhura ndonjë
Kriteri χ 2 Pearson nominale 2 ose më shumë krahasimi i popullatave të palidhura ndonjë
Testi i saktë i Fisher nominale 2 krahasimi i popullatave të palidhura ndonjë
Testi i McNemar nominale 2 krahasimi i popullatave të lidhura ndonjë
Q-testi Cochran nominale 3 ose më shumë krahasimi i popullatave të lidhura ndonjë
Rreziku relativ (Raporti i rrezikut, RR) nominale 2 krahasimi i popullatave të palidhura në studimet e grupit ndonjë
Raporti i gjasave (OR) nominale 2 krahasimi i popullatave të palidhura në studimet rast-kontroll ndonjë
Koeficienti i korrelacionit Pearson sasiore 2 rreshta matjesh normale
Koeficienti i korrelacionit të gradës së Spearman sasiore, renditje 2 rreshta matjesh identifikimi i marrëdhënieve ndërmjet veçorive ndonjë
Koeficienti i korrelacionit të Kendall-it sasiore, renditje 2 rreshta matjesh identifikimi i marrëdhënieve ndërmjet veçorive ndonjë
Koeficienti i konkordancës së Kendall-it sasiore, renditje 3 ose më shumë rreshta matjesh identifikimi i marrëdhënieve ndërmjet veçorive ndonjë
Llogaritja e vlerave mesatare (M) dhe gabimeve mesatare (m) sasiore 1 Statistika përshkruese ndonjë
Llogaritja e medianave (Me) dhe përqindjeve (kuartilave) renditjen 1 Statistika përshkruese ndonjë
Llogaritja e vlerave relative (P) dhe gabimeve mesatare (m) nominale 1 Statistika përshkruese ndonjë
Kriteri Shapiro-Wilk sasiore 1 analiza e shpërndarjes ndonjë
Kriteri Kolmogorov-Smirnov sasiore 1 analiza e shpërndarjes ndonjë
Kriteri ω 2 Smirnov-Kramer-von Mises sasiore 1 analiza e shpërndarjes ndonjë
Metoda Kaplan-Meier ndonjë 1 analiza e mbijetesës ndonjë
Modeli i rreziqeve proporcionale Cox ndonjë 1 analiza e mbijetesës ndonjë

Statiscientë të mëdhenj

Karl Pearson (27 mars 1857 - 27 prill 1936)

Më 27 mars 1857 lindi Karl Pearson - matematikani, statisticieni, biologu dhe filozofi i madh anglez; themelues statistika matematikore, një nga themeluesit e biometrisë.

Pasi mori titullin profesor në matematikën e aplikuar në University College London në moshën 27 vjeçare, Karl Pearson filloi të studionte statistikat, të cilat ai i perceptonte si një mjet të përgjithshëm shkencor, në përputhje me idetë e tij jo konvencionale për nevojën për t'u ofruar studentëve një këndvështrim të gjerë. .

Arritjet kryesore të Pearson në fushën e statistikave përfshijnë zhvillimin e themeleve të teorisë së korrelacionit dhe kontingjentit të veçorive, prezantimin e "lakoreve Pearson" për të përshkruar shpërndarjet empirike dhe testin jashtëzakonisht të rëndësishëm chi-square, dhe përpilimin e një testi të madh. numri i tabelave statistikore. Pearson aplikoi metodën statistikore dhe veçanërisht teorinë e korrelacionit në shumë degë të shkencës.

Këtu është një nga thëniet e tij: "Futja e parë amatore e metodave moderne statistikore në shkencën e vendosur kundërshtohet nga përbuzja tipike. Por unë kam jetuar deri në kohën kur shumë prej tyre filluan të zbatojnë në fshehtësi vetë metodat që ata fillimisht i dënuan."

Dhe tashmë në vitin 1920, Pearson shkroi një shënim në të cilin ai deklaroi se qëllimi i shkollës biometrike ishte "të shndërronte statistikat në një degë të matematikës së aplikuar, të përgjithësonte, të hidhte poshtë ose të justifikonte metodat e pakta të shkollës së vjetër të statisticienëve politikë dhe shoqërorë. dhe, në përgjithësi, për të shndërruar statistikat nga terreni sportiv për amatorë dhe debatues në një degë serioze të shkencës.U desh të kritikoheshin metodat e papërsosura dhe shpeshherë të gabuara në mjekësi, antropologji, kraniometri, psikologji, kriminologji, biologji, sociologji, etj. për t'u siguruar këtyre shkencave mjete të reja dhe më të fuqishme.Beteja zgjati gati njëzet vjet, por shumë shenja se armiqësia e vjetër është prapa nesh dhe metodat e reja janë të pranuara botërisht.

Karl Pearson kishte interesa shumë të gjithanshme: ai studioi fizikën në Heidelberg, ishte i interesuar për rolin social dhe ekonomik të fesë dhe madje dha leksione mbi historinë dhe letërsinë gjermane në Kembrixh dhe Londër.

Është një fakt pak i njohur se në moshën 28-vjeçare, Karl Pearson dha leksione për "çështjen e grave" dhe madje themeloi Klubin e Burrave dhe Grave, i cili ekzistonte deri në vitin 1889, në të cilin gjithçka që lidhet me gratë, përfshirë marrëdhëniet midis gjinive, diskutohej lirisht dhe pa kufizime.

Klubi përbëhej nga një numër i barabartë burrash dhe grash, kryesisht shtresa e mesme liberale, socialistë dhe feministë.

Tema e diskutimeve të klubit ishte gamën më të gjerë të çështjeve: nga marrëdhëniet seksuale në Athinën e lashtë greke te pozicioni i murgeshave budiste, nga qëndrimet ndaj martesës deri te problemet e prostitucionit. Në thelb, "Klubi i burrave dhe grave" sfidoi normat e vendosura prej kohësh të ndërveprimit midis burrave dhe grave, si dhe idetë për seksualitetin "korrekt". Në Anglinë Viktoriane, ku shumë e perceptonin seksualitetin si diçka "të ulët" dhe "kafshore", dhe injoranca për edukimin seksual ishte e përhapur, diskutimi i çështjeve të tilla ishte vërtet radikal.

Në 1898, Pearson iu dha Medalja Darvin e Shoqërisë Mbretërore, të cilën ai e refuzoi, duke besuar se çmimet "duhen dhënë për të rinjtë për t'i inkurajuar ata".

Florence Nightingale (12 maj 1820 - 13 gusht 1910)

Florence Nightingale (1820-1910) - motra e mëshirës dhe figurë publike e Britanisë së Madhe, në ditëlindjen e së cilës festojmë sot Ditën Ndërkombëtare të Infermierit.

Ajo lindi në Firence në një familje të pasur aristokrate, mori një arsim të shkëlqyer, dinte gjashtë gjuhë. Që në moshë të re ajo ëndërroi të bëhej një motër e mëshirës, ​​në 1853 ajo mori një arsim infermieror në komunitetin e motrave të Pastor Flender në Kaiserwerth dhe u bë menaxhere e një spitali të vogël privat në Londër.

Në tetor 1854, gjatë Lufta e Krimesë, Firence, së bashku me 38 asistentë, shkuan në spitalet fushore në Krime. Duke organizuar kujdesin ndaj të plagosurve, ajo zbatoi në mënyrë të vazhdueshme parimet e higjienës dhe higjienës. Si rezultat, në më pak se gjashtë muaj, vdekshmëria në spitale u ul nga 42 në 2.2%!

Duke i vënë vetes detyrën e reformimit të shërbimit mjekësor në ushtri, Nightingale siguroi që spitalet të pajiseshin me sisteme ventilimi dhe kanalizimi; Stafi i spitalit duhet të kalojë trajnimin e nevojshëm. U organizua një shkollë mjekësore ushtarake dhe u krye punë shpjeguese midis ushtarëve dhe oficerëve për rëndësinë e parandalimit të sëmundjeve.

Kontributi i Florence Nightingale në statistikat mjekësore është i madh!

  • Libri i saj prej 800 faqesh, Shënime mbi faktorët që ndikojnë në shëndetin, efikasitetin dhe administrimin e spitaleve të ushtrisë britanike (1858), përmbante një pjesë të tërë kushtuar statistikave dhe të ilustruar me diagrame.
  • Nightingale ishte një novator në përdorimin e imazheve grafike në statistika. Ajo shpiku tabelat e byrekut, të cilat i quajti "kreje gjeli" dhe i përdori për të përshkruar modelet e vdekshmërisë. Shumë nga diagramet e saj u përfshinë në raportin e komisionit për problemet shëndetësore në ushtri, falë të cilit u mor vendimi për reformimin e mjekësisë ushtarake.
  • Ajo zhvilloi formularin e parë për mbledhjen e statistikave në spitale, i cili është pararendës i formularëve bashkëkohorë të raportimit të aktiviteteve të spitalit.

Në 1859 ajo u zgjodh anëtare e Shoqërisë Mbretërore të Statistikave dhe më pas u bë anëtare nderi e Shoqatës Amerikane të Statistikave.

Johann Carl Friedrich Gauss (30 prill 1777 - 23 shkurt 1855)

Më 30 prill 1777, matematikani, mekaniku, fizikani, astronomi, topografi dhe statisticieni i madh gjerman Johann Carl Friedrich Gauss lindi në Braunschweig.

Ai konsiderohet si një nga matematikanët më të mëdhenj të të gjitha kohërave, "Mbreti i Matematikanëve". Laureat i medaljes Copley (1838), anëtar i huaj i Akademive të Shkencave Suedeze (1821) dhe Ruse (1824), të Shoqërisë Mbretërore Angleze.

Tashmë në moshën tre vjeçare, Karl dinte të lexonte dhe të shkruante, madje duke korrigjuar gabimet e numërimit të babait të tij. Sipas legjendës, një mësues i matematikës në shkollë, për t'i mbajtur fëmijët të zënë për një kohë të gjatë, i ftoi ata të numëronin shumën e numrave nga 1 në 100. Gausi i ri vuri re se shumat në çift nga skajet e kundërta janë të njëjta: 1+100= 101, 2+99=101, etj etj., dhe menjëherë mori rezultatin: 50×101=5050. Deri në pleqëri, shumicën e llogaritjeve i bënte në mendje.

Arritjet kryesore shkencore të Carl Gauss në statistika janë krijimi i metodës katrorët më të vegjël, e cila qëndron në themel të analizës së regresionit.

Ai studioi gjithashtu në detaje ligjin e shpërndarjes normale të zakonshme në natyrë, grafiku i të cilit që atëherë shpesh quhet Gaussian. Rregulli tre-sigma (rregulli Gaussian) që përshkruan shpërndarjen normale është bërë i njohur gjerësisht.

Lev Semyonovich Kaminsky (1889 - 1962)

Në 75-vjetorin e Fitores së Madhe Lufta Patriotike Dua të kujtoj dhe të tregoj për një shkencëtar të shquar, një nga themeluesit e statistikave ushtarake mjekësore dhe sanitare në BRSS - Lev Semyonovich Kaminsky (1889-1962).

Ai lindi më 27 maj 1889 në Kiev. Pasi u diplomua me nderime në 1918 në fakultetin e mjekësisë të Universitetit të Petrogradit, Kaminsky ishte në radhët e Ushtrisë së Kuqe, nga prilli 1919 deri në fund të vitit 1920 ai shërbeu si mjek kryesor i spitalit të evakuimit të 136-të të konsoliduar të Frontit Juglindor.

Që nga viti 1922, Lev Semyonovich ishte përgjegjës për departamentin sanitar dhe epidemiologjik të shërbimit mjekësor dhe sanitar të Hekurudhës Veri-Perëndimore. Gjatë këtyre viteve filloi veprimtaria shkencore Kaminsky nën drejtimin e prof. S.A.Novoselsky. Në veprën e tyre të përbashkët themelore "Humbjet në luftërat e kaluara", materiali statistikor u analizua mbi humbjet njerëzore në luftërat e ushtrive të ndryshme të botës nga viti 1756 deri në 1918. Në veprat e mëvonshme, Kaminsky zhvilloi dhe vërtetoi një klasifikim të ri, më të saktë të humbjeve ushtarake. .

Në monografinë "Ushqimi kombëtar dhe shëndeti publik" (1929), aspektet sanitare dhe higjienike të ndikimit të luftërave në shëndetin e popullatës, si dhe organizimi i kujdesit mjekësor për popullsinë dhe ushtrinë gjatë viteve të luftës. u konsideruan në detaje.

Nga viti 1935 deri në 1943, Lev Semenovich drejtoi departamentin e statistikave sanitare (që nga viti 1942 - mjekësore) të Komisariatit Popullor të Shëndetit të BRSS. Në tetor 1943, Prof. Kaminsky u bë kreu i Departamentit të Statistikave Mjekësore Ushtarake të Akademisë Mjekësore Ushtarake. S.M. Kirov, dhe që nga viti 1956 është profesor në Departamentin e Statistikave dhe Kontabilitetit në Universitetin Shtetëror të Leningradit.

Lev Semyonovich mbrojti futjen e gjerë të metodave sasiore në praktikën e statistikave sanitare dhe mjekësore. Në vitin 1959, nën autorësinë e tij, u botua tutorial"Përpunimi statistikor i të dhënave laboratorike dhe klinike: përdorimi i statistikave në punën shkencore dhe praktike të një mjeku", i cili për shumë vite u bë një nga tekstet më të mira vendase për statistikat mjekësore. Në parathënie, L.S. Kaminsky vëren:
“...Duket e rëndësishme që mjekët që marrin pjesë të dinë të merren me punë, të jenë në gjendje të mbledhin dhe përpunojnë numrat e duhur, të përshtatshëm për krahasime dhe krahasime”.

Kriteret dhe metodat

T-testi i studentit për popullatat e pavarura

Student's t-test është një emër i përgjithshëm për një klasë metodash për testimin statistikor të hipotezave (teste statistikore) bazuar në shpërndarjen e Studentit. Rastet më të zakonshme të aplikimit të t-testit kanë të bëjnë me kontrollin e barazisë së mesatareve në dy mostra.

Ky kriter është zhvilluar William Seeley Gosset

2. Për çfarë përdoret T-testi Student?

T-testi Student përdoret për të përcaktuar rëndësinë statistikore të dallimeve mesatare. Mund të përdoret si në rastet e krahasimit të mostrave të pavarura (për shembull, grupe pacientësh me diabet mellitus dhe grupe njerëzish të shëndetshëm), dhe kur krahasohen popullatat e lidhura (për shembull, shkalla mesatare e pulsit në të njëjtët pacientë para dhe pas marrjes një ilaç antiaritmik). Në rastin e fundit, llogaritet T-testi i Studentit në çift

3. Kur mund të përdoret T-testi i Studentit?

Për të aplikuar T-testin Student, është e nevojshme që të dhënat origjinale të kenë një shpërndarje normale. E rëndësishme është gjithashtu barazia e dispersioneve (shpërndarjeve) të grupeve të krahasuara (homoscedasticiteti). Për variancat e pabarabarta, përdoret testi t Welch (Welch "s t).

Me mungesë shpërndarje normale mostrat e krahasuara, në vend të T-testit Student, përdoren metoda të ngjashme të statistikave joparametrike, ndër të cilat më e famshmja është Mann-Whitney U-test.

4. Si llogaritet testi i Studentit?

Për të krahasuar mesataret, testi i Studentit llogaritet duke përdorur formulën e mëposhtme:

Ku M 1- mesatarja aritmetike e popullsisë së parë të krahasuar (grupi), M 2- mesatarja aritmetike e popullsisë së dytë të krahasuar (grupi), m 1- gabimi mesatar i mesatares së parë aritmetike, m2- gabimi mesatar i mesatares së dytë aritmetike.

Vlera rezultuese e testit t Studentit duhet të interpretohet saktë. Për ta bërë këtë, ne duhet të dimë numrin e lëndëve në secilin grup (n 1 dhe n 2). Gjetja e numrit të shkallëve të lirisë f sipas formulës së mëposhtme:

F \u003d (n 1 + n 2) - 2

Pas kësaj, ne përcaktojmë vlerën kritike të testit t Studentit për nivelin e kërkuar të rëndësisë (për shembull, p=0.05) dhe për një numër të caktuar të shkallëve të lirisë. f sipas tabelës (shih më poshtë).

  • Nëse vlera e llogaritur e testit të Studentit është e barabartë ose më e madhe se vlera kritike e gjetur në tabelë, arrijmë në përfundimin se diferencat midis vlerave të krahasuara janë statistikisht të rëndësishme.
  • Nëse vlera e t-testit të llogaritur të Studentit është më e vogël se ajo tabelare, atëherë ndryshimet midis vlerave të krahasuara nuk janë statistikisht të rëndësishme.

Për të studiuar efektivitetin e një preparati të ri hekuri, u zgjodhën dy grupe pacientësh me anemi. Në grupin e parë, pacientët morën një ilaç të ri për dy javë, dhe në grupin e dytë morën një placebo. Pas kësaj, është matur niveli i hemoglobinës në gjakun periferik. Në grupin e parë, niveli mesatar i hemoglobinës ishte 115,4±1,2 g/l, dhe në grupin e dytë - 103,7±2,3 g/l (të dhënat janë paraqitur në formatin M±m), popullatat e krahasuara kanë një shpërndarje normale. Numri i grupit të parë ishte 34, dhe i dyti - 40 pacientë. Është e nevojshme të nxirret një përfundim për rëndësinë statistikore të dallimeve të marra dhe efektivitetin e përgatitjes së re të hekurit.

Zgjidhja: Për të vlerësuar rëndësinë e dallimeve, ne përdorim testin t Student, të llogaritur si diferencë midis mesatareve të pjesëtuar me shumën e gabimeve në katror:

Pas kryerjes së llogaritjeve, vlera e testit t ishte e barabartë me 4.51. Numri i shkallëve të lirisë e gjejmë si (34 + 40) - 2 = 72. Krahasojmë vlerën e fituar të testit t Studentit 4.51 me vlerën kritike në p=0.05 të treguar në tabelë: 1.993. Meqenëse vlera e llogaritur e kriterit është më e madhe se vlera kritike, konkludojmë se diferencat e vëzhguara janë statistikisht të rëndësishme (niveli i rëndësisë p<0,05).


T-testi I STUDENTIT TË NXËNËSVE TË CILESHTUAR

T-testi i Studentit në çift është një nga modifikimet e metodës Student që përdoret për të përcaktuar rëndësinë statistikore të diferencave në matjet e çiftuara (të përsëritura).

1. Historia e zhvillimit të testit t

u zhvillua t-testi William Gosset për të vlerësuar cilësinë e birrës në Guinness. Në lidhje me detyrimet ndaj kompanisë për të mos zbuluar sekretet tregtare, artikulli i Gosset u botua në 1908 në revistën Biometrics me pseudonimin "Studenti" (Studenti).

2. Për çfarë përdoret T-testi i Studentit në çift?

T-testi i Studentit në çift përdoret për të krahasuar dy mostra të varura (të çiftuara). Të varura janë matjet e marra në të njëjtët pacientë, por në kohë të ndryshme, për shembull, presioni i gjakut në pacientët me hipertension para dhe pas marrjes së një ilaçi antihipertensiv. Hipoteza zero thotë se nuk ka dallime midis mostrave të krahasuara, ndërsa hipoteza alternative thotë se ka dallime statistikisht të rëndësishme.

3. Kur mund të përdoret T-testi i Studentit në çift?

Kushti kryesor është varësia e mostrave, domethënë, vlerat e krahasuara duhet të merren nga matje të përsëritura të një parametri në të njëjtët pacientë.

Ashtu si në rastin e krahasimit të mostrave të pavarura, për të aplikuar t-testin e çiftuar, është e nevojshme që të dhënat origjinale të kenë një shpërndarje normale. Nëse ky kusht nuk plotësohet, metodat statistikore joparametrike, si p.sh Shenjat e testit G ose Wilcoxon t-test.

T-testi i çiftëzuar mund të përdoret vetëm kur krahasohen dy mostra. Nëse dëshironi të krahasoni tre ose më shumë matje të përsëritura, duhet të përdorni analiza e variancës në një drejtim (ANOVA) për matje të përsëritura.

4. Si të llogaritet testi i studentit në çift?

T-testi i Studentit në çift llogaritet duke përdorur formulën e mëposhtme:

Ku M d- mesatarja aritmetike e diferencave midis treguesve të matur para dhe pas, σd- devijimi standard i dallimeve të treguesve, n- numri i lëndëve.

5. Si të interpretohet vlera e testit t Studentit?

Interpretimi i vlerës së përftuar të testit t studentit të çiftuar nuk ndryshon nga vlerësimi i testit t për popullatat e palidhura. Para së gjithash, është e nevojshme të gjesh numrin e shkallëve të lirisë f sipas formulës së mëposhtme:

F = n - 1

Pas kësaj, ne përcaktojmë vlerën kritike të testit t Studentit për nivelin e kërkuar të rëndësisë (për shembull, p<0,05) и при данном числе степеней свободы f sipas tabelës (shih më poshtë).

Krahasojmë vlerat kritike dhe të llogaritura të kriterit:

  • Nëse vlera e llogaritur e testit t Student të çiftuar është e barabartë ose më e madhe se vlera kritike e gjetur në tabelë, arrijmë në përfundimin se diferencat midis vlerave të krahasuara janë statistikisht të rëndësishme.
  • Nëse vlera e testit t studentor të llogaritur të çiftëzuar është më e vogël se vlera e tabelës, atëherë diferencat midis vlerave të krahasuara nuk janë statistikisht të rëndësishme.

6. Një shembull i llogaritjes së testit t Studentit

Për të vlerësuar efektivitetin e një agjenti të ri hipoglikemik, u matën nivelet e glukozës në gjak në pacientët me diabet mellitus para dhe pas marrjes së ilaçit. Si rezultat, u morën të dhënat e mëposhtme:

Zgjidhja:

1. Llogaritni diferencën e çdo çifti vlerash (d):

Pacienti N Niveli i glukozës në gjak, mmol/l Diferenca e vlerës (d)
para marrjes së barit pas marrjes së barit
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Gjeni mesataren aritmetike të diferencave duke përdorur formulën:

3. Gjeni devijimin standard të diferencave nga mesatarja me formulën:

4. Llogaritni T-testin në çift të Studentit:

5. Le të krahasojmë vlerën e fituar të testit t Studentit 8.6 me vlerën tabelare, e cila, me numrin e shkallëve të lirisë f të barabartë me 10 - 1 = 9 dhe nivelin e rëndësisë p=0.05, është 2.262. Duke qenë se vlera e fituar është më e madhe se ajo kritike, konkludojmë se ka dallime statistikisht të rëndësishme në nivelet e glukozës në gjak para dhe pas marrjes së barit të ri.

Tregoni tabelën e vlerave kritike të testit t Student

KRITERI U-MANN-WHITNEY

Mann-Whitney U-test është një test statistikor joparametrik që përdoret për të krahasuar dy mostra të pavarura për sa i përket nivelit të çdo tipari, të matur në mënyrë sasiore. Metoda bazohet në përcaktimin nëse zona e vlerave të kryqëzuara ndërmjet dy serive variacionale është mjaft e vogël (një seri vlerash parametrash në rangun e mostrës së parë dhe e njëjta në kampionin e dytë). Sa më e vogël të jetë vlera e kriterit, aq më shumë ka të ngjarë që ndryshimet midis vlerave të parametrave në mostra të jenë të rëndësishme.

1. Historia e zhvillimit të U-testit

Kjo metodë për zbulimin e dallimeve midis mostrave u propozua në vitin 1945 nga një kimist dhe statisticien amerikan. Frank Wilcoxon.
Në vitin 1947, ai u rishikua dhe u zgjerua ndjeshëm nga matematikanët H.B. Mann(H.B. Mann) dhe D.R. Whitney(D.R. Whitney), me emrat e të cilit quhet zakonisht sot.

2. Për çfarë përdoret Mann-Whitney U-test?

Mann-Whitney U-test përdoret për të vlerësuar ndryshimet midis dy mostrave të pavarura për sa i përket nivelit të çdo tipari sasior.

3. Kur mund të përdoret testi Mann-Whitney U?

Testi U Mann-Whitney është një test joparametrik, pra, ndryshe nga ai T-testi i studentit

Testi U është i përshtatshëm për krahasimin e mostrave të vogla: çdo mostër duhet të përmbajë të paktën 3 vlera të veçorive. Lejohet që në një kampion të ketë 2 vlera, por në të dytën duhet të jenë të paktën pesë.

Kushti për aplikimin e testit Mann-Whitney U është mungesa në grupet e krahasuara të vlerave të atributeve që përputhen (të gjithë numrat janë të ndryshëm) ose një numër shumë i vogël i ndeshjeve të tilla.

Një analog i Mann-Whitney U-test për krahasimin e tre ose më shumë grupeve është Testi Kruskal-Wallis.

4. Si të llogaritet U-testi Mann-Whitney?

Së pari, nga të dy mostrat e krahasuara, rresht i vetëm i renditur, duke i renditur njësitë e vëzhgimit sipas shkallës së rritjes së atributit dhe duke i caktuar një vlerë më të ulët një rangu më të ulët. Në rastin e vlerave të barabarta të atributeve për disa njësi, secilës prej tyre i caktohet mesatarja aritmetike e vlerave të renditjes së njëpasnjëshme.

Për shembull, dy njësi që zënë vendin e dytë dhe të tretë (rangun) në një rresht të vetëm të renditur kanë të njëjtat vlera. Prandaj, secilit prej tyre i caktohet një gradë e barabartë me (3 + 2) / 2 = 2.5.

Në seritë e përpiluara të renditura të vetme, numri i përgjithshëm i gradave do të jetë i barabartë me:

N = n 1 + n 2

ku n 1 është numri i elementeve në kampionin e parë dhe n 2 është numri i elementeve në kampionin e dytë.

Më pas, ne e ndajmë përsëri serinë e vetme të renditur në dy, të përbërë, përkatësisht, nga njësitë e kampionit të parë dhe të dytë, duke kujtuar vlerat e gradave për secilën njësi. Ne llogarisim veçmas shumën e gradave që ranë në pjesën e elementeve të mostrës së parë, dhe veçmas - në pjesën e elementeve të kampionit të dytë. Përcaktoni më të madhen nga dy shumat e renditjes (T x) që i korrespondon mostrës me n x elementë.

Më në fund, ne gjejmë vlerën e testit U Mann-Whitney duke përdorur formulën:

5. Si të interpretohet vlera e Mann-Whitney U-test?

Vlera e fituar e kriterit U krahasohet sipas tabelës për nivelin e zgjedhur të rëndësisë statistikore (p=0.05 ose p=0.01) me vlerën kritike të U për një numër të caktuar mostrash të krahasuara:

  • Nëse vlera rezultuese U më pak tabelore ose barazohet atij, atëherë i njihet rëndësia statistikore e dallimeve midis niveleve të tiparit në mostrat e konsideruara (pranohet një hipotezë alternative). Rëndësia e dallimeve është më e lartë, aq më e ulët është vlera e U.
  • Nëse vlera që rezulton U më shumë tabelore, hipoteza zero pranohet.
Tregoni tabelën e vlerave kritike të testit U Mann-Whitney në p=0.05

KRITERI WILCOXON

Testi i Wilcoxon për mostrat e lidhura (i njohur gjithashtu si testi T Wilcoxon, testi i Wilcoxon, testi i renditjes së nënshkruar nga Wilcoxon, testi i shumës së rangut të Wilcoxon) është një test statistikor joparametrik që përdoret për të krahasuar dy mostra të lidhura (të çiftuara) sipas nivelit të çdo tipari sasior. matur në një shkallë të vazhdueshme ose rendore.

Thelbi i metodës është që të krahasohen vlerat absolute të ashpërsisë së zhvendosjeve në një drejtim ose në një tjetër. Për ta bërë këtë, së pari renditen të gjitha vlerat absolute të ndërrimeve dhe më pas përmblidhen gradat. Nëse zhvendosjet në një drejtim ose në një tjetër ndodhin rastësisht, atëherë shumat e gradave të tyre do të jenë afërsisht të barabarta. Nëse intensiteti i zhvendosjeve në një drejtim është më i madh, atëherë shuma e gradave të vlerave absolute të zhvendosjeve në drejtim të kundërt do të jetë dukshëm më e ulët se sa mund të jetë me ndryshime të rastësishme.

1. Historia e zhvillimit të testit Wilcoxon për mostrat e lidhura

Testi u propozua për herë të parë në 1945 nga statisticieni dhe kimisti amerikan Frank Wilcoxon (1892-1965). Në të njëjtën vepër shkencore, autori përshkroi një kriter tjetër të përdorur në rastin e krahasimit të mostrave të pavarura.

2. Për çfarë përdoret testi Wilcoxon?

Testi Wilcoxon t përdoret për të vlerësuar ndryshimet midis dy grupeve të matjeve të kryera në të njëjtën popullatë subjektesh, por në kushte të ndryshme ose në kohë të ndryshme. Ky test është në gjendje të zbulojë drejtimin dhe ashpërsinë e ndryshimeve - domethënë nëse treguesit janë më të zhvendosur në një drejtim sesa në tjetrin.

Një shembull klasik i një situate në të cilën mund të zbatohet testi Wilcoxon T për popullatat e lidhura është një studim para-pas, ku krahasohen rezultatet para dhe pas trajtimit. Për shembull, kur studiohet efektiviteti i një agjenti antihipertensiv, presioni i gjakut krahasohet para marrjes së ilaçit dhe pas marrjes së tij.

3. Kushtet dhe kufizimet për përdorimin e testit Wilcoxon T

  1. Testi Wilcoxon është një test jo-parametrik, pra, ndryshe nga ai T-testi i nxënësit në çift, nuk kërkon praninë e një shpërndarjeje normale të popullatave të krahasuara.
  2. Numri i subjekteve gjatë përdorimit të testit Wilcoxon T duhet të jetë së paku 5.
  3. Tipari në studim mund të matet si në një shkallë sasiore të vazhdueshme (presioni i gjakut, rrahjet e zemrës, numri i leukociteve për 1 ml gjak) dhe në një shkallë rendore (numri i pikëve, ashpërsia e sëmundjes, shkalla e kontaminimit nga mikroorganizmat).
  4. Ky kriter përdoret vetëm kur krahasohen dy seri matjesh. Një analog i testit Wilcoxon T për krahasimin e tre ose më shumë popullatave të lidhura është Kriteri Friedman.

4. Si të llogaritet testi Wilcoxon T për mostrat përkatëse?

  1. Llogaritni diferencën midis vlerave të matjeve të çiftuara për secilën lëndë. Zhvendosjet zero nuk merren parasysh më tej.
  2. Përcaktoni se cilat nga ndryshimet janë tipike, domethënë ato korrespondojnë me drejtimin e ndryshimit të treguesit që mbizotëron në frekuencë.
  3. Renditni dallimet e çifteve sipas vlerave të tyre absolute (d.m.th., pa marrë parasysh shenjën), në rend rritës. Një vlerë absolute më e ulët e diferencës i caktohet një gradë më e ulët.
  4. Llogaritni shumën e gradave që korrespondojnë me ndërrimet atipike.

Kështu, testi Wilcoxon T për mostrat përkatëse llogaritet me formulën e mëposhtme:

ku ΣRr është shuma e gradave që i korrespondojnë ndryshimeve atipike të treguesit.

5. Si të interpretohet vlera e testit Wilcoxon?

Vlera e përftuar e testit Wilcoxon T krahasohet me vlerën kritike sipas tabelës për nivelin e zgjedhur të rëndësisë statistikore ( p=0.05 ose p=0.01) për një numër të caktuar mostrash të krahasuara n:

  • Nëse vlera e llogaritur (empirike) e Temp. më pak se T kr. ose e barabartë me të, atëherë njihet rëndësia statistikore e ndryshimeve të treguesit në drejtimin tipik (pranohet një hipotezë alternative). Rëndësia e dallimeve është më e lartë, aq më e ulët është vlera e T.
  • Nëse Temp. më shumë T kr. , pranohet hipoteza zero për mungesën e rëndësisë statistikore të ndryshimeve të treguesit.

Një shembull i llogaritjes së testit Wilcoxon për mostrat përkatëse

Një kompani farmaceutike po kryen kërkime për një medikament të ri nga grupi i barnave antiinflamatore jo-steroide. Për këtë u përzgjodh një grup prej 10 vullnetarësh që vuanin nga infeksione virale respiratore akute me hipertermi. Temperatura e trupit të tyre është matur para dhe 30 minuta pas marrjes së ilaçit të ri. Kërkohet të nxirret një përfundim në lidhje me rëndësinë e uljes së temperaturës së trupit si rezultat i marrjes së ilaçit.

  1. Të dhënat fillestare janë paraqitur në formën e tabelës së mëposhtme:
  2. Për të llogaritur testin Wilcoxon T, ne llogarisim diferencat në treguesit e çiftuar dhe renditim vlerat e tyre absolute. Në të njëjtën kohë, renditjet atipike do të theksohen me të kuqe:
    N Mbiemri t të trupit para marrjes së barit t të trupit pas marrjes së barit Diferenca e treguesve, d |d| Rendit
    1. Ivanov 39.0 37.6 -1.4 1.4 7
    2. Petrov 39.5 38.7 -0.8 0.8 5
    3. Sidorov 38.6 38.7 0.1 0.1 1.5
    4. Popov 39.1 38.5 -0.6 0.6 4
    5. Nikolaev 40.1 38.6 -1.5 1.5 8
    6. Kozlov 39.3 37.5 -1.8 1.8 9
    7. Ignatiev 38.9 38.8 -0.1 0.1 1.5
    8. Semenov 39.2 38.0 -1.2 1.2 6
    9. Egorov 39.8 39.8 0
    10. Alekseev 38.8 39.3 0.5 0.5 3
    Siç e shohim zhvendosje tipike tregues është rënia e tij, e vërejtur në 7 raste nga 10. Në një rast (te pacienti Egorov), temperatura nuk ka ndryshuar pas marrjes së barit dhe për këtë arsye ky rast nuk është përdorur në analiza të mëtejshme. Në dy raste (në pacientët e Sidorov dhe Alekseev) zhvendosje atipike temperatura lart. Radhët që korrespondojnë me zhvendosjen atipike janë 1.5 dhe 3.
  3. Ne llogarisim testin Wilcoxon T, i cili është i barabartë me shumën e gradave që korrespondojnë me zhvendosjen atipike të treguesit:

    T = ΣRr = 3 + 1,5 = 4,5

  4. Krahasoni Temp. me T kr. , e cila në nivelin e rëndësisë p=0.05 dhe n=9 është e barabartë me 8. Prandaj, T emp.
  5. Ne konkludojmë se ulja e temperaturës së trupit në pacientët me ARVI si rezultat i marrjes së një ilaçi të ri është statistikisht i rëndësishëm (p<0.05).
Tregoni tabelën e vlerave kritike të testit Wilcoxon T

Testi CHI-SQUARE i PEARSON

Testi χ2 Pearson është një metodë joparametrike që ju lejon të vlerësoni rëndësinë e dallimeve midis numrit aktual (të zbuluar si rezultat i studimit) të rezultateve ose karakteristikave cilësore të kampionit që bien në secilën kategori dhe numrit teorik që mund të pritet në grupet e studiuara nëse hipoteza zero është e vërtetë. Në terma më të thjeshtë, metoda ju lejon të vlerësoni rëndësinë statistikore të dallimeve midis dy ose më shumë treguesve relativë (frekuenca, aksione).

1. Historia e zhvillimit të kriterit χ 2

Testi chi-square për analizën e tabelave të kontigjencës u zhvillua dhe u propozua në vitin 1900 nga një matematikan, statistician, biolog dhe filozof anglez, themeluesi i statistikave matematikore dhe një nga themeluesit e biometrisë. Karl Pearson(1857-1936).

2. Për çfarë përdoret kriteri χ 2 i Pearson?

Në analizë mund të aplikohet testi chi-square tabelat e emergjencës që përmban informacion në lidhje me shpeshtësinë e rezultateve në varësi të pranisë së një faktori rreziku. Për shembull, një tabelë e emergjencës me katër fusha duket si kjo:

Eksodi është (1) Nuk ka dalje (0) Total
Ekziston një faktor rreziku (1) A B A+B
Asnjë faktor rreziku (0) C D C+D
Total A+C B+D A+B+C+D

Si të plotësoni një tabelë të tillë emergjence? Le të shqyrtojmë një shembull të vogël.

Një studim është duke u zhvilluar mbi efektin e pirjes së duhanit në rrezikun e zhvillimit të hipertensionit arterial. Për këtë, u zgjodhën dy grupe subjektesh - i pari përfshinte 70 persona që pinë të paktën 1 paketë cigare në ditë, i dyti - 80 jo duhanpirës të së njëjtës moshë. Në grupin e parë, 40 persona kishin tension të lartë. Në të dytën - hipertensioni arterial u vu re në 32 persona. Prandaj, presioni normal i gjakut në grupin e duhanpirësve ishte në 30 persona (70 - 40 = 30) dhe në grupin e jo duhanpirësve - në 48 (80 - 32 = 48).

Ne plotësojmë tabelën e emergjencës me katër fusha me të dhënat fillestare:

Në tabelën e kontigjencës që rezulton, secila rresht korrespondon me një grup specifik subjektesh. Kolonat - tregojnë numrin e personave me hipertension arterial ose me presion normal të gjakut.

Sfida për studiuesin është: a ka dallime statistikisht domethënëse midis frekuencës së njerëzve me presion të gjakut midis duhanpirësve dhe joduhanpirësve? Ju mund t'i përgjigjeni kësaj pyetjeje duke llogaritur testin chi-square të Pearson dhe duke krahasuar vlerën që rezulton me atë kritike.

  1. Treguesit e krahasueshëm duhet të maten në një shkallë nominale (për shembull, gjinia e pacientit - mashkull ose femër) ose në një shkallë rendore (për shembull, shkalla e hipertensionit arterial, e cila merr vlera nga 0 në 3).
  2. Kjo metodë lejon analizën jo vetëm të tabelave me katër fusha, kur si faktori ashtu edhe rezultati janë variabla binare, domethënë ato kanë vetëm dy vlera të mundshme (për shembull, mashkull ose femër, prania ose mungesa e një sëmundjeje të caktuar. ne histori ...). Testi chi-square i Pearson mund të përdoret gjithashtu në rastin e analizës së tabelave me shumë fusha, kur faktori dhe (ose) rezultati marrin tre ose më shumë vlera.
  3. Grupet e përputhura duhet të jenë të pavarura, pra testi chi-square nuk duhet të përdoret kur krahasohen vëzhgimet para-pas. Testi i McNemar(kur krahasohen dy popullata të lidhura) ose të llogaritura Q-testi Cochran(në rast të krahasimit të tre ose më shumë grupeve).
  4. Kur analizohen tabelat me katër fusha vlerat e pritura në secilën nga qelizat duhet të jetë së paku 10. Në rast se në të paktën një qelizë fenomeni i pritshëm merr një vlerë nga 5 në 9, duhet të llogaritet testi chi-square. me korrigjim Yates. Nëse në të paktën një qelizë fenomeni i pritur është më pak se 5, atëherë analiza duhet të përdoret Testi i saktë i Fisher.
  5. Në rastin e analizës së tabelave me shumë fusha, numri i pritshëm i vëzhgimeve nuk duhet të marrë vlera më të vogla se 5 në më shumë se 20% të qelizave.

4. Si të llogarisim testin chi-square të Pearson?

Për të llogaritur testin chi-square, duhet:

Ky algoritëm është i zbatueshëm si për tabelat me katër fusha ashtu edhe për tabelat me shumë fusha.

5. Si të interpretohet vlera e testit chi-square të Pearson?

Në rast se vlera e fituar e kriterit χ 2 është më e madhe se ajo kritike, konkludojmë se ekziston një lidhje statistikore midis faktorit të rrezikut të studiuar dhe rezultatit në nivelin e duhur të rëndësisë.

6. Një shembull i llogaritjes së testit chi-square Pearson

Le të përcaktojmë rëndësinë statistikore të ndikimit të faktorit të duhanit në incidencën e hipertensionit arterial sipas tabelës së mësipërme:

  1. Ne llogarisim vlerat e pritura për secilën qelizë:
  2. Gjeni vlerën e testit chi-square të Pearson:

    χ 2 \u003d (40-33,6) 2 / 33,6 + (30-36,4) 2 / 36,4 + (32-38,4) 2 / 38,4 + (48-41,6) 2 / 41,6 \u003d 4,396.

  3. Numri i shkallëve të lirisë f = (2-1)*(2-1) = 1. Ne gjejmë vlerën kritike të testit chi-square Pearson nga tabela, e cila, në një nivel të rëndësisë prej p=0,05 dhe numri i shkallëve të lirisë 1, është 3.841.
  4. Krahasojmë vlerën e përftuar të testit chi-square me atë kritike: 4,396 > 3,841, prandaj, varësia e incidencës së hipertensionit arterial nga prania e duhanit është statistikisht e rëndësishme. Niveli i rëndësisë së kësaj marrëdhënieje korrespondon me p<0.05.
Tregoni tabelën e vlerave kritike të testit chi-square të Pearson

KRITERI SAKTË I FISHER

Testi i saktë i Fisher është një test që përdoret për të krahasuar dy tregues relativë që karakterizojnë frekuencën e një tipari të veçantë që ka dy vlera. Të dhënat fillestare për llogaritjen e testit të saktë të Fisher zakonisht grupohen në formën e një tabele me katër fusha.

1. Historia e zhvillimit të kriterit

Kriteri u propozua fillimisht Ronald Fisher në librin e tij Design of Experiments. Kjo ndodhi në vitin 1935. Vetë Fisher pretendoi se Muriel Bristol e nxiti këtë ide. Në fillim të viteve 1920, Ronald, Muriel dhe William Roach ishin në Angli në një stacion eksperimental bujqësor. Muriel pretendoi se ishte në gjendje të përcaktonte sekuencën në të cilën çaji dhe qumështi u derdhën në filxhanin e saj. Në atë kohë, nuk ishte e mundur të verifikohej saktësia e deklaratës së saj.

Kjo shkaktoi idenë e Fisher për "hipotezën zero". Qëllimi nuk ishte të përpiqeshim të provonim se Muriel mund të bënte dallimin midis filxhanëve të çajit të përgatitur ndryshe. U vendos për të hedhur poshtë hipotezën se një grua bën një zgjedhje rastësisht. U konstatua se hipoteza zero as nuk mund të vërtetohet dhe as të vërtetohet. Por mund të përgënjeshtrohet gjatë eksperimenteve.

Janë bërë 8 gota. Në katër të parat, qumështi derdhet së pari, në katër të tjerët - çaji. Kupat ishin ngatërruar. Bristol u ftua për të shijuar çajin dhe për të ndarë filxhanët sipas metodës së përgatitjes së çajit. Rezultati duhet të ishte dy grupe. Historia thotë se eksperimenti ishte një sukses.

Falë testit Fisher, probabiliteti që Bristol të veprojë në mënyrë intuitive është reduktuar në 0,01428. Domethënë, ishte e mundur të përcaktohej saktë kupa në një rast nga 70. Por megjithatë, nuk ka asnjë mënyrë për të ulur në zero shanset që zonja përcakton rastësisht. Edhe nëse rrisni numrin e filxhanëve.

Kjo histori i dha shtysë zhvillimit të "hipotezës zero". Në të njëjtën kohë, u propozua testi i saktë i Fisher, thelbi i të cilit është të numërojë të gjitha kombinimet e mundshme të variablave të varur dhe të pavarur.

2. Për çfarë përdoret testi i saktë i Fisher?

Testi i saktë i Fisher përdoret kryesisht për të krahasuar mostrat e vogla. Ka dy arsye të rëndësishme për këtë. Së pari, llogaritja e kriterit është mjaft e rëndë dhe mund të marrë shumë kohë ose të kërkojë burime të fuqishme kompjuterike. Së dyti, kriteri është mjaft i saktë (që pasqyrohet edhe në emrin e tij), gjë që lejon që ai të përdoret në studime me një numër të vogël vëzhgimesh.

Një vend të veçantë i jepet kriterit të saktë të Fisher në mjekësi. Kjo është një metodë e rëndësishme e përpunimit të të dhënave mjekësore, e cila ka gjetur aplikimin e saj në shumë studime shkencore. Falë tij, është e mundur të hulumtohet marrëdhënia e disa faktorëve dhe rezultateve, të krahasohet shpeshtësia e gjendjeve patologjike midis dy grupeve të subjekteve, etj.

3. Në cilat raste mund të përdoret testi i saktë i Fisher?

  1. Variablat e krahasueshëm duhet të maten në një shkallë nominale dhe të kenë vetëm dy vlera, për shembull, presioni i gjakut është normal ose i ngritur, rezultati është i favorshëm ose i pafavorshëm, ka komplikime postoperative ose jo.
  2. Testi i saktë i Fisher është krijuar për të krahasuar dy grupe të pavarura të ndara sipas faktorit. Prandaj, faktori duhet gjithashtu të ketë vetëm dy vlera të mundshme.
  3. Testi është i përshtatshëm për krahasimin e mostrave shumë të vogla: Testi i saktë i Fisher mund të përdoret për të analizuar tabelat me katër të plota në rast të vlerave të dukurive të pritshme më të vogla se 5, që është një kufizim për aplikim. Testi chi-square i Pearson, edhe me korrigjimin e Yates.
  4. Testi i saktë i Fisher mund të jetë i njëanshëm ose i dyanshëm. Me një opsion të njëanshëm, dihet saktësisht se ku do të devijojë njëri prej treguesve. Për shembull, një studim krahason sa pacientë u shëruan në krahasim me një grup kontrolli. Supozohet se terapia nuk mund të përkeqësojë gjendjen e pacientëve, por vetëm të shërojë ose jo.
    Testi me dy bishta vlerëson ndryshimet e frekuencës në dy drejtime. Kjo do të thotë, vlerësohet probabiliteti i një frekuence më të lartë dhe më të ulët të fenomenit në grupin eksperimental në krahasim me grupin e kontrollit.

Një analog i testit të saktë të Fisher është Testi chi-square i Pearson, ndërsa testi i saktë i Fisher-it ka një fuqi më të lartë, veçanërisht kur krahasohen mostrat e vogla, dhe për këtë arsye ka një avantazh në këtë rast.

4. Si të llogarisim testin e saktë të Fisher?

Për shembull, ne studiojmë varësinë e shpeshtësisë së lindjes së fëmijëve me keqformime kongjenitale (CMD) nga pirja e duhanit nga nëna gjatë shtatzënisë. Për këtë u përzgjodhën dy grupe shtatzënash, njëri prej të cilëve eksperimental, i përbërë nga 80 gra që pinin duhan në tremujorin e parë të shtatzënisë dhe i dyti është një grup krahasues, ku përfshihen 90 gra që udhëheqin një mënyrë jetese të shëndetshme gjatë gjithë shtatzënisë. Numri i rasteve të CM fetale në grupin eksperimental ishte 10, në grupin e krahasimit - 2.

Së pari, ne përpilojmë një tabelë të emergjencës me katër fusha:

Testi i saktë i Fisher llogaritet duke përdorur formulën e mëposhtme:

ku N është numri i përgjithshëm i lëndëve në të dy grupet; ! - faktorial, i cili është prodhimi i një numri dhe i një sekuence numrash, secili prej të cilëve është më i vogël se ai i mëparshmi me 1 (për shembull, 4! = 4 3 2 1)

Si rezultat i llogaritjeve, ne gjejmë se P = 0.0137.

5. Si të interpretohet vlera e testit të saktë të Fisher?

Avantazhi i metodës është korrespondenca e kriterit të marrë me vlerën e saktë të nivelit të rëndësisë p. Kjo do të thotë, vlera 0.0137 e marrë në shembullin tonë është niveli i rëndësisë së dallimeve midis grupeve të krahasuara për sa i përket incidencës së CM fetale. Është e nevojshme vetëm të krahasohet ky numër me nivelin kritik të rëndësisë, që zakonisht merret në kërkimet mjekësore si 0.05.

  • Nëse vlera e testit ekzakt të Fisher-it është më e madhe se ajo kritike, hipoteza zero pranohet dhe nxirret përfundimi se nuk ka dallime statistikisht domethënëse në frekuencën e rezultatit në varësi të pranisë së një faktori rreziku.
  • Nëse vlera e testit ekzakt të Fisher është më e vogël se ajo kritike, pranohet një hipotezë alternative dhe bëhet një përfundim për praninë e diferencave statistikisht të rëndësishme në frekuencën e rezultatit në varësi të ndikimit të faktorit të rrezikut.

Në shembullin tonë P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


Raporti i gjasave

Raporti i gjasave është një tregues statistikor (në rusisht emri i tij zakonisht shkurtohet si OSH, dhe në anglisht - OSE nga "raporti i shaneve"), një nga mënyrat kryesore për të përshkruar në terma numerikë se sa është mungesa ose prania e një rezultati të caktuar. shoqërohet me praninë ose mungesën e një faktori të caktuar në një grup specifik statistikor.

1. Historia e zhvillimit të treguesit të raportit të gjasave

Termi "shans" erdhi nga teoria e lojërave të fatit, ku me ndihmën e këtij koncepti shënuan raportin e pozicioneve fituese me ato të humbura. Në literaturën mjekësore shkencore, treguesi i raportit të gjasave u përmend për herë të parë në vitin 1951 në veprën e J. Kornfield. Më pas, ky studiues publikoi punime që vunë në dukje nevojën për të llogaritur një interval besimi prej 95% për raportin e shaneve. (Cornfield, J. Një metodë për vlerësimin e normave krahasuese nga të dhënat klinike. Aplikime për kancerin e mushkërive, gjirit dhe qafës së mitrës // Gazeta e Institutit Kombëtar të Kancerit, 1951. - N.11. - P.1269–1275.)

2. Për çfarë përdoret raporti i gjasave?

Raporti i gjasave ju lejon të vlerësoni marrëdhënien midis një rezultati të caktuar dhe një faktori rreziku.

Raporti i gjasave ju lejon të krahasoni grupet e subjekteve për sa i përket shpeshtësisë së identifikimit të një faktori të veçantë rreziku. Është e rëndësishme që rezultati i aplikimit të raportit të gjasave të jetë jo vetëm përcaktimi i rëndësisë statistikore të marrëdhënies ndërmjet faktorit dhe rezultatit, por edhe vlerësimi sasior i tij.

3. Kushtet dhe kufizimet për zbatimin e raportit të shanset

  1. Treguesit e performancës dhe faktorëve duhet të maten në një shkallë nominale. Për shembull, shenja rezultante është prania ose mungesa e një keqformimi kongjenital në fetus, faktori i studiuar është duhanpirja e nënës (pirja ose mospirja e duhanit).
  2. Kjo metodë lejon analizën e vetëm tabelave me katër fusha, kur si faktori ashtu edhe rezultati janë variabla binare, domethënë ato kanë vetëm dy vlera të mundshme (për shembull, gjinia - mashkull ose femër, hipertension arterial - prani ose mungesë , rezultati i sëmundjes - me ose pa përmirësim ...).
  3. Grupet e përputhura duhet të jenë të pavarura, domethënë, raporti i gjasave nuk është i përshtatshëm për krahasimin e vëzhgimeve para-pas.
  4. Treguesi i raportit të gjasave përdoret në studimet e rasteve të kontrollit (për shembull, grupi i parë - pacientë me hipertension, i dyti - njerëz relativisht të shëndetshëm). Për studimet prospektive, kur grupet formohen në bazë të pranisë ose mungesës së një faktori rreziku (për shembull, grupi i parë - duhanpirësit, grupi i dytë - jo duhanpirës), mund të llogaritet gjithashtu. rrezik relativ.

4. Si të llogarisni raportin e gjasave?

Raporti i gjasave është vlera e thyesës, në numëruesin e së cilës janë shanset e një ngjarjeje të caktuar për grupin e parë, dhe në emërues janë shanset e së njëjtës ngjarje për grupin e dytë.

shansështë raporti i numrit të lëndëve që kanë një veçori (rezultat ose faktor) të caktuar me numrin e subjekteve që nuk e kanë këtë veçori.

Për shembull, u zgjodh një grup pacientësh të operuar për nekrozë pankreatike, numri i të cilëve ishte 100 persona. Pas 5 vitesh, 80 prej tyre mbijetuan. Prandaj, shanset për të mbijetuar ishin 80 me 20, ose 4.

Një mënyrë e përshtatshme është llogaritja e raportit të shanset me të dhëna të përmbledhura në një tabelë 2x2:

Eksodi është (1) Nuk ka dalje (0) Total
Ekziston një faktor rreziku (1) A B A+B
Asnjë faktor rreziku (0) C D C+D
Total A+C B+D A+B+C+D

Për këtë tabelë, raporti i gjasave llogaritet duke përdorur formulën e mëposhtme:

Është shumë e rëndësishme të vlerësohet rëndësia statistikore e marrëdhënies së identifikuar midis rezultatit dhe faktorit të rrezikut. Kjo për faktin se edhe me vlera të ulëta të raportit të gjasave afër një, marrëdhënia, megjithatë, mund të rezultojë e rëndësishme dhe duhet të merret parasysh në përfundimet statistikore. Anasjelltas, në vlerat e mëdha OR, treguesi rezulton të jetë statistikisht i parëndësishëm dhe, për rrjedhojë, lidhja e zbuluar mund të neglizhohet.

Për të vlerësuar rëndësinë e raportit të gjasave, llogariten kufijtë e intervalit të besimit 95% (përdoret shkurtesa 95% CI ose 95% CI nga anglishtja "interval i besimit"). Formula për gjetjen e vlerës së kufirit të sipërm prej 95% CI:

Formula për gjetjen e vlerës së kufirit të poshtëm prej 95% CI:

5. Si të interpretohet vlera e raportit të gjasave?

  • Nëse raporti i gjasave është më i madh se 1, atëherë kjo do të thotë që shanset për të gjetur një faktor rreziku janë më të mëdha në grupin me një rezultat. Ato. faktori ka një lidhje të drejtpërdrejtë me gjasat e një rezultati.
  • Një raport shanse më i vogël se 1 tregon se shanset për të gjetur një faktor rreziku janë më të mëdha në grupin e dytë. Ato. faktori ka një lidhje të anasjelltë me probabilitetin e rezultatit.
  • Me një raport shanse të barabartë me një, shanset për të gjetur një faktor rreziku në grupet e krahasuara janë të njëjta. Prandaj, faktori nuk ka asnjë ndikim në probabilitetin e rezultatit.

Për më tepër, në çdo rast, rëndësia statistikore e raportit të gjasave vlerësohet domosdoshmërisht bazuar në vlerat e intervalit të besimit 95%.

  • Nëse intervali i besimit nuk përfshin 1, d.m.th. të dy vlerat e kufijve janë ose mbi ose nën 1, është bërë një përfundim në lidhje me rëndësinë statistikore të marrëdhënies së identifikuar midis faktorit dhe rezultatit në një nivel të rëndësisë prej p.<0,05.
  • Nëse intervali i besimit përfshin 1, d.m.th. kufiri i sipërm i tij është më i madh se 1, dhe kufiri i poshtëm është më i vogël se 1, arrihet në përfundimin se nuk ka rëndësi statistikore të marrëdhënies ndërmjet faktorit dhe rezultatit në një nivel sinjifikance p>0.05.
  • Vlera e intervalit të besimit është në përpjesëtim të zhdrejtë me nivelin e rëndësisë së marrëdhënies ndërmjet faktorit dhe rezultatit, d.m.th. sa më i vogël të jetë CI 95%, aq më domethënëse është marrëdhënia e identifikuar.

6. Një shembull i llogaritjes së treguesit të raportit të gjasave

Imagjinoni dy grupe: i pari përbëhej nga 200 gra që u diagnostikuan me një keqformim kongjenital të fetusit (Rezultati+). Prej tyre, pinë duhan gjatë shtatzënisë (Factor+) - 50 persona (A), ishin jo duhanpirës (Factor-) - 150 persona (ME).

Grupi i dytë përbëhej nga 100 gra pa shenja të keqformimeve të fetusit (Rezultati -), ndër të cilat 10 persona pinin duhan gjatë shtatzënisë (Faktor +) (B), nuk pinte duhan (Factor-) - 90 persona (D).

1. Përpiloni një tabelë të emergjencës me katër fusha:

2. Llogaritni vlerën e raportit të gjasave:

OSE = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Gjeni kufijtë e 95% CI. Vlera e kufirit të poshtëm të llogaritur sipas formulës së mësipërme ishte 1.45, dhe kufiri i sipërm ishte 6.21.

Kështu, studimi tregoi se shanset për të takuar një grua duhanpirëse në mesin e pacientëve të diagnostikuar me CM fetale janë 3 herë më të larta se tek gratë pa shenja të CM fetale. Varësia e vëzhguar është statistikisht e rëndësishme, pasi 95% e CI nuk përfshin 1, vlerat e kufijve të saj të poshtëm dhe të sipërm janë më të mëdha se 1.


RREZIK RELATIV

Rreziku është mundësia e një rezultati të caktuar, si sëmundje ose lëndim. Rreziku mund të marrë vlera nga 0 (nuk ka probabilitet për një rezultat) në 1 (në të gjitha rastet pritet një rezultat i pafavorshëm). Në statistikat mjekësore, si rregull, studiohen ndryshimet në rrezikun e një rezultati në varësi të disa faktorëve. Pacientët ndahen me kusht në 2 grupe, njëri prej të cilëve është i prekur nga faktori, tjetri jo.

Rreziku relativ është raporti i frekuencës së rezultateve midis subjekteve të prekura nga faktori në studim ndaj shpeshtësisë së rezultateve midis subjekteve që nuk preken nga ai faktor. Në literaturën shkencore, shpesh përdoret emri i shkurtuar i treguesit - RR ose RR (nga anglishtja "rreziku relativ").

1. Historiku i zhvillimit të treguesit të rrezikut relativ

Llogaritja e rrezikut relativ është huazuar nga statistikat mjekësore nga ekonomia. Një vlerësim i saktë i ndikimit të faktorëve politikë, ekonomikë dhe socialë në kërkesën për një produkt ose shërbim mund të çojë në sukses, dhe nënvlerësimi i këtyre faktorëve mund të çojë në dështime financiare dhe falimentim të ndërmarrjes.

2. Për çfarë përdoret rreziku relativ?

Rreziku relativ përdoret për të krahasuar gjasat e një rezultati në varësi të pranisë së një faktori rreziku. Për shembull, kur vlerësohet efekti i pirjes së duhanit në incidencën e hipertensionit, kur studiohet varësia e incidencës së kancerit të gjirit nga kontraceptivët oralë, etj. Rreziku relativ është treguesi më i rëndësishëm në përshkrimin e trajtimeve të caktuara ose kryerjen e studimeve me efekte anësore të mundshme.

3. Kushtet dhe kufizimet për përdorimin e rrezikut relativ

  1. Masat e faktorëve dhe rezultateve duhet të maten në një shkallë nominale (p.sh. gjinia e pacientit, mashkull apo femër, hipertension i pranishëm ose jo).
  2. Kjo metodë lejon analizën e vetëm tabelave me katër fusha kur si faktori ashtu edhe rezultati janë variabla të pandarë, domethënë ato kanë vetëm dy vlera të mundshme (për shembull, mosha nën ose mbi 50 vjeç, prania ose mungesa e një specifiki sëmundje në histori).
  3. Rreziku relativ përdoret në studimet prospektive, kur grupet e studimit formohen në bazë të pranisë ose mungesës së një faktori rreziku. Në studimet e rastit të kontrollit, rreziku relativ duhet të zëvendësohet nga treguesi raporti i gjasave.

4. Si të llogaritet rreziku relativ?

Për të llogaritur rrezikun relativ, është e nevojshme:

5. Si të interpretohet vlera relative e rrezikut?

Rezultati i rrezikut relativ krahasohet me 1 për të përcaktuar natyrën e marrëdhënies midis faktorit dhe rezultatit:

  • Nëse RR është 1, mund të konkludohet se faktori në studim nuk ndikon në probabilitetin e rezultatit (nuk ka lidhje midis faktorit dhe rezultatit).
  • Në vlera më të mëdha se 1, arrihet në përfundimin se faktori rrit frekuencën e rezultateve (lidhja direkte).
  • Në vlerat më të vogla se 1 - në lidhje me një ulje të probabilitetit të një rezultati nën ndikimin e një faktori ( Feedback).

Vlerat e kufijve të intervalit të besimit 95% gjithashtu vlerësohen domosdoshmërisht. Nëse të dyja vlerat - si kufiri i poshtëm ashtu edhe ai i sipërm - janë në të njëjtën anë të 1, ose, me fjalë të tjera, intervali i besimit nuk përfshin 1, atëherë bëhet një përfundim në lidhje me rëndësinë statistikore të marrëdhënies së identifikuar midis faktori dhe rezultati me probabilitetin e gabimit p<0,05.

Nëse kufiri i poshtëm i 95% CI është më i vogël se 1, dhe kufiri i sipërm është më i madh, atëherë arrihet në përfundimin se nuk ka rëndësi statistikore të ndikimit të faktorit në shkallën e rezultatit, pavarësisht nga vlera RR (p> 0.05).

6. Një shembull i llogaritjes së treguesit të rrezikut relativ

Në vitin 1999, u kryen studime në Oklahoma mbi incidencën e meshkujve me ulçerë stomaku. Konsumimi i rregullt i ushqimit të shpejtë u zgjodh si faktor ndikues. Në grupin e parë ishin 500 meshkuj që hanin vazhdimisht ushqim të shpejtë, ndër të cilët ulçera në stomak u diagnostikua në 96 persona. Grupi i dytë përfshinte 500 mbështetës të një diete të shëndetshme, mes të cilëve u diagnostikua ulçera në stomak në 31 raste. Bazuar në të dhënat e marra, u ndërtua tabela e mëposhtme e kontigjencës:


KRITERI I KORELACIONIT PEARSON

Testi i korrelacionit të Pearson është një metodë statistikore parametrike që ju lejon të përcaktoni praninë ose mungesën e një marrëdhënie lineare midis dy treguesve sasiorë, si dhe të vlerësoni afërsinë dhe rëndësinë statistikore të saj. Me fjalë të tjera, testi i korrelacionit Pearson ju lejon të përcaktoni nëse një tregues ndryshon (rrit ose zvogëlohet) në përgjigje të ndryshimeve në një tjetër? Në llogaritjet statistikore dhe konkluzionet, koeficienti i korrelacionit zakonisht shënohet si r xy ose R xy.

1. Historia e zhvillimit të kriterit të korrelacionit

Testi i korrelacionit Pearson u zhvillua nga një ekip shkencëtarësh britanikë të udhëhequr nga Karl Pearson(1857-1936) në vitet '90 të shekullit të 19-të, për të thjeshtuar analizën e kovariancës së dy ndryshoreve të rastit. Përveç Karl Pearson, u punua edhe testi i korrelacionit të Pearson Francis Edgeworth Dhe Raphael Weldon.

2. Për çfarë përdoret testi i korrelacionit të Pearson?

Kriteri i korrelacionit Pearson ju lejon të përcaktoni se cila është afërsia (ose forca) e korrelacionit midis dy treguesve të matur në një shkallë sasiore. Me ndihmën e llogaritjeve shtesë, ju gjithashtu mund të përcaktoni se sa e rëndësishme është statistikisht marrëdhënia e identifikuar.

Për shembull, duke përdorur kriterin e korrelacionit Pearson, mund t'i përgjigjemi pyetjes nëse ka një lidhje midis temperaturës së trupit dhe përmbajtjes së leukociteve në gjak në infeksionet akute të frymëmarrjes, midis lartësisë dhe peshës së pacientit, midis përmbajtjes së fluorit. në ujin e pijshëm dhe incidencën e kariesit në popullatë.

3. Kushtet dhe kufizimet për përdorimin e testit chi-square të Pearson

  1. Treguesit e krahasueshëm duhet të maten në një shkallë sasiore (për shembull, rrahjet e zemrës, temperatura e trupit, numri i leukociteve për 1 ml gjak, presioni sistolik i gjakut).
  2. Me anë të kriterit të korrelacionit Pearson, është e mundur të përcaktohet vetëm prania dhe forca e një marrëdhënie lineare midis sasive. Karakteristika të tjera të lidhjes, duke përfshirë drejtimin (i drejtpërdrejtë ose të kundërt), natyrën e ndryshimeve (drejt ose lakuar), si dhe varësinë e një ndryshoreje nga një tjetër, përcaktohen duke përdorur analiza e regresionit.
  3. Numri i vlerave që do të krahasohen duhet të jetë i barabartë me dy. Në rastin e analizimit të marrëdhënies së tre ose më shumë parametrave, duhet të përdorni metodën analiza faktoriale.
  4. Testi i korrelacionit Pearson është parametrik, prandaj kusht për zbatimin e tij është shpërndarja normale e secilit prej variablave të krahasuar. Nëse është e nevojshme të kryhet një analizë korrelacioni e treguesve shpërndarja e të cilëve ndryshon nga ajo normale, duke përfshirë ato të matura në një shkallë rendore, duhet përdorur Koeficienti i korrelacionit të gradës së Spearman.
  5. Është e nevojshme të bëhet dallimi i qartë midis koncepteve të varësisë dhe korrelacionit. Varësia e vlerave përcakton praninë e një korrelacioni midis tyre, por jo anasjelltas.

Për shembull, rritja e një fëmije varet nga mosha e tij, domethënë sa më i madh të jetë fëmija, aq më i gjatë është. Nëse marrim dy fëmijë të moshave të ndryshme, atëherë me një shkallë të lartë probabiliteti rritja e fëmijës më të madh do të jetë më e madhe se ajo e më të voglit. Ky fenomen quhet varësi, duke nënkuptuar një marrëdhënie shkakësore midis treguesve. Sigurisht që ka edhe një korrelacion mes tyre, që do të thotë se ndryshimet në një tregues shoqërohen me ndryshime në një tregues tjetër.

Në një situatë tjetër, merrni parasysh marrëdhënien midis rritjes së fëmijës dhe ritmit të zemrës (HR). Siç e dini, të dyja këto vlera varen drejtpërdrejt nga mosha, prandaj, në shumicën e rasteve, fëmijët me shtat më të madh (dhe, për rrjedhojë, më të rriturit) do të kenë vlera më të ulëta të rrahjeve të zemrës. Kjo do të thotë, do të vërehet një korrelacion dhe mund të ketë një ngushtësi mjaft të lartë. Sidoqoftë, nëse marrim fëmijë të së njëjtës moshë, por lartësi të ndryshme, atëherë, ka shumë të ngjarë, rrahjet e tyre të zemrës do të ndryshojnë në mënyrë të parëndësishme, dhe për këtë arsye mund të konkludojmë se rrahjet e zemrës janë të pavarura nga rritja.

Ky shembull tregon se sa e rëndësishme është të bëhet dallimi midis koncepteve të lidhjes dhe varësisë së treguesve, të cilët janë themelorë në statistika, për të nxjerrë përfundime të sakta.

4. Si llogaritet koeficienti i korrelacionit Pearson?

Koeficienti i korrelacionit të Pearson llogaritet duke përdorur formulën e mëposhtme:

5. Si të interpretohet vlera e koeficientit të korrelacionit Pearson?

Vlerat e koeficientit të korrelacionit Pearson interpretohen në bazë të vlerave të tij absolute. Vlerat e mundshme të koeficientit të korrelacionit variojnë nga 0 në ±1. Sa më e madhe të jetë vlera absolute e r xy, aq më e lartë është afërsia e marrëdhënies midis dy madhësive. r xy = 0 tregon një mungesë të plotë të lidhjes. r xy = 1 - tregon praninë e një lidhjeje absolute (funksionale). Nëse vlera e kriterit të korrelacionit Pearson rezulton të jetë më e madhe se 1 ose më e vogël se -1, është bërë një gabim në llogaritjet.

Për të vlerësuar afërsinë ose forcën e korrelacionit, përdoren kritere të pranuara përgjithësisht, sipas të cilave vlerat absolute të r xy< 0.3 свидетельствуют о i dobët lidhje, vlera r xy nga 0.3 në 0.7 - në lidhje me lidhjen e mesme ngushtësi, vlerat r xy > 0,7 - o të fortë lidhjet.

Një vlerësim më i saktë i fuqisë së korrelacionit mund të merret duke përdorur tabelën Chaddock:

Vlerësimi i rëndësisë statistikore të koeficientit të korrelacionit r xy kryhet duke përdorur një test t të llogaritur duke përdorur formulën e mëposhtme:

Vlera e fituar t r krahasohet me vlerën kritike në një nivel të caktuar rëndësie dhe numrin e shkallëve të lirisë n-2. Nëse t r tejkalon t crit, atëherë arrihet një përfundim për rëndësinë statistikore të korrelacionit të identifikuar.

6. Një shembull i llogaritjes së koeficientit të korrelacionit Pearson

Qëllimi i studimit ishte identifikimi, përcaktimi i ngushtësisë dhe rëndësisë statistikore të korrelacionit midis dy treguesve sasiorë: nivelit të testosteronit në gjak (X) dhe përqindjes së masës muskulore në trup (Y). Të dhënat fillestare për një kampion të përbërë nga 5 lëndë (n = 5) janë përmbledhur në tabelë:


KRITERI I SPEERMAN

Koeficienti i korrelacionit të rangut të Spearman-it është një metodë joparametrike që përdoret për të studiuar statistikisht marrëdhëniet midis dukurive. Në këtë rast, përcaktohet shkalla aktuale e paralelizmit midis dy serive sasiore të veçorive të studiuara dhe ngushtësia e marrëdhënies së vendosur vlerësohet duke përdorur një koeficient të shprehur në mënyrë sasiore.

1. Historia e zhvillimit të koeficientit të korrelacionit të rangut

Ky kriter u zhvillua dhe u propozua për analizë korrelacioni në 1904 Charles Edward Spearman, psikolog anglez, profesor në universitetet e Londrës dhe Chesterfield.

2. Për çfarë përdoret raporti Spearman?

Koeficienti i korrelacionit të rangut të Spearman përdoret për të identifikuar dhe vlerësuar afërsinë e marrëdhënies midis dy serive të treguesve sasiorë të krahasuar. Në rast se radhët e treguesve, të renditura sipas shkallës së rritjes ose uljes, në shumicën e rasteve përkojnë (një vlerë më e lartë e një treguesi korrespondon me një vlerë më të lartë të një treguesi tjetër - për shembull, kur krahasoni gjatësinë e pacientit dhe peshën e tij trupore) , bëhet një përfundim për praninë drejt korrelacioni. Nëse radhët e treguesve kanë drejtim të kundërt (një vlerë më e lartë e një treguesi korrespondon me një vlerë më të ulët të tjetrit - për shembull, kur krahasoni moshën dhe rrahjet e zemrës), atëherë ata flasin për e kundërta lidhjet ndërmjet treguesve.

    Koeficienti i korrelacionit Spearman ka këto karakteristika:
  1. Koeficienti i korrelacionit mund të marrë vlera nga minus një në një, dhe në rs=1 ka një marrëdhënie rreptësisht të drejtpërdrejtë, dhe në rs= -1 - marrëdhënie rreptësisht e kundërt.
  2. Nëse koeficienti i korrelacionit është negativ, atëherë ekziston një lidhje e kundërt; nëse është pozitive, atëherë ka një lidhje të drejtpërdrejtë.
  3. Nëse koeficienti i korrelacionit është i barabartë me zero, atëherë lidhja midis sasive praktikisht mungon.
  4. Sa më afër unitetit të jetë moduli i koeficientit të korrelacionit, aq më e fortë është marrëdhënia midis vlerave të matura.

3. Në cilat raste mund të përdoret koeficienti Spearman?

Për shkak të faktit se koeficienti është një metodë e analizës joparametrike, nuk kërkohet një kontroll për normalitetin e shpërndarjes.

Treguesit e krahasueshëm mund të maten si në një shkallë të vazhdueshme (për shembull, numri i eritrociteve në 1 μl gjak) dhe në një shkallë rendore (për shembull, pikat rishikim kolegial nga 1 në 5).

Efektiviteti dhe cilësia e vlerësimit të Spearman zvogëlohet nëse diferenca midis vlerave të ndryshme të cilësdo prej sasive të matura është mjaft e madhe. Nuk rekomandohet përdorimi i koeficientit Spearman nëse ka një shpërndarje të pabarabartë të vlerave të sasisë së matur.

4. Si të llogaritet raporti i Spearman?

Llogaritja e koeficientit të korrelacionit të gradës Spearman përfshin hapat e mëposhtëm:

5. Si të interpretohet vlera e koeficientit Spearman?

Kur përdorni koeficientin e korrelacionit të renditjes, afërsia e lidhjes midis shenjave vlerësohet me kusht, duke marrë parasysh vlerat e koeficientit më të vogël se 0.3 - një shenjë e afërsisë së dobët të lidhjes; vlerat më të mëdha se 0.3 por më pak se 0.7 janë një shenjë e afërsisë së moderuar të lidhjes dhe vlerat prej 0.7 ose më shumë janë një shenjë e afërsisë së lartë të lidhjes.

Gjithashtu, për të vlerësuar afërsinë e lidhjes, mund të përdoret Shkalla Chaddock.

Rëndësia statistikore e koeficientit të marrë vlerësohet duke përdorur testin t Student. Nëse vlera e llogaritur e kriterit t është më e vogël se vlera tabelare për një numër të caktuar të shkallëve të lirisë, rëndësia statistikore e marrëdhënies së vëzhguar mungon. Nëse më shumë, atëherë korrelacioni konsiderohet statistikisht i rëndësishëm.


METODA KOLMOGOROV-SMIRNOV

Testi Kolmogorov-Smirnov është një test jo-parametrik i përshtatshmërisë, në kuptimin klasik, i krijuar për të testuar hipoteza të thjeshta rreth kampionit të analizuar që i përket një ligji të njohur të shpërndarjes. Zbatimi më i njohur i këtij kriteri është testimi i popullatave të studiuara për shpërndarje normale.

1. Historia e zhvillimit të kriterit Kolmogorov-Smirnov

Kriteri Kolmogorov-Smirnov u zhvillua nga matematikanët sovjetikë Andrey Nikolaevich Kolmogorov Dhe Nikolai Vasilyevich Smirnov.
Kolmogorov A.N. (1903-1987) - Hero i Punës Socialiste, Profesor i Moskës Universiteti Shtetëror, Akademiku i Akademisë së Shkencave të BRSS - matematikani më i madh i shekullit të 20-të, është një nga themeluesit teori moderne probabilitetet.
Smirnov N.V. (1900-1966) Anëtar korrespondent i Akademisë së Shkencave të BRSS, një nga themeluesit e metodave joparametrike të statistikave matematikore dhe teorisë së shpërndarjeve kufitare të statistikave të rendit.

Më pas, testi i përshtatshmërisë Kolmogorov-Smirnov u modifikua për t'u përdorur për të testuar popullatat për shpërndarje normale nga një statisticien amerikan, profesor në Universitetin George Washington. Hubert Lilliefors(Hubert Whitman Lilliefors, 1928-2008). Profesor Lilliefors ishte një nga pionierët në përdorimin e teknologjisë kompjuterike në llogaritjet statistikore.

Hubert Lilliefors

2. Për çfarë përdoret kriteri Kolmogorov-Smirnov?

Ky kriter bën të mundur vlerësimin e rëndësisë së dallimeve midis shpërndarjeve të dy kampioneve, duke përfshirë përdorimin e tij të mundshëm për të vlerësuar nëse shpërndarja e kampionit në studim korrespondon me ligjin e shpërndarjes normale.

3. Në cilat raste mund të përdoret kriteri Kolmogorov-Smirnov?

Testi Kolmogorov-Smirnov është krijuar për të testuar normalitetin e shpërndarjes së grupeve të të dhënave sasiore.

Për besueshmëri më të madhe të të dhënave të marra, vëllimet e mostrave të konsideruara duhet të jenë mjaft të mëdha: n ≥ 50. Me madhësinë e popullsisë së vlerësuar nga 25 në 50 elementë, këshillohet të përdoret korrigjimi Bolshev.

4. Si të llogaritet kriteri Kolmogorov-Smirnov?

Kriteri Kolmogorov-Smirnov llogaritet duke përdorur programe të veçanta statistikore. Ai bazohet në statistikat e formës:

Ku sup Sështë kufiri më i vogël i sipërm i grupit S, F n- funksioni i shpërndarjes së popullsisë së studiuar, F(x)- funksioni i shpërndarjes normale

Vlerat e supozuara të probabilitetit bazohen në supozimin se mesatarja dhe devijimi standard i shpërndarjes normale njihen apriori dhe nuk vlerësohen nga të dhënat.

Sidoqoftë, në praktikë, parametrat zakonisht llogariten drejtpërdrejt nga të dhënat. Në këtë rast, testi i normalitetit përfshin një hipotezë komplekse ("sa ka gjasa që të merret një statistikë D me rëndësi të dhënë ose më të madhe, në varësi të mesatares dhe devijimit standard të llogaritur nga të dhënat") dhe probabilitetet e Lilliefors (Lilliefors, 1967) janë dhënë.

5. Si të interpretohet vlera e kriterit Kolmogorov-Smirnov?

Nëse D, statistika Kolmogorov-Smirnov është domethënëse (f<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


AKADEMIA RUSE E EKONOMISË KOMBËTARE DHE SHËRBIMIT PUBLIK NË PRESIDENTIN E FEDERATISË RUSE

DEGA OREL

Departamenti i Matematikës dhe Metodave Matematikore në Menaxhim

Punë e pavarur

Matematika

me temën "Seria variacionale dhe karakteristikat e saj"

për studentët me kohë të plotë të Fakultetit të Ekonomisë dhe Menaxhmentit

fushat e trajnimit "Menaxhimi i Personelit"


Qëllimi i punës: Zotërimi i koncepteve të statistikave matematikore dhe metodave të përpunimit parësor të të dhënave.

Një shembull i zgjidhjes së problemeve tipike.

Detyra 1.

Të dhënat e mëposhtme janë marrë nga sondazhi ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

E nevojshme:

1) Përpiloni një seri variacionale (shpërndarja statistikore e kampionit), pasi të keni regjistruar më parë një seri diskrete të renditur opsionesh.

2) Ndërtoni një shumëkëndësh frekuencash dhe një kumulate.

3) Përpiloni një seri shpërndarjesh të frekuencave (frekuencave) relative.

4) Gjeni karakteristikat kryesore numerike të serisë së variacioneve (përdorni formula të thjeshtuara për t'i gjetur ato): a) mesatare aritmetike, b) mesatare Unë dhe modës Mo, c) dispersion s2, d) devijimi standard s, e) koeficienti i variacionit V.

5) Shpjegoni kuptimin e rezultateve të marra.

Zgjidhje.

1) Për përpilim renditur seri diskrete opsionesh renditni të dhënat e sondazhit sipas madhësisë dhe renditini ato në rend rritës

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

Le të bëjmë një seri variacionesh duke shkruar vlerat (opsionet) e vëzhguara në rreshtin e parë të tabelës, dhe frekuencat që u korrespondojnë atyre në rreshtin e dytë (Tabela 1)

Tabela 1.

2) Poligoni i frekuencës është një vijë e thyer që lidh pikat ( x i; n i), i=1, 2,…, m, Ku m X.

Le të përshkruajmë gamën e frekuencave të serisë variacionale (Fig. 1).

Fig.1. Shumëkëndëshi i frekuencës

Kurba kumulative (kumulative) për një seri variacionale diskrete është një vijë e thyer që lidh pikat ( x i; n i nak), i=1, 2,…, m.

Le të gjejmë frekuencat e grumbulluara n i nak(frekuenca kumulative tregon se sa variante janë vërejtur me një vlerë tipare më të vogël se X). Vlerat e gjetura futen në rreshtin e tretë të tabelës 1.



Le të ndërtojmë një kumulatë (Fig. 2).

Fig.2. Kumuloni

3) Gjeni frekuencat relative (frekuencat) , ku , ku m– numri i vlerave të ndryshme të veçorive X, i cili do të llogaritet me të njëjtën saktësi.

Le të shkruajmë një seri shpërndarjesh të frekuencave (frekuencave) relative në formën e tabelës 2

tabela 2

4) Le të gjejmë karakteristikat kryesore numerike të serisë variacionale:

a) Ne gjejmë mesataren aritmetike duke përdorur formulën e thjeshtuar:

,

ku - opsionet e kushtëzuara

Le të vendosim Me= 3 (një nga vlerat mesatare të vëzhguara), k= 1 (ndryshimi midis dy opsioneve ngjitur) dhe përpiloni një tabelë llogaritëse (Tabela 3).

Tabela 3

x i n i u i u i n i u i 2 n i
-3 -12
-2 -26
-1 -14
Shuma -11

Pastaj mesatarja aritmetike

b) Mesatarja Unë Seritë e variacionit është vlera e veçorisë që bie në mes të serisë së rangut të vëzhgimeve. Kjo seri variacionale diskrete përmban një numër çift termash ( n=80), pra mediana është e barabartë me gjysmën e shumës së dy opsioneve mediane.

Moda Mo seria e variacionit quhet varianti, i cili korrespondon me frekuencën më të lartë. Për një seri të caktuar variacionale, frekuenca më e lartë n max = 24 korrespondon me variantin X= 3 do të thotë modë Mo=3.

c) dispersion s2, e cila është një masë e shpërndarjes së vlerave të mundshme të treguesit X rreth vlerës së tij mesatare, gjejmë duke përdorur formulën e thjeshtuar:

, Ku u i- opsionet e kushtëzuara

Ne gjithashtu do të fusim llogaritjet e ndërmjetme në Tabelën 3.

Pastaj varianca

d) Devijimi standard s gjeni me formulën:

.

e) Koeficienti i variacionit V: (),

Koeficienti i variacionit është një sasi e pamatshme, kështu që është i përshtatshëm për krahasimin e shpërndarjes seri variacionesh, variantet e të cilave kanë përmasa të ndryshme.

Koeficienti i variacionit

.

5) Kuptimi i rezultateve të fituara është se vlera karakterizon vlerën mesatare të veçorisë X brenda kampionit të konsideruar, pra vlera mesatare ishte 2.86. Devijimi standard s përshkruan shpërndarjen absolute të vlerave të treguesit X dhe në këtë rast është s≈ 1,55. Koeficienti i variacionit V karakterizon ndryshueshmërinë relative të treguesit X, domethënë, përhapja relative rreth vlerës së saj mesatare, dhe në këtë rast është .

Përgjigje: ; ; ; .

Detyra 2.

Ne kemi të dhënat e mëposhtme për kapitalin aksionar të 40 bankave më të mëdha në Rusinë Qendrore:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

E nevojshme:

1) Ndërtoni një seri variacionesh intervali.

2) Llogaritni mesataren e mostrës dhe variancën e mostrës

3) Gjeni devijimin standard dhe koeficientin e variacionit.

4) Ndërtoni një histogram të frekuencave të shpërndarjes.

Zgjidhje.

1) Le të zgjedhim një numër arbitrar intervalesh, për shembull, 8. Pastaj gjerësia e intervalit:

.

Le të bëjmë një tabelë llogaritëse:

opsioni i intervalit, x k – x k +1 Frekuenca, n i Pika e mesit të intervalit x i opsion i kushtëzuar, edhe une dhe unë n i edhe une 2 n i (dhe unë + 1) 2 n i
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
Shuma – 5

Vlera e zgjedhur si zero e rreme c= 62.5 (ky opsion ndodhet afërsisht në mes të serisë së variacionit) .

Opsionet e kushtëzuara përcaktohen nga formula

Kur përpunon sasi të mëdha informacioni, gjë që është veçanërisht e rëndësishme gjatë zhvillimit të zhvillimeve moderne shkencore, studiuesi përballet me detyrën serioze të grupimit të saktë të të dhënave fillestare. Nëse të dhënat janë diskrete, atëherë, siç e kemi parë, nuk ka probleme - thjesht duhet të llogaritni frekuencën e secilës veçori. Nëse tipari në studim ka të vazhdueshme karakteri (i cili është më i zakonshëm në praktikë), atëherë zgjedhja e numrit optimal të intervaleve për grupimin e një veçorie nuk është aspak një detyrë e parëndësishme.

Për të grupuar variabla të rastësishme të vazhdueshme, i gjithë diapazoni i variacionit të veçorisë ndahet në një numër të caktuar intervalesh për të.

Interval i grupuar (të vazhdueshme) seri variacionale quhen intervale të renditura sipas vlerës së veçorisë (), ku tregohet së bashku me frekuencat përkatëse () numri i vëzhgimeve që ranë në intervalin r "të, ose frekuencat relative ():

Intervalet e vlerave karakteristike

frekuenca mi

grafik me shtylla Dhe grumbulloj (ogiva), të diskutuara tashmë në detaje nga ne, janë një mjet i shkëlqyer për vizualizimin e të dhënave që ju lejon të merrni një kuptim parësor të strukturës së të dhënave. Grafikë të tillë (Fig. 1.15) ndërtohen për të dhëna të vazhdueshme në të njëjtën mënyrë si për të dhëna diskrete, vetëm duke marrë parasysh faktin se të dhënat e vazhdueshme plotësojnë plotësisht zonën e vlerave të tyre të mundshme, duke marrë çdo vlerë.

Oriz. 1.15.

Kjo është arsyeja pse kolonat në histogram dhe kumulati duhet të jenë në kontakt, nuk kanë zona ku vlerat e atributeve nuk bien brenda të gjitha të mundshmeve(d.m.th., histogrami dhe kumulati nuk duhet të kenë "vrima" përgjatë boshtit të abshisave, në të cilat vlerat e ndryshores në studim nuk bien, si në Fig. 1.16). Lartësia e shiritit korrespondon me frekuencën - numrin e vëzhgimeve që bien në intervalin e caktuar, ose frekuencën relative - proporcionin e vëzhgimeve. Intervalet nuk duhet të kalojë dhe zakonisht kanë të njëjtën gjerësi.

Oriz. 1.16.

Histogrami dhe poligoni janë përafrime të lakores së densitetit të probabilitetit (funksioni diferencial) f(x) shpërndarja teorike, e konsideruar në rrjedhën e teorisë së probabilitetit. Prandaj, ndërtimi i tyre ka një rëndësi të tillë në përpunimin statistikor parësor të të dhënave sasiore të vazhdueshme - sipas formës së tyre mund të gjykohet ligji hipotetik i shpërndarjes.

Kumulimi - kurba e frekuencave (frekuencave) të grumbulluara të serisë së variacionit të intervalit. Grafiku i funksionit të shpërndarjes integrale krahasohet me kumulimin F(x), i konsideruar gjithashtu në rrjedhën e teorisë së probabilitetit.

Në thelb, konceptet e histogramit dhe kumulateve shoqërohen pikërisht me të dhëna të vazhdueshme dhe seritë e tyre të variacionit të intervalit, pasi grafikët e tyre janë vlerësime empirike të funksionit të densitetit të probabilitetit dhe funksionit të shpërndarjes, përkatësisht.

Ndërtimi i një serie variacionesh intervali fillon me përcaktimin e numrit të intervaleve k. Dhe kjo detyrë është ndoshta më e vështira, më e rëndësishmja dhe më e diskutueshme në çështjen në studim.

Numri i intervaleve nuk duhet të jetë shumë i vogël, pasi histogrami do të jetë shumë i qetë ( i zbutur tej mase), humbet të gjitha tiparet e ndryshueshmërisë së të dhënave fillestare - në Fig. 1.17 mund të shihni se si të njëjtat të dhëna mbi të cilat janë paraqitur grafikët e Fig. 1.15 përdoren për të ndërtuar një histogram me një numër më të vogël intervalesh (grafiku majtas).

Në të njëjtën kohë, numri i intervaleve nuk duhet të jetë shumë i madh - përndryshe ne nuk do të jemi në gjendje të vlerësojmë densitetin e shpërndarjes së të dhënave në studim përgjatë boshtit numerik: histogrami do të rezultojë të jetë nën zbutjen (i zbutur) me intervale të paplotësuara, të pabarabarta (shih Fig. 1.17, grafiku djathtas).

Oriz. 1.17.

Si të përcaktohet numri më i preferuar i intervaleve?

Në vitin 1926, Herbert Sturges propozoi një formulë për llogaritjen e numrit të intervaleve në të cilat është e nevojshme të ndahet grupi fillestar i vlerave të atributit të studiuar. Kjo formulë është bërë me të vërtetë super e njohur - shumica e teksteve statistikore e ofrojnë atë dhe shumë paketa statistikore e përdorin atë si parazgjedhje. Nëse kjo është e justifikuar dhe në të gjitha rastet është një pyetje shumë serioze.

Pra, mbi çfarë bazohet formula e Sturges?

Merrni parasysh shpërndarjen binomiale)

Ndani me miqtë ose kurseni për veten tuaj:

Po ngarkohet...