گروه بندی داده ها و ساخت یک سری توزیع. بررسی آماری سری تغییرات و محاسبه مقادیر میانگین نحوه یافتن سری تغییرات در آمار

وضعیت:

داده هایی در مورد ترکیب سنی کارگران (سال) وجود دارد: 18، 38، 28، 29، 26، 38، 34، 22، 28، 30، 22، 23، 35، 33، 27، 24، 30، 32، 28 ، 25، 29، 26، 31، 24، 29، 27، 32، 25، 29، 29.

    1. یک سری توزیع بازه ای بسازید.
    2. یک نمایش گرافیکی از سری بسازید.
    3. به صورت گرافیکی حالت و میانه را تعیین کنید.

راه حل:

1) طبق فرمول استرجس، جمعیت باید به 1 + 3.322 Lg 30 = 6 تقسیم شود.

حداکثر سن - 38، حداقل - 18.

عرض فاصله از آنجایی که انتهای فواصل باید اعداد صحیح باشد، جمعیت را به 5 گروه تقسیم می کنیم. عرض فاصله - 4.

برای سهولت در محاسبات، داده ها را به ترتیب صعودی مرتب می کنیم: 18، 22، 22، 23، 24، 24، 25، 25، 26، 26، 27، 27، 28، 28، 28، 29، 29، 29، 29، 29، 30، 30، 31، 32، 32، 33، 34، 35، 38، 38.

توزیع سنی کارگران

از نظر گرافیکی، یک سری را می توان به صورت هیستوگرام یا چندضلعی به تصویر کشید. هیستوگرام - نمودار میله ای. پایه ستون عرض فاصله است. ارتفاع ستون برابر با فرکانس است.

چند ضلعی (یا چند ضلعی توزیع) - نمودار فرکانس. برای ساختن آن با استفاده از هیستوگرام، نقاط میانی اضلاع بالایی مستطیل ها را به هم وصل می کنیم. چند ضلعی روی محور Ox را در فواصل مساوی نصف فاصله از مقادیر شدید x می بندیم.

حالت (Mo) مقدار مشخصه مورد مطالعه است که بیشتر در یک جمعیت مشخص رخ می دهد.

برای تعیین حالت از روی هیستوگرام، باید بالاترین مستطیل را انتخاب کنید، یک خط از راس سمت راست این مستطیل به گوشه سمت راست بالای مستطیل قبلی بکشید و از راس سمت چپ مستطیل مدال یک خط به سمت راست بکشید. راس سمت چپ مستطیل بعدی از محل تلاقی این خطوط، عمود بر محور x رسم کنید. آبسیسا مد خواهد بود. مو ≈ 27.5. به این معنی که بیشترین سن در این جمعیت 27-28 سال است.

میانه (Me) مقدار مشخصه مورد مطالعه است که در وسط سری تغییرات مرتب شده قرار دارد.

ما میانه را با استفاده از تجمع پیدا می کنیم. تجمع - نموداری از فرکانس های انباشته شده. آبسیساها انواعی از یک سری هستند. مختصات فرکانس های انباشته شده هستند.

برای تعیین میانه روی انباشته، نقطه ای را در امتداد محور ارتین مربوط به 50 درصد فرکانس های انباشته شده پیدا می کنیم (در مورد ما، 15)، یک خط مستقیم از طریق آن، موازی با محور Ox، و از نقطه تقاطع آن با انباشته، عمود بر محور x رسم کنید. آبسیسا میانه است. من ≈ 25.9. این بدان معناست که نیمی از کارگران این جمعیت زیر 26 سال سن دارند.

واژه نامه اصطلاحات آماری

سوالات آمار عمومی

آمار پزشکی چیست؟

آمار توصیف و اندازه گیری کمی رویدادها، پدیده ها، اشیا است. به عنوان شاخه ای از فعالیت عملی (جمع آوری، پردازش و تجزیه و تحلیل داده ها در مورد پدیده های انبوه)، به عنوان شاخه ای از دانش، یعنی. خاص رشته علمیو به عنوان مجموعه ای از خلاصه، شاخص های دیجیتال نهایی جمع آوری شده برای توصیف هر حوزه از پدیده های اجتماعی.

آمار علمی است که با استفاده از روش تعمیم شاخص ها به مطالعه الگوهای پدیده های توده ای می پردازد.

آمار پزشکی - مستقل علوم اجتماعی، در حال مطالعه جنبه کمی پدیده های اجتماعی توده ایبه طور جدایی ناپذیری با جنبه کیفی آنها مرتبط است و اجازه می دهد روش تعمیم شاخص هابررسی الگوهای این پدیده ها، مهمترین فرآیندهای اقتصادی، زندگی اجتماعیجامعه، سلامت آن، سیستم سازماندهی مراقبت های پزشکی به جمعیت.

روش های آماری مجموعه ای از تکنیک ها برای پردازش مواد مشاهده انبوه است که عبارتند از: گروه بندی، خلاصه، به دست آوردن شاخص ها، تجزیه و تحلیل آماری آنها و غیره.

از روش های آماری در پزشکی برای موارد زیر استفاده می شود:

  1. مطالعه شرایط سلامت عمومیجامعه به عنوان یک کل و گروه های اصلی آن با جمع آوری و تجزیه و تحلیل داده های آماری در مورد اندازه و ترکیب جمعیت، تولید مثل آن، رشد فیزیکی، شیوع و طول مدت بیماری های مختلف و غیره.
  2. شناسایی و ایجاد ارتباطات سطح عمومیعوارض و مرگ و میر ناشی از هر بیماری فردی با عوامل مختلف محیط;
  3. جمع آوری و مطالعه داده های عددی در مورد شبکه موسسات پزشکی، فعالیت ها و پرسنل آنها برای برنامه ریزی فعالیت های مراقبت های بهداشتی، نظارت بر اجرای طرح های توسعه شبکه و فعالیت های موسسات مراقبت های بهداشتی و ارزیابی کیفیت کار موسسات پزشکی فردی؛
  4. ارزیابی اثربخشی اقدامات برای پیشگیری و درمان بیماری ها؛
  5. تعیین اهمیت آماری نتایج تحقیق در کلینیک و آزمایش.

بخش های آمار پزشکی:

ایجاد یک پایگاه داده در MS EXCEL

برای اینکه پایگاه داده برای پردازش بعدی راحت باشد، باید از اصول ساده پیروی کرد:

1) برنامه بهینه برای ایجاد پایگاه داده MS Excel است. داده های اکسل متعاقباً می توانند به راحتی به سایر بسته های آماری تخصصی مانند Statistica، SPSS و غیره برای دستکاری های پیچیده تر منتقل شوند. با این حال، تا 80-90٪ از محاسبات را می توان به راحتی در خود اکسل با استفاده از افزونه تجزیه و تحلیل داده ها انجام داد.

2) خط بالای جدول با پایگاه داده به صورت هدر طراحی شده است که نام آن شاخص هایی که در این ستون در نظر گرفته شده است وارد می شود. استفاده از ادغام سلول نامطلوب است (این الزام معمولاً برای کل پایگاه داده اعمال می شود)، زیرا این امر باعث می شود بسیاری از عملیات نامعتبر شود. همچنین، نباید یک هدر "دو طبقه" ایجاد کنید که در آن خط بالایی نام گروهی از شاخص های همگن را نشان می دهد و خط پایین نشان دهنده شاخص های خاص است. برای گروه بندی نشانگرهای همگن، بهتر است آنها را با پرکننده تک رنگ علامت گذاری کنید یا یک ویژگی گروه بندی را در پرانتز به نام آنها درج کنید.

مثلا، نه به این صورت:

آنالیز خون عمومی
ER LEU TR
ER(UAC) LEU(UAC) TR(UAC)

در نسخه دوم، هم هدر "تک داستان" و هم تجانس بصری داده ها تضمین می شود (همه آنها به نشانگرهای UAC مربوط می شوند).

3) ستون اول باید شامل شماره سریال بیمار در این پایگاه داده باشد، بدون اینکه آن را به هیچ یک از شاخص های مورد مطالعه مرتبط کند. این به شما این امکان را می دهد که متعاقباً از بازگشت آسان به ترتیب اولیه بیماران در هر مرحله، حتی پس از مرتب سازی های متعدد لیست اطمینان حاصل کنید.

4) ستون دوم معمولاً با نام خانوادگی (یا نام کامل) بیماران پر می شود.

5) شاخص های کمی (آنهایی که به اعداد اندازه گیری می شوند، به عنوان مثال - قد، وزن، فشار خون، ضربان قلب و غیره) به صورت عددی وارد جدول می شوند. به نظر می رسد که این از قبل واضح است، اما باید به خاطر داشته باشید که در اکسل، از نسخه 2007، مقادیر کسری با یک نقطه نشان داده می شوند: 4.5. اگر عددی را بنویسید که با کاما از هم جدا شده است، به عنوان متن درک می شود و این ستون ها باید بازنویسی شوند.

6) با شاخص های کیفی دشوارتر است. آنهایی از آنها که دارای دو نوع معنی هستند (به اصطلاح مقادیر باینری: بله-نه، حال-غایب، مذکر-مونث) بهتر است به سیستم دودویی: 0 و 1. مقدار 1 معمولا به یک مقدار مثبت (بله، حال)، 0 به یک مقدار منفی (خیر، وجود ندارد) اختصاص داده می شود.

7) شاخص های کیفی که دارای چندین ارزش هستند، متفاوت از نظر شدت، سطح پدیده (ضعیف-متوسط-قوی؛ سرد-گرم-گرم) می توانند رتبه بندی شوند و بر این اساس به اعداد نیز ترجمه شوند. به پایین ترین سطح پدیده، کمترین رتبه اختصاص داده می شود - 0 یا 1، درجات زیر با مقادیر رتبه ها به ترتیب نشان داده می شوند. به عنوان مثال: بدون بیماری - 0، درجه خفیف - 1، درجه متوسط ​​- 2، درجه شدید - 3.

8) گاهی اوقات چندین مقدار با یک شاخص کیفیت مطابقت دارد. به عنوان مثال، در ستون "تشخیص همزمان"، اگر چندین بیماری وجود دارد، می خواهیم آنها را با کاما از هم جدا کنیم. این نباید انجام شود، زیرا پردازش چنین داده هایی بسیار دشوار است و نمی توان آن را خودکار کرد. بنابراین، بهتر است چندین ستون با گروه های خاصی از بیماری ها ("بیماری های سیستم قلبی عروقی"، "بیماری های دستگاه گوارش" و غیره) یا برخی از نوزولوژی ها ("گاستریت مزمن"، "IHD" و غیره) ساخته شود. ، که در آن داده ها را به شکل باینری و باینری وارد می کنیم: 1 (به معنی "این بیماری وجود دارد") - 0 ("این بیماری وجود ندارد").

9) برای تمایز بین گروه های جداگانه شاخص ها، می توانید به طور فعال از رنگ استفاده کنید: به عنوان مثال، ستون های دارای نشانگرهای UAC با رنگ قرمز، داده های OAM به رنگ زرد و غیره برجسته می شوند.

10) هر بیمار باید با یک ردیف از جدول مطابقت داشته باشد.

چنین طراحی پایگاه داده نه تنها به طور قابل توجهی فرآیند پردازش آماری آن را ساده می کند، بلکه تکمیل آن را در مرحله جمع آوری مطالب نیز تسهیل می کند.

کدام روش را برای تجزیه و تحلیل آماری انتخاب کنیم؟

پس از جمع آوری تمامی داده ها، هر محقق با این سوال مواجه می شود که مناسب ترین روش پردازش آماری را انتخاب کند. و این تعجب آور نیست: آمار مدرن تعداد زیادی از معیارها و روش های مختلف را ترکیب می کند. همه آنها ویژگی های خاص خود را دارند و ممکن است برای دو موقعیت به ظاهر مشابه مناسب باشند یا نباشند. در این مقاله سعی خواهیم کرد تمام روش های اساسی و رایج را نظام مند کنیم تحلیل آماریبا توجه به هدف آنها

با این حال، ابتدا چند کلمه در مورد نوع داده های آماری وجود دارد، زیرا این چیزی است که انتخاب مناسب ترین روش تجزیه و تحلیل را تعیین می کند.

مقیاس اندازه گیری

هنگام انجام یک مطالعه، مقادیر هر واحد مشاهده تعیین می شود نشانه های مختلف. بسته به مقیاسی که در آن اندازه گیری می شوند، همه علائم به دو دسته تقسیم می شوند کمیو کیفیت. شاخص های کیفی در مطالعات با توجه به به اصطلاح توزیع می شوند اسمیمقیاس علاوه بر این، شاخص ها را می توان با توجه به رتبهمقیاس

به عنوان مثال، مقایسه ای از عملکرد قلبی در ورزشکاران و افرادی که سبک زندگی بی تحرک دارند، انجام می شود.

در این مورد، علائم زیر در افراد مشخص شد:

  • کف- است اسمیشاخصی که دو مقدار را می گیرد - مرد یا زن.
  • سن - کمیفهرست مطالب،
  • ورزش ها - اسمیشاخصی که دو معنی دارد: درگیر یا درگیر نشده،
  • ضربان قلب - کمیفهرست مطالب،
  • فشار خون سیستولیک - کمیفهرست مطالب،
  • وجود شکایات درد قفسه سینه- است کیفیت بالاشاخص، که مقادیر آن را می توان با هر دو تعیین کرد اسمی(شکایاتی وجود دارد - شکایتی وجود ندارد)، و با توجه به رتبهمقیاس بسته به فرکانس (به عنوان مثال، اگر درد چندین بار در روز رخ دهد - به نشانگر رتبه 3 اختصاص داده می شود، چندین بار در ماه - رتبه 2، چندین بار در سال - رتبه 1، اگر شکایتی از درد قفسه سینه وجود ندارد - رتبه 0 ) .

تعداد جمعیت های مقایسه شده

موضوع بعدی که در انتخاب روش آماری باید به آن پرداخته شود، تعداد جمعیت هایی است که در مطالعه مورد مقایسه قرار می گیرند.

  • در بیشتر موارد، در کارآزمایی‌های بالینی با دو گروه از بیماران سروکار داریم: پایه ایو کنترل. پایه ای، یا با تجربه، عموماً گروهی در نظر گرفته می شود که روش تشخیص یا درمان مورد مطالعه در آنها اعمال شده است یا در آن بیماران از بیماری موضوع این مطالعه رنج می برند. تستدر مقابل، این گروه شامل بیمارانی است که مراقبت‌های معمول، دارونما، یا کسانی که بیماری مورد مطالعه را ندارند، دریافت می‌کنند. چنین جمعیت هایی که توسط بیماران مختلف نشان داده می شوند، نامیده می شوند غیر مرتبط.
    هنوز وجود دارد مربوط، یا دو برابر می شودوقتی در مورد افراد مشابه صحبت می کنیم، اما مقادیر برخی از ویژگی های به دست آمده با یکدیگر مقایسه می شوند. قبل و بعدپژوهش. تعداد جمعیت های مقایسه شده نیز برابر با 2 است، اما تکنیک های متفاوتی نسبت به موارد غیرمرتبط برای آنها اعمال می شود.
  • گزینه دیگر توصیف است یکیکلیت، که، باید پذیرفت، به طور کلی زیربنای هر تحقیقی است. حتی اگر هدف اصلی کار مقایسه دو یا چند گروه باشد، ابتدا باید هر یک از آنها مشخص شود. روش های مورد استفاده برای این آمار توصیفی. علاوه بر این، برای یک جمعیت می توان از روش ها استفاده کرد تجزیه و تحلیل همبستگی ، برای یافتن رابطه بین دو یا چند ویژگی مورد مطالعه (به عنوان مثال، وابستگی قد به وزن بدن یا وابستگی ضربان قلب به دمای بدن) استفاده می شود.
  • در نهایت، ممکن است چندین جمعیت در حال مقایسه باشند. این در تحقیقات پزشکی بسیار رایج است. بیماران را می توان بسته به استفاده از داروهای مختلف گروه بندی کرد (به عنوان مثال، هنگام مقایسه اثر داروهای ضد فشار خون: گروه 1 - مهارکننده های ACE، 2 - مسدود کننده های بتا، 3 - داروهای با اثر مرکزی)، با توجه به شدت بیماری ( گروه 1 - خفیف، 2 - متوسط، 3 - سنگین) و غیره.

پرسیدن هم مهم است نرمال بودن توزیعجمعیت های مورد مطالعه این تعیین می کند که آیا روش ها می توانند اعمال شوند یا خیر تحلیل پارامتریکیا فقط ناپارامتریک. شرایطی که باید در جمعیت های پراکنده معمولی رعایت شود عبارتند از:

  1. حداکثر نزدیکی یا برابری مقادیر میانگین حسابی، حالت و میانه؛
  2. مطابقت با قانون "سه سیگما" (حداقل 68.3٪ انواع در بازه M±1σ، حداقل 95.5٪ انواع در فاصله M±2σ، حداقل 99.7٪ انواع در فاصله M±3σ هستند).
  3. شاخص ها در مقیاس کمی اندازه گیری می شوند.
  4. نتایج مثبت آزمایش برای نرمال بودن توزیع با استفاده از معیارهای ویژه - Kolmogorov-Smirnov یا Shapiro-Wilk.

پس از تعیین تمامی ویژگی هایی که برای جمعیت های مورد مطالعه بیان کردیم، پیشنهاد می کنیم از جدول زیر برای انتخاب بهینه ترین روش تحلیل آماری استفاده کنید.

روش مقیاس اندازه گیری شاخص تعداد جمعیت های مقایسه شده هدف از پردازش توزیع داده ها
آزمون تی دانشجویی کمی 2 طبیعی
آزمون تی دانشجویی با تصحیح بونفرونی کمی 3 یا بیشتر بدون مقایسه مجموعه های مرتبط طبیعی
آزمون تی دانشجویی زوجی کمی 2 طبیعی
تجزیه و تحلیل واریانس یک طرفه (ANOVA) کمی 3 یا بیشتر مقایسه جمعیت های غیر مرتبط طبیعی
تجزیه و تحلیل واریانس یک طرفه (ANOVA) با اندازه گیری های مکرر کمی 3 یا بیشتر مقایسه جمعیت های مرتبط طبیعی
تست U Mann-Whitney کمی، رتبه بندی 2 مقایسه جمعیت های غیر مرتبط هر
تست کیو روزنبام کمی، رتبه بندی 2 مقایسه جمعیت های غیر مرتبط هر
تست کروسکال والیس کمی 3 یا بیشتر مقایسه جمعیت های غیر مرتبط هر
تست ویلکاکسون کمی، رتبه بندی 2 مقایسه جمعیت های مرتبط هر
تست علامت G کمی، رتبه بندی 2 مقایسه جمعیت های مرتبط هر
معیار فریدمن کمی، رتبه بندی 3 یا بیشتر مقایسه جمعیت های مرتبط هر
آزمون χ2 پیرسون اسمی 2 یا بیشتر مقایسه جمعیت های غیر مرتبط هر
تست دقیق فیشر اسمی 2 مقایسه جمعیت های غیر مرتبط هر
تست مک نمار اسمی 2 مقایسه جمعیت های مرتبط هر
آزمون کیو کوکران اسمی 3 یا بیشتر مقایسه جمعیت های مرتبط هر
ریسک نسبی (نسبت ریسک، RR) اسمی 2 مقایسه جمعیت های نامرتبط در مطالعات کوهورت هر
نسبت شانس (OR) اسمی 2 مقایسه جمعیت های نامرتبط در مطالعات مورد-شاهدی هر
ضریب همبستگی پیرسون کمی 2 ردیف اندازه گیری طبیعی
ضریب همبستگی رتبه اسپیرمن کمی، رتبه بندی 2 ردیف اندازه گیری شناسایی ارتباط بین علائم هر
ضریب همبستگی کندال کمی، رتبه بندی 2 ردیف اندازه گیری شناسایی ارتباط بین علائم هر
ضریب همخوانی کندال کمی، رتبه بندی 3 یا بیشتر ردیف اندازه گیری شناسایی ارتباط بین علائم هر
محاسبه مقادیر میانگین (M) و میانگین خطاها (m) کمی 1 آمار توصیفی هر
محاسبه میانه ها (Me) و صدک ها (چرک) رتبه 1 آمار توصیفی هر
محاسبه مقادیر نسبی (P) و میانگین خطاها (m) اسمی 1 آمار توصیفی هر
تست Shapiro-Wilk کمی 1 تجزیه و تحلیل توزیع هر
معیار کولموگروف-اسمیرنوف کمی 1 تجزیه و تحلیل توزیع هر
معیار اسمیرنوف-کرامر-فون میزس ω 2 کمی 1 تجزیه و تحلیل توزیع هر
روش کاپلان مایر هر 1 تجزیه و تحلیل بقا هر
مدل خطرات متناسب کاکس هر 1 تجزیه و تحلیل بقا هر

آماردانان بزرگ

کارل پیرسون (27 مارس 1857 - 27 آوریل 1936)

کارل پیرسون، ریاضیدان، آمار، زیست شناس و فیلسوف بزرگ انگلیسی در 27 مارس 1857 به دنیا آمد. موسس آمار ریاضی، یکی از بنیانگذاران بیومتریک.

دریافت مقام استادی در سن 27 سالگی ریاضیات کاربردیدر دانشگاه کالج لندن، کارل پیرسون شروع به مطالعه آمار کرد، که او آن را به عنوان یک ابزار علمی عمومی تلقی کرد، که با افکار کاملاً پذیرفته نشده او در مورد نیاز به ارائه یک چشم انداز گسترده به دانشجویان سازگار بود.

از دستاوردهای اصلی پیرسون در زمینه آمار می توان به توسعه مبانی نظریه همبستگی و اقتضایی ویژگی ها، معرفی منحنی های پیرسون برای توصیف توزیع های تجربی و معیار بسیار مهم کای دو و همچنین تدوین تعداد زیادی جداول آماری پیرسون روش آماری و به ویژه نظریه همبستگی را در بسیاری از شاخه های علم به کار برد.

یکی از اظهارات او در اینجا آمده است: "اولین معرفی آماتوری روش های آماری مدرن در علم تثبیت شده با تحقیر معمولی مخالفت می کند. اما من تا آن زمان زندگی کردم که بسیاری از آنها مخفیانه شروع به استفاده از همان روش هایی کردند که در ابتدا آنها را محکوم می کردند."

و قبلاً در سال 1920، پیرسون یادداشتی نوشت که در آن بیان کرد که هدف مدرسه بیومتریک "تبدیل آمار به شاخه ای از ریاضیات کاربردی، تعمیم، کنار گذاشتن یا توجیه روش های ناچیز مکتب قدیمی آمار سیاسی و اجتماعی است. و به طور کلی تبدیل آمار از میدان بازی به آماتور و مناظره کننده به شاخه ای جدی از علم و نقد روش های ناقص و غالباً اشتباه در پزشکی، انسان شناسی، جمجمه سنجی، روانشناسی، جرم شناسی، زیست شناسی، جامعه شناسی، ضروری بود. نبرد تقریباً بیست سال به طول انجامید، اما بسیاری از نشانه‌ها نشان می‌دهد که خصومت‌های قدیمی پشت سر گذاشته شده و روش‌های جدید مورد پذیرش جهانی قرار گرفته است.»

کارل پیرسون علایق بسیار متنوعی داشت: او در هایدلبرگ فیزیک خواند، به نقش اجتماعی و اقتصادی دین علاقه داشت و حتی در کمبریج و لندن درباره تاریخ و ادبیات آلمان سخنرانی کرد.

یک واقعیت ناشناخته این است که در سن 28 سالگی، کارل پیرسون در مورد "مسئله زنان" سخنرانی کرد و حتی باشگاه زنان و مردان را تأسیس کرد که تا سال 1889 وجود داشت، که در آن همه چیز مربوط به زنان، از جمله روابط بین دو جنس، وجود داشت. آزادانه و بدون محدودیت مورد بحث قرار گرفته است.

این باشگاه از تعداد مساوی مرد و زن تشکیل شده بود که عمدتاً لیبرال های طبقه متوسط، سوسیالیست ها و فمینیست ها بودند.

موضوع بحث‌های باشگاه طیف وسیعی از موضوعات بود: از روابط جنسی در آتن یونان باستان تا وضعیت راهبه‌های بودایی، از نگرش نسبت به ازدواج تا مشکلات فحشا. در اصل، باشگاه مردان و زنان هنجارهای تثبیت شده تعامل زن و مرد و همچنین ایده‌های مربوط به تمایلات جنسی «مناسب» را به چالش کشید. در انگلستان ویکتوریایی، جایی که بسیاری از افراد جنسی را «پایه» و «حیوانی» می‌دانستند و ناآگاهی در مورد آموزش جنسی گسترده بود، بحث در مورد چنین موضوعاتی واقعاً رادیکال بود.

در سال 1898، پیرسون توسط انجمن سلطنتی مدال داروین اعطا شد، اما او نپذیرفت، زیرا معتقد بود که جوایزی باید به جوانان داده شود تا آنها را تشویق کند.

فلورانس نایتینگل (12 مه 1820 - 13 اوت 1910)

فلورانس نایتینگل (1820-1910) - پرستار و چهره عمومی در بریتانیای کبیر که در روز تولد او امروز روز جهانی پرستار را جشن می گیریم.

او در فلورانس در یک خانواده اشرافی ثروتمند به دنیا آمد، تحصیلات عالی دریافت کرد و شش زبان می دانست. با جواناندر سال 1853 او در آرزوی تبدیل شدن به یک خواهر رحمت، آموزش پرستاری را در جامعه خواهران کشیش فلندر در کایزرورث دریافت کرد و مدیر یک بیمارستان خصوصی کوچک در لندن شد.

در اکتبر 1854، در طول جنگ کریمهفلورانس به همراه 38 دستیار به بیمارستان های صحرایی در کریمه رفتند. او در حین سازماندهی مراقبت از مجروحان، اصول بهداشت و بهداشت را به طور مداوم اجرا می کرد. در نتیجه در کمتر از شش ماه مرگ و میر در بیمارستان ها از 42 به 2.2 درصد کاهش یافت!

نایتینگل که وظیفه اصلاح خدمات پزشکی در ارتش را بر عهده داشت، اطمینان حاصل کرد که بیمارستان ها مجهز به سیستم های تهویه و فاضلاب هستند. کارکنان بیمارستان ملزم به انجام این کار شدند آماده سازی لازم. یک دانشکده پزشکی نظامی سازماندهی شد و کار توضیحی بین سربازان و افسران در مورد اهمیت پیشگیری از بیماری انجام شد.

کمک های بزرگ فلورانس نایتینگل به آمار پزشکی!

  • کتاب 800 صفحه‌ای او یادداشت‌هایی درباره عوامل مؤثر بر سلامت، کارایی و مدیریت بیمارستان‌های ارتش بریتانیا (1858) شامل بخش کاملی بود که به آمار اختصاص داشت و با نمودارها نشان داده شده بود.
  • بلبل در استفاده از تصاویر گرافیکی در آمار مبتکر بود. او نمودارهای دایره ای را اختراع کرد که آنها را "شانه خروس" نامید و برای توصیف ساختار مرگ و میر استفاده کرد. بسیاری از نمودارهای او در گزارش کمیسیون مشکلات بهداشتی ارتش گنجانده شد که منجر به تصمیم برای اصلاح پزشکی ارتش شد.
  • او اولین فرم را برای جمع‌آوری آمار در بیمارستان‌ها ایجاد کرد که سلف فرم‌های گزارش‌دهی مدرن در مورد فعالیت‌های بیمارستانی است.

در سال 1859 او به عنوان عضو انجمن آماری سلطنتی انتخاب شد و متعاقباً به عضویت افتخاری انجمن آمار آمریکا درآمد.

یوهان کارل فردریش گاوس (30 آوریل 1777 - 23 فوریه 1855)

در 30 آوریل 1777، یوهان کارل فردریش گاوس، ریاضیدان، مکانیک، فیزیکدان، ستاره شناس، نقشه بردار و آماردان بزرگ آلمانی در شهر براونشوایگ متولد شد.

او را یکی از بزرگترین ریاضیدانان تمام دوران، «پادشاه ریاضیدانان» می دانند. برنده مدال کپلی (1838)، عضو خارجی آکادمی علوم سوئد (1821) و روسیه (1824) و انجمن سلطنتی انگلیس.

کارل در سه سالگی می‌توانست بخواند و بنویسد، حتی اشتباهات محاسباتی پدرش را تصحیح کند. طبق افسانه، یک معلم ریاضی مدرسه برای اینکه بچه ها را برای مدت طولانی مشغول کند، از آنها خواست که مجموع اعداد را از 1 تا 100 بشمارند. گاوس جوان متوجه شد که مجموع دو به دو طرف مقابل یکسان است: 1+100= 101، 2+99=101، و غیره و غیره، و فوراً نتیجه گرفت: 50×101 = 5050. او تا سنین پیری عادت داشت که بیشتر محاسباتش را در سر انجام دهد.

دستاوردهای علمی اصلی کارل گاوس در آمار، ایجاد روش حداقل مربعات است که زیربنای تحلیل رگرسیون است.

او همچنین به طور مفصل قانون توزیع نرمال را که در طبیعت گسترده است، که نمودار آن اغلب گاوسی نامیده می شود، مطالعه کرد. قانون "سه سیگما" (قانون گاوس) که توزیع نرمال را توصیف می کند به طور گسترده ای شناخته شده است.

لو سمیونوویچ کامینسکی (1889 - 1962)

در هفتاد و پنجمین سالگرد پیروزی در بزرگ جنگ میهنیمن می خواهم یک دانشمند فوق العاده، یکی از بنیانگذاران آمار پزشکی و بهداشتی نظامی در اتحاد جماهیر شوروی - لو سمنوویچ کامینسکی (1889-1962) را به یاد بیاورم و در مورد آن صحبت کنم.

او در 27 می 1889 در کیف به دنیا آمد. پس از فارغ التحصیلی با ممتاز از دانشکده پزشکی دانشگاه پتروگراد در سال 1918، کامینسکی در صفوف ارتش سرخ بود، از آوریل 1919 تا پایان سال 1920 سمت پزشک ارشد 136 بیمارستان تخلیه تلفیقی جنوب را داشت. جبهه شرقی

از سال 1922، لو سمیونوویچ مسئول بخش بهداشتی و اپیدمیولوژیک خدمات پزشکی و بهداشتی راه آهن شمال غربی بود. در این سالها شروع شد فعالیت علمیکامینسکی به راهنمایی پروفسور. S.A.Novoselsky. در کار بنیادی مشترک آنها، "تلفات در جنگ های گذشته"، مطالب آماری در مورد تلفات انسانی در جنگ های ارتش های مختلف جهان از سال 1756 تا 1918 مورد تجزیه و تحلیل قرار گرفت. در آثار بعدی، کامینسکی طبقه بندی جدید و دقیق تری از نظامی را توسعه داد و اثبات کرد. تلفات.

مونوگراف "تغذیه ملی و بهداشت عمومی" (1929) به طور مفصل جنبه های بهداشتی و بهداشتی تأثیر جنگ ها بر سلامت عمومی و همچنین مسائل سازماندهی مراقبت های پزشکی برای مردم و ارتش در طول جنگ را بررسی کرد.

از سال 1935 تا 1943، لو سمنوویچ ریاست بخش آمار بهداشتی (از سال 1942 - پزشکی) کمیساریای بهداشت مردم اتحاد جماهیر شوروی را بر عهده داشت. در اکتبر 1943، پروفسور کامینسکی رئیس بخش آمار پزشکی نظامی در آکادمی پزشکی نظامی به نام این دانشکده شد. S.M. Kirov و از سال 1956 سمت استادی در گروه آمار و حسابداری دانشگاه دولتی لنینگراد را برعهده داشت.

لو سمیونوویچ از اجرای گسترده حمایت کرد روش های کمیبه عمل آمار بهداشتی و پزشکی. در سال 1959 به تأليف او منتشر شد آموزش«پردازش آماری داده‌های آزمایشگاهی و بالینی: کاربرد آمار در کار علمی و عملی یک پزشک» که سال‌ها به یکی از بهترین کتاب‌های درسی داخلی در زمینه آمار پزشکی تبدیل شد. L.S. Kaminsky در مقدمه اشاره می کند:
«... مهم به نظر می رسد که پزشکان معالج بدانند چگونه به کار دست بزنند و بدانند چگونه اعداد صحیح را جمع آوری و پردازش کنند، مناسب برای مقایسه و مقایسه».

معیارها و روش ها

معیار T-STUDENT برای جمعیت های مستقل

آزمون تی دانشجویی نامی کلی برای دسته ای از روش ها برای آزمون آماری فرضیه ها (آزمون های آماری) بر اساس توزیع Student است. رایج ترین کاربردهای آزمون t شامل تست برابری میانگین ها در دو نمونه است.

این معیار تدوین شد ویلیام سیلی گوست

2. آزمون t Student برای چه مواردی استفاده می شود؟

برای تعیین معنی داری آماری تفاوت میانگین ها از آزمون t Student استفاده می شود. می توان از آن هم در موارد مقایسه نمونه های مستقل (مثلا گروهی از بیماران دیابتی و گروهی از افراد سالم) و هم در مقایسه جمعیت های مرتبط (مثلاً میانگین ضربان قلب در همان بیماران قبل و بعد از مصرف استفاده کرد. یک داروی ضد آریتمی). در حالت دوم، آزمون t زوجی دانشجو محاسبه می شود

3. در چه مواردی می توان از آزمون t Student استفاده کرد؟

برای اعمال آزمون t دانشجویی لازم است که داده های اصلی دارای توزیع نرمال باشند. برابری واریانس ها (توزیع) گروه های مقایسه شده (همسان سازی) نیز مهم است. برای واریانس های نابرابر، از آزمون t که توسط Welch (t Welch) اصلاح شده است استفاده می شود.

با غیبت توزیع نرمالنمونه های مقایسه شده، به جای آزمون t استیودنت، از روش های مشابه آمار ناپارامتریک استفاده می شود که معروف ترین آن ها تست U Mann-Whitney.

4. چگونه آزمون t Student را محاسبه کنیم؟

برای مقایسه مقادیر میانگین، آزمون t Student با استفاده از آن محاسبه می شود فرمول زیر:

جایی که M 1- میانگین حسابی اولین جمعیت مقایسه شده (گروه)، M 2- میانگین حسابی دومین جمعیت مقایسه شده (گروه)، متر 1- میانگین خطای میانگین حسابی اول، متر 2- میانگین خطای میانگین حسابی دوم.

مقدار آزمون t Student حاصل باید به درستی تفسیر شود. برای این کار باید تعداد آزمودنی های هر گروه (n 1 و n 2) را بدانیم. پیدا کردن تعداد درجات آزادی fطبق فرمول زیر:

F = (n 1 + n 2) - 2

پس از این، مقدار بحرانی آزمون t Student را برای سطح معنی‌داری مورد نیاز (به عنوان مثال p = 0.05) و برای تعداد معینی از درجات آزادی تعیین می‌کنیم. fمطابق جدول (به زیر مراجعه کنید).

  • اگر مقدار محاسبه شده آزمون t Student برابر یا بیشتر از مقدار بحرانی یافت شده از جدول باشد، نتیجه می گیریم که تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار است.
  • اگر مقدار آزمون t Student محاسبه شده کمتر از مقدار جدول باشد، تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار نیست.

برای بررسی اثربخشی فرآورده آهن جدید، دو گروه از بیماران مبتلا به کم خونی انتخاب شدند. در گروه اول، بیماران به مدت دو هفته داروی جدید و در گروه دوم دارونما دریافت کردند. سپس سطح هموگلوبین خون محیطی اندازه گیری شد. در گروه اول میانگین سطح هموگلوبین 2/1±4/115 گرم در لیتر و در گروه دوم 3/2±7/103 گرم در لیتر (داده‌های ارائه شده در فرمت M±m)، جمعیت‌های مقایسه شده دارای توزیع نرمال هستند. تعداد گروه اول 34 نفر و گروه دوم 40 نفر بود. نتیجه گیری در مورد اهمیت آماری تفاوت های به دست آمده و اثربخشی آماده سازی آهن جدید ضروری است.

راه حل:برای ارزیابی معنی‌داری تفاوت‌ها، از آزمون t Student استفاده می‌کنیم که به عنوان تفاوت در مقادیر میانگین تقسیم بر مجموع مجذور خطاها محاسبه می‌شود:

پس از انجام محاسبات، مقدار آزمون t برابر 4.51 شد. ما تعداد درجات آزادی را به صورت (34 + 40) - 2 = 72 می یابیم. ما مقدار آزمون t استودنت 4.51 حاصل را با مقدار بحرانی 0.05 = p که در جدول نشان داده شده است مقایسه می کنیم: 1.993. از آنجایی که مقدار محاسبه شده معیار بزرگتر از مقدار بحرانی است، نتیجه می گیریم که تفاوت های مشاهده شده از نظر آماری معنی دار هستند (سطح معنی داری p<0,05).


آزمون تی زوجی دانش آموزی

آزمون t زوجی دانشجویی یکی از اصلاحات روش Student است که برای تعیین معنی‌داری آماری تفاوت‌ها در اندازه‌گیری‌های زوجی (تکرار) استفاده می‌شود.

1. تاریخچه توسعه آزمون t

آزمون t توسعه داده شد ویلیام گوستبرای ارزیابی کیفیت آبجو در شرکت گینس. با توجه به تعهدات شرکت در خصوص عدم افشای اسرار تجاری، مقاله Gosset در سال 1908 در مجله Biometrics با نام مستعار "Student" منتشر شد.

2. آزمون t زوجی دانشجو برای چه مواردی استفاده می شود؟

از آزمون t زوجی دانشجویی برای مقایسه دو نمونه وابسته (جفتی) استفاده می شود. اندازه‌گیری‌های وابسته به اندازه‌گیری‌هایی هستند که در همان بیماران اما در زمان‌های مختلف انجام می‌شوند، برای مثال، فشار خون در بیماران مبتلا به فشار خون قبل و بعد از مصرف یک داروی ضد فشار خون. فرضیه صفر بیان می کند که بین نمونه های مورد مقایسه تفاوتی وجود ندارد، فرضیه جایگزین بیان می کند که تفاوت های آماری معنی داری وجود دارد.

3. در چه مواردی می توان از آزمون t زوجی Student استفاده کرد؟

شرط اصلی وابستگی نمونه ها است، یعنی مقادیر مورد مقایسه باید از اندازه گیری های مکرر یک پارامتر در همان بیماران به دست آید.

همانطور که در مورد مقایسه نمونه های مستقل، برای استفاده از آزمون t زوجی، داده های اصلی باید به طور معمول توزیع شوند. اگر این شرط برآورده نشد، باید از روش های آماری ناپارامتریک برای مقایسه میانگین های نمونه استفاده کرد، مانند تست علامت Gیا تست ویلکاکسون تی.

آزمون t زوجی فقط در هنگام مقایسه دو نمونه قابل استفاده است. اگر نیاز به مقایسه سه یا چند اندازه گیری تکراری دارید، باید از آن استفاده کنید تجزیه و تحلیل واریانس یک طرفه (ANOVA) برای اندازه گیری های مکرر.

4. چگونه آزمون t زوجی دانشجو را محاسبه کنیم؟

آزمون t زوجی دانشجو با استفاده از فرمول زیر محاسبه می شود:

جایی که ام دی- میانگین حسابی تفاوت بین شاخص های اندازه گیری شده قبل و بعد، σ د- انحراف معیار تفاوت در شاخص ها، n- تعداد موضوعات مورد مطالعه

5. چگونه مقدار آزمون t Student را تفسیر کنیم؟

تفسیر مقدار آزمون t زوجی حاصل از دانشجو با ارزیابی آزمون t برای جمعیت های نامرتبط تفاوتی ندارد. اول از همه، شما باید تعداد درجات آزادی را پیدا کنید fطبق فرمول زیر:

F = n - 1

پس از این، مقدار بحرانی آزمون t Student را برای سطح معنی‌داری مورد نیاز تعیین می‌کنیم (به عنوان مثال، p<0,05) и при данном числе степеней свободы fمطابق جدول (به زیر مراجعه کنید).

ما مقادیر بحرانی و محاسبه شده معیار را با هم مقایسه می کنیم:

  • اگر مقدار محاسبه شده آزمون t زوجی Student برابر یا بیشتر از مقدار بحرانی یافت شده از جدول باشد، نتیجه می گیریم که تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار است.
  • اگر مقدار آزمون t زوج محاسبه شده دانشجویی کمتر از مقدار جدول باشد، تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار نیست.

6. نمونه ای از محاسبه آزمون t Student

برای ارزیابی اثربخشی عامل هیپوگلیسمی جدید، سطح گلوکز خون در بیماران دیابتی قبل و بعد از مصرف دارو اندازه گیری شد. در نتیجه داده های زیر به دست آمد:

راه حل:

1. تفاوت هر جفت مقدار (d) را محاسبه کنید:

بیمار N سطح گلوکز خون، میلی مول در لیتر تفاوت (د)
قبل از مصرف دارو پس از مصرف دارو
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. میانگین حسابی تفاوت ها را با استفاده از فرمول پیدا کنید:

3. انحراف معیار تفاوت ها از میانگین را با استفاده از فرمول پیدا کنید:

4. آزمون t زوجی Student را محاسبه کنید:

5. مقدار بدست آمده از آزمون t Student 8.6 را با مقدار جدول مقایسه می کنیم که با تعداد درجات آزادی f برابر با 10 - 1 = 9 و سطح معنی داری 0.05 = p، 2.262 است. از آنجایی که مقدار به دست آمده بیشتر از مقدار بحرانی است، نتیجه می گیریم که از نظر آماری تفاوت معنی داری در سطح گلوکز خون قبل و بعد از مصرف داروی جدید وجود دارد.

جدول مقادیر بحرانی آزمون t Student را نشان دهید

معیار U من ویتنی

آزمون U Mann-Whitney یک آزمون آماری ناپارامتریک است که برای مقایسه دو نمونه مستقل از نظر سطح یک صفت اندازه‌گیری شده به صورت کمی استفاده می‌شود. این روش مبتنی بر تعیین این است که آیا منطقه مقادیر متقاطع بین دو سری تغییرات (یک سری رتبه بندی شده از مقادیر پارامتر در نمونه اول و یکسان در نمونه دوم) به اندازه کافی کوچک است یا خیر. هرچه مقدار معیار کمتر باشد، احتمال اینکه تفاوت بین مقادیر پارامتر در نمونه ها قابل اعتماد باشد بیشتر است.

1. تاریخچه توسعه معیار U

این روش برای شناسایی تفاوت بین نمونه ها در سال 1945 توسط یک شیمیدان و آماردان آمریکایی پیشنهاد شد. فرانک ویلکاکسون.
در سال 1947، به طور قابل توجهی توسط ریاضیدانان تجدید نظر و گسترش یافت H.B. مان(H.B. Mann) و دکتر. ویتنی(D.R. Whitney) که امروزه معمولاً به نام های او خوانده می شود.

2. آزمون Mann-Whitney U برای چیست؟

آزمون Mann-Whitney U برای ارزیابی تفاوت بین دو نمونه مستقل از نظر سطح هر مشخصه کمی استفاده می شود.

3. در چه مواردی می توان از آزمون من ویتنی یو استفاده کرد؟

آزمون U Mann-Whitney یک آزمون ناپارامتریک است، بنابراین، بر خلاف آزمون تی دانشجویی

آزمون U برای مقایسه نمونه های کوچک مناسب است: هر نمونه باید حداقل 3 مقدار مشخصه داشته باشد. مجاز است که در یک نمونه 2 مقدار وجود داشته باشد، اما دومی باید حداقل پنج عدد داشته باشد.

شرط استفاده از آزمون Mann-Whitney U عدم وجود مقادیر مشخصه منطبق در گروه های مقایسه شده (همه اعداد متفاوت هستند) یا تعداد بسیار کمی از این موارد مطابقت دارد.

آنالوگ آزمون U Mann-Whitney برای مقایسه سه یا چند گروه است تست کروسکال والیس.

4. چگونه آزمون من ویتنی U را محاسبه کنیم؟

اول، از هر دو نمونه مقایسه شده، الف سری تک رتبه، با مرتب کردن واحدهای مشاهده با توجه به درجه افزایش صفت و اختصاص رتبه کمتر به مقدار کوچکتر. در مورد مقادیر مساوی یک مشخصه برای چندین واحد، به هر یک از آنها میانگین حسابی مقادیر رتبه های متوالی اختصاص داده می شود.

به عنوان مثال، دو واحدی که جایگاه دوم و سوم (رتبه) را در یک ردیف رتبه بندی شده دارند، مقادیر یکسانی دارند. بنابراین، به هر یک از آنها رتبه ای برابر با (3 + 2) / 2 = 2.5 اختصاص داده می شود.

در مجموعه‌های رتبه‌بندی شده تکی، تعداد کل رتبه‌ها برابر است با:

N = n 1 + n 2

که در آن n 1 تعداد عناصر در نمونه اول و n 2 تعداد عناصر در نمونه دوم است.

در مرحله بعد، مجدداً سری تک رتبه بندی شده را به دو قسمت تقسیم می کنیم که به ترتیب از واحدهای نمونه اول و دوم تشکیل شده است، در حالی که مقادیر رتبه را برای هر واحد به خاطر می آوریم. مجموع رتبه هایی را که بر سهم عناصر نمونه اول قرار می گیرند به طور جداگانه محاسبه می کنیم و به طور جداگانه - در سهم عناصر نمونه دوم. بزرگتر از دو مجموع رتبه (T x) مربوط به نمونه ای با n عنصر x را تعیین می کنیم.

در نهایت، با استفاده از فرمول، مقدار آزمون U Mann-Whitney را پیدا می کنیم:

5. چگونه می توان مقدار آزمون U Mann-Whitney را تفسیر کرد؟

ما مقدار حاصل از آزمون U را با استفاده از جدول برای سطح معنی‌داری آماری انتخاب شده (05/0=p یا 01/0=p) با مقدار بحرانی U برای تعداد معینی از نمونه‌های مقایسه شده مقایسه می‌کنیم:

  • اگر مقدار حاصل U کمترجدولی یا برابر استسپس اهمیت آماری تفاوت‌های سطوح صفت در نمونه‌های مورد بررسی تشخیص داده می‌شود (فرضیه جایگزین پذیرفته می‌شود). هرچه مقدار U کوچکتر باشد، قابلیت اطمینان تفاوت ها بیشتر است.
  • اگر مقدار حاصل U بیشتربه صورت جدول، فرضیه صفر پذیرفته می شود.
جدول مقادیر بحرانی آزمون U Mann-Whitney را در p=0.05 نشان دهید

معیار WILCOxon

آزمون Wilcoxon برای نمونه های مرتبط (همچنین به نام های Wilcoxon T-test، تست Wilcoxon، تست رتبه علامت دار Wilcoxon، آزمون مجموع رتبه Wilcoxon) یک آزمون آماری ناپارامتریک است که برای مقایسه دو نمونه مرتبط (جفتی) از نظر سطح هر مشخصه کمی اندازه گیری شده استفاده می شود. در مقیاس پیوسته یا ترتیبی.

ماهیت روش این است که مقادیر مطلق شدت تغییرات در یک جهت یا جهت دیگر مقایسه می شود. برای انجام این کار، ابتدا تمام مقادیر مطلق شیفت ها رتبه بندی می شوند و سپس رتبه ها جمع می شوند. اگر جابه‌جایی در یک جهت یا جهت دیگر به طور تصادفی رخ دهد، مجموع رتبه‌های آنها تقریباً برابر خواهد بود. اگر شدت جابه‌جایی‌ها در یک جهت بیشتر باشد، مجموع رتبه‌های مقادیر مطلق جابه‌جایی‌ها در جهت مخالف به طور قابل‌توجهی کمتر از آن چیزی است که با تغییرات تصادفی ممکن است باشد.

1. تاریخچه توسعه آزمایش Wilcoxon برای نمونه های مرتبط

این آزمایش برای اولین بار در سال 1945 توسط آماردان و شیمیدان آمریکایی فرانک ویلکاکسون (1892-1965) پیشنهاد شد. نویسنده در همین اثر علمی، معیار دیگری را که در مورد مقایسه نمونه‌های مستقل به کار می‌رود، بیان کرده است.

2. آزمایش Wilcoxon برای چه مواردی استفاده می شود؟

تست Wilcoxon T برای ارزیابی تفاوت بین دو مجموعه اندازه گیری انجام شده در یک جمعیت اما در شرایط مختلف یا در زمان های مختلف استفاده می شود. این آزمون می تواند جهت و شدت تغییرات را نشان دهد - یعنی اینکه آیا شاخص ها در یک جهت بیشتر از جهت دیگر جابه جا می شوند یا خیر.

یک مثال کلاسیک از موقعیتی که در آن می توان از تست Wilcoxon T برای جمعیت های مرتبط استفاده کرد، یک مطالعه قبل و بعد است که نمرات قبل و بعد از درمان را مقایسه می کند. به عنوان مثال، هنگام مطالعه اثربخشی یک داروی ضد فشار خون، فشار خون قبل و بعد از مصرف دارو مقایسه می شود.

3. شرایط و محدودیت های استفاده از آزمون تی ویلکاکسون

  1. آزمون Wilcoxon یک آزمون ناپارامتریک است، بنابراین، بر خلاف آزمون t زوجی دانشجو، نیازی به توزیع نرمال جمعیت های مورد مقایسه ندارد.
  2. تعداد آزمودنی ها هنگام استفاده از آزمون تی ویلکاکسون باید حداقل 5 نفر باشد.
  3. صفت مورد مطالعه را می توان هم در مقیاس کمی پیوسته (فشار خون، ضربان قلب، محتوای لکوسیت در 1 میلی لیتر خون) و هم در مقیاس ترتیبی (تعداد نقاط، شدت بیماری، درجه آلودگی به میکروارگانیسم ها) اندازه گیری کرد.
  4. این معیار فقط هنگام مقایسه دو سری اندازه گیری استفاده می شود. آنالوگ تست Wilcoxon T برای مقایسه سه یا چند جمعیت مرتبط است معیار فریدمن.

4. چگونه می توان تست Wilcoxon T را برای نمونه های مرتبط محاسبه کرد؟

  1. تفاوت بین مقادیر اندازه گیری های زوجی برای هر موضوع را محاسبه کنید. تغییر صفر بیشتر در نظر گرفته نمی شود.
  2. تعیین کنید که کدام یک از تفاوت ها معمولی است، یعنی با جهت تغییر در شاخصی که در فرکانس غالب است مطابقت دارد.
  3. تفاوت جفت ها را با توجه به مقادیر مطلق آنها (یعنی بدون در نظر گرفتن علامت) به ترتیب صعودی رتبه بندی کنید. قدر مطلق کوچکتر تفاوت رتبه پایین تری دارد.
  4. مجموع رتبه های مربوط به جابجایی های غیر معمول را محاسبه کنید.

بنابراین، تست Wilcoxon T برای نمونه های مرتبط با استفاده از فرمول زیر محاسبه می شود:

که در آن ΣRr مجموع رتبه های مربوط به تغییرات غیر معمول در شاخص است.

5. چگونه می توان ارزش آزمون Wilcoxon را تفسیر کرد؟

مقدار حاصل از آزمون تی ویلکاکسون با مقدار بحرانی مطابق جدول برای سطح معنی‌داری آماری انتخاب شده مقایسه می‌شود. p=0.05یا p=0.01) برای تعداد معینی از نمونه های مقایسه شده n:

  • اگر مقدار محاسبه شده (تجربی) T em. کمتر از جدول T cr. یا برابر با آن، سپس اهمیت آماری تغییرات شاخص در جهت معمولی تشخیص داده می شود (فرضیه جایگزین پذیرفته می شود). هرچه مقدار T کمتر باشد، قابلیت اطمینان تفاوت ها بیشتر است.
  • اگر T emp. بیشتر T cr. ، فرضیه صفر مبنی بر عدم معناداری آماری تغییرات در شاخص پذیرفته می شود.

نمونه ای از محاسبه تست Wilcoxon برای نمونه های مرتبط

یک شرکت داروسازی در حال تحقیق بر روی داروی جدیدی از گروه داروهای ضدالتهاب غیراستروئیدی است. برای این منظور، یک گروه 10 نفره از داوطلبان مبتلا به ARVI مبتلا به هایپرترمی انتخاب شدند. دمای بدن آنها قبل و 30 دقیقه بعد از مصرف داروی جدید اندازه گیری شد. نتیجه گیری در مورد اهمیت کاهش دمای بدن در نتیجه مصرف دارو ضروری است.

  1. داده های منبع در جدول زیر ارائه شده است:
  2. برای محاسبه آزمون تی ویلکاکسون، تفاوت بین اندیکاتورهای زوجی را محاسبه کرده و مقادیر مطلق آنها را رتبه بندی می کنیم. در این مورد، ما رتبه های غیر معمول را با قرمز برجسته می کنیم:
    ن نام خانوادگی قبل از مصرف دارو بدن پس از مصرف دارو تفاوت شاخص ها، د |د| رتبه
    1. ایوانف 39.0 37.6 -1.4 1.4 7
    2. پتروف 39.5 38.7 -0.8 0.8 5
    3. سیدوروف 38.6 38.7 0.1 0.1 1.5
    4. پوپوف 39.1 38.5 -0.6 0.6 4
    5. نیکولایف 40.1 38.6 -1.5 1.5 8
    6. کوزلوف 39.3 37.5 -1.8 1.8 9
    7. ایگناتیف 38.9 38.8 -0.1 0.1 1.5
    8. سمنوف 39.2 38.0 -1.2 1.2 6
    9. اگوروف 39.8 39.8 0
    10. آلکسیف 38.8 39.3 0.5 0.5 3
    همانطور که می بینیم، تغییر معمولیشاخص کاهش آن است که در 7 مورد از 10 مورد ذکر شده است. در یک مورد (در بیمار Egorov)، دما پس از مصرف دارو تغییر نکرد و بنابراین این مورد در تجزیه و تحلیل بیشتر مورد استفاده قرار نگرفت. در دو مورد (در بیماران سیدوروف و آلکسیف) ذکر شد تغییر غیر معمولدما به سمت بالا رتبه های مربوط به یک جابجایی غیر معمول 1.5 و 3 است.
  3. بیایید تست Wilcoxon T را محاسبه کنیم، که برابر است با مجموع رتبه های مربوط به جابجایی غیر معمول شاخص:

    T = ΣRr = 3 + 1.5 = 4.5

  4. بیایید T emp را با هم مقایسه کنیم. با T cr. که در سطح معنی داری 05/0p= و 9=n برابر 8 است. بنابراین T emp.
  5. نتیجه می گیریم: کاهش دمای بدن در بیماران مبتلا به ARVI در نتیجه مصرف یک داروی جدید از نظر آماری معنی دار است (p<0.05).
جدول مقادیر بحرانی آزمون تی ویلکاکسون را نمایش دهید

معیار chi-square پیرسون

آزمون χ 2 پیرسون یک روش ناپارامتریک است که به ما امکان می‌دهد تا اهمیت تفاوت‌ها را بین تعداد واقعی (آشکارشده) پیامدها یا ویژگی‌های کیفی نمونه که در هر دسته قرار می‌گیرند و عدد نظری که در گروه‌های مورد مطالعه انتظار می‌رود، ارزیابی کنیم. فرضیه صفر درست است به بیان ساده، این روش به شما امکان می دهد تا اهمیت آماری تفاوت بین دو یا چند شاخص نسبی (فرکانس ها، نسبت ها) را ارزیابی کنید.

1. تاریخچه توسعه معیار χ 2

آزمون مجذور کای برای تجزیه و تحلیل جداول اقتضایی در سال 1900 توسط یک ریاضیدان، آماردان، زیست شناس و فیلسوف انگلیسی، بنیانگذار آمار ریاضی و یکی از بنیانگذاران بیومتریک ایجاد و پیشنهاد شد. کارل پیرسون(1857-1936).

2. چرا از آزمون χ 2 پیرسون استفاده می شود؟

در تجزیه و تحلیل می توان از آزمون کای دو استفاده کرد جداول احتمالیحاوی اطلاعات در مورد فراوانی پیامدها بسته به وجود یک عامل خطر. به عنوان مثال، یک جدول احتمالی چهار میدانی به شکل زیر است:

یک نتیجه وجود دارد (1) بدون نتیجه (0) جمع
یک عامل خطر وجود دارد (1) آ ب A+B
بدون عامل خطر (0) سی D C+D
جمع A+C B+D A+B+C+D

چگونه می توان چنین جدول احتمالی را پر کرد؟ بیایید به یک مثال کوچک نگاه کنیم.

مطالعه ای در مورد تأثیر سیگار بر خطر ابتلا به فشار خون شریانی در حال انجام است. برای این منظور، دو گروه از آزمودنی‌ها انتخاب شدند - گروه اول شامل 70 نفر که حداقل 1 پاکت سیگار در روز می‌کشیدند، گروه دوم شامل 80 فرد غیر سیگاری در همان سن بودند. در گروه اول 40 نفر فشار خون بالا داشتند. در مرحله دوم، فشار خون شریانی در 32 نفر مشاهده شد. بر این اساس، فشار خون طبیعی در گروه سیگاری ها در 30 نفر (70 - 40 = 30) و در گروه غیر سیگاری - در 48 نفر (80 - 32 = 48) بود.

جدول احتمالی چهار میدانی را با داده های اولیه پر می کنیم:

در جدول احتمالی حاصل، هر خط مربوط به گروه خاصی از موضوعات است. ستون ها تعداد افراد مبتلا به فشار خون شریانی یا فشار خون طبیعی را نشان می دهد.

وظیفه ای که بر عهده محقق گذاشته می شود این است که آیا بین فراوانی افراد مبتلا به فشار خون در بین افراد سیگاری و غیر سیگاری از نظر آماری تفاوت معناداری وجود دارد؟ این سوال را می توان با محاسبه آزمون کای دو پیرسون و مقایسه مقدار به دست آمده با مقدار بحرانی پاسخ داد.

  1. شاخص های قابل مقایسه باید در مقیاس اسمی (مثلاً جنسیت بیمار مرد یا زن است) یا در مقیاس ترتیبی (مثلاً درجه فشار خون شریانی از 0 تا 3) اندازه گیری شوند.
  2. این روش به شما امکان می دهد نه تنها جداول چهار میدانی را تجزیه و تحلیل کنید، زمانی که عامل و نتیجه هر دو متغیر باینری هستند، یعنی فقط دو مقدار ممکن دارند (به عنوان مثال، جنسیت مرد یا زن، وجود یا عدم وجود یک بیماری خاصی در تاریخ ...). آزمون کای دو پیرسون همچنین می تواند در مورد تجزیه و تحلیل جداول چند میدانی استفاده شود، زمانی که یک عامل و (یا) نتیجه سه مقدار یا بیشتر داشته باشد.
  3. گروه‌هایی که مقایسه می‌شوند باید مستقل باشند، یعنی هنگام مقایسه مشاهدات قبل و بعد از آزمون کای دو استفاده نشود. تست مک نمار(هنگام مقایسه دو جمعیت مرتبط) یا محاسبه می شود آزمون کیو کوکران(در صورت مقایسه سه گروه یا بیشتر).
  4. هنگام تجزیه و تحلیل جداول چهار میدانی ارزش های مورد انتظاردر هر سلول باید حداقل 10 وجود داشته باشد. اگر حداقل در یک سلول پدیده مورد انتظار از 5 تا 9 به دست آید، آزمون کای دو باید محاسبه شود. با اصلاحیه یتس. اگر حداقل در یک سلول پدیده مورد انتظار کمتر از 5 باشد، باید از تجزیه و تحلیل استفاده کرد تست دقیق فیشر.
  5. هنگام تجزیه و تحلیل جداول چند میدانی، تعداد مشاهدات مورد انتظار در بیش از 20 درصد سلول ها نباید کمتر از 5 باشد.

4. چگونه آزمون کای دو پیرسون را محاسبه کنیم؟

برای محاسبه آزمون کای دو نیاز دارید:

این الگوریتم برای جداول چهار میدانی و چند میدانی قابل استفاده است.

5. چگونه می توان مقدار آزمون کای دو پیرسون را تفسیر کرد؟

اگر مقدار به دست آمده از معیار χ2 بیشتر از مقدار بحرانی باشد، نتیجه می گیریم که رابطه آماری بین عامل خطر مورد مطالعه و نتیجه در سطح معنی داری مناسب وجود دارد.

6. مثالی از محاسبه آزمون کای اسکوئر پیرسون

اجازه دهید با استفاده از جدول فوق، اهمیت آماری تأثیر عامل سیگار کشیدن بر بروز فشار خون شریانی را تعیین کنیم:

  1. ما مقادیر مورد انتظار را برای هر سلول محاسبه می کنیم:
  2. مقدار آزمون کای دو پیرسون را پیدا کنید:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. تعداد درجات آزادی f = (2-1)*(2-1) = 1. با استفاده از جدول مقدار بحرانی آزمون کای دو پیرسون را می یابیم که در سطح معنی داری 05/0=p و عدد درجه آزادی 1 3.841 است.
  4. ما مقدار به دست آمده از آزمون کای دو را با مقدار بحرانی مقایسه می کنیم: 4.396 > 3.841، بنابراین، وابستگی بروز فشار خون شریانی به حضور سیگار از نظر آماری معنی دار است. سطح معنی داری این رابطه با p مطابقت دارد<0.05.
جدول مقادیر بحرانی آزمون کای اسکوئر پیرسون را نشان دهید

معیار دقیق فیشر

آزمون دقیق فیشر آزمونی است که برای مقایسه دو شاخص نسبی که فراوانی یک مشخصه خاص را که دارای دو مقدار است، مشخص می کند، استفاده می شود. داده های اولیه برای محاسبه آزمون دقیق فیشر معمولاً در قالب یک جدول چهار میدانی گروه بندی می شوند.

1. تاریخچه توسعه معیار

این معیار ابتدا پیشنهاد شد رونالد فیشردر کتاب طراحی آزمایشات. این اتفاق در سال 1935 رخ داد. خود فیشر ادعا کرد که موریل بریستول او را به این ایده سوق داد. در اوایل دهه 1920، رونالد، موریل و ویلیام روچ در انگلستان در یک ایستگاه آزمایشی کشاورزی مستقر شدند. موریل ادعا کرد که می تواند ترتیب ریختن چای و شیر در فنجان او را تعیین کند. در آن زمان امکان تأیید صحت اظهارات او وجود نداشت.

این موضوع باعث ایجاد ایده فیشر در مورد "فرضیه صفر" شد. هدف این نبود که ثابت شود موریل می‌تواند تفاوت بین فنجان‌های چای متفاوت را تشخیص دهد. تصمیم گرفته شد که این فرضیه که یک زن به طور تصادفی انتخاب می کند رد شود. مشخص شد که فرضیه صفر نه قابل اثبات است و نه قابل توجیه. اما می توان آن را در طول آزمایش رد کرد.

8 فنجان آماده شد. چهار مورد اول ابتدا با شیر پر می شود و چهار مورد دیگر با چای. فنجان ها مخلوط شدند. بریستول پیشنهاد داد چای را بچشند و فنجان ها را بر اساس روش تهیه چای تقسیم کنند. نتیجه باید دو گروه می شد. تاریخ می گوید که این آزمایش موفقیت آمیز بود.

با تشکر از آزمون فیشر، احتمال اینکه بریستول به طور شهودی عمل می کند به 0.01428 کاهش یافت. یعنی میشد در یک مورد از 70 تا کاپ رو درست تشخیص داد. ولی باز هم نمیشه شانسهایی که مادام تصادفی تعیین میکنه رو صفر کرد. حتی اگر تعداد فنجان ها را افزایش دهید.

این داستان انگیزه ای برای توسعه "فرضیه صفر" داد. در همان زمان، معیار دقیق فیشر پیشنهاد شد که ماهیت آن برشمردن همه ترکیبات ممکن از متغیرهای وابسته و مستقل است.

2. آزمایش دقیق فیشر برای چیست؟

آزمایش دقیق فیشر عمدتا برای مقایسه نمونه های کوچک استفاده می شود. دو دلیل خوب برای این وجود دارد. اولاً، محاسبه معیار کاملاً دست و پا گیر است و می تواند زمان زیادی طول بکشد یا به منابع محاسباتی قدرتمند نیاز داشته باشد. ثانیاً، معیار کاملاً دقیق است (که حتی در نام آن منعکس شده است) که امکان استفاده از آن در مطالعات با تعداد کمی مشاهدات را فراهم می کند.

جایگاه ویژه ای به آزمایش دقیق فیشر در پزشکی داده شده است. این یک روش مهم برای پردازش داده های پزشکی است و در بسیاری از مطالعات علمی کاربرد خود را پیدا کرده است. به لطف آن، می توان رابطه بین برخی عوامل و پیامدها را مطالعه کرد، فراوانی شرایط پاتولوژیک را بین دو گروه از افراد مقایسه کرد و غیره.

3. در چه مواردی می توان از تست دقیق فیشر استفاده کرد؟

  1. متغیرهای مورد مقایسه باید در مقیاس اسمی اندازه گیری شوند و فقط دو مقدار داشته باشند، به عنوان مثال فشار خون طبیعی یا بالا است، نتیجه مطلوب یا نامطلوب است، عوارض بعد از عمل وجود دارد یا خیر.
  2. آزمون دقیق فیشر برای مقایسه دو گروه مستقل که بر اساس فاکتور تقسیم شده اند طراحی شده است. بر این اساس، فاکتور نیز باید تنها دو مقدار ممکن داشته باشد.
  3. این معیار برای مقایسه نمونه های بسیار کوچک مناسب است: از آزمون دقیق فیشر می توان برای تجزیه و تحلیل جداول چهار کامل در مورد مقادیر پدیده مورد انتظار کمتر از 5 استفاده کرد که یک محدودیت برای کاربرد است. آزمون کای اسکوئر پیرسون، حتی با در نظر گرفتن اصلاحیه یتس.
  4. تست دقیق فیشر می تواند یک طرفه یا دو طرفه باشد. با یک گزینه یک طرفه، دقیقا مشخص است که یکی از شاخص ها در کجا منحرف می شود. به عنوان مثال، یک مطالعه تعداد بیماران بهبود یافته را در مقایسه با گروه کنترل مقایسه می کند. فرض بر این است که درمان نمی تواند وضعیت بیماران را بدتر کند، بلکه فقط آن را درمان می کند یا خیر.
    یک تست دو طرفه تفاوت فرکانس را در دو جهت ارزیابی می کند. یعنی احتمال وجود هر دو فراوانی بیشتر و کمتر پدیده در گروه آزمایش نسبت به گروه کنترل ارزیابی می شود.

آنالوگ آزمایش دقیق فیشر است آزمون کای اسکوئر پیرسون، در حالی که تست دقیق فیشر به ویژه در مقایسه نمونه های کوچک قدرت بالاتری دارد و بنابراین در این مورد مزیت دارد.

4. چگونه تست دقیق فیشر را محاسبه کنیم؟

فرض کنید در حال مطالعه وابستگی فراوانی تولد کودکان مبتلا به ناهنجاری های مادرزادی (CDD) به سیگار کشیدن مادر در دوران بارداری هستیم. برای این منظور دو گروه از زنان باردار انتخاب شدند که یکی از آنها یک گروه آزمایشی شامل 80 زن سیگاری در سه ماهه اول بارداری و گروه دوم یک گروه مقایسه شامل 90 زن که سبک زندگی سالمی را در طول بارداری دنبال می‌کردند. تعداد موارد ناهنجاری مادرزادی جنین در گروه آزمایش 10 مورد و در گروه مقایسه - 2 مورد بود.

ابتدا یک جدول احتمالی چهار میدانی ایجاد می کنیم:

آزمون دقیق فیشر با استفاده از فرمول زیر محاسبه می شود:

که در آن N تعداد کل افراد در دو گروه است. ! - فاکتوریل که حاصل ضرب یک عدد و دنباله ای از اعداد است که هر کدام از اعداد قبلی کمتر از 1 است (مثلاً 4! = 4 3 2 1)

در نتیجه محاسبات، دریافتیم که P = 0.0137.

5. چگونه می توان ارزش آزمون دقیق فیشر را تفسیر کرد؟

مزیت روش این است که معیار حاصل با مقدار دقیق سطح معناداری p مطابقت دارد. یعنی مقدار 0.0137 به دست آمده در مثال ما سطح معنی داری تفاوت بین گروه های مقایسه شده در فراوانی رشد ناهنجاری های مادرزادی جنین است. فقط لازم است این عدد را با سطح بحرانی معنی‌داری که معمولاً در تحقیقات پزشکی 0.05 در نظر گرفته می‌شود، مقایسه کرد.

  • اگر مقدار آزمون دقیق فیشر بیشتر از مقدار بحرانی باشد، فرضیه صفر پذیرفته شده و نتیجه گیری می شود که بسته به وجود عامل خطر، تفاوت آماری معنی داری در فراوانی نتیجه وجود ندارد.
  • اگر مقدار آزمون دقیق فیشر کمتر از مقدار بحرانی باشد، فرضیه جایگزین پذیرفته شده و نتیجه گیری می شود که بسته به مواجهه با عامل خطر، تفاوت های آماری معنی داری در فراوانی پیامد وجود دارد.

در مثال ما P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


نسبت شانس

نسبت شانس یک شاخص آماری است (در زبان روسی نام آن معمولاً به صورت OR و در انگلیسی - OR از "نسبت شانس" نامیده می شود)، یکی از راه های اصلی برای توصیف به صورت عددی چقدر عدم وجود یا وجود یک نتیجه خاص است. مربوط به وجود یا عدم وجود یک عامل خاص در یک گروه آماری خاص است.

1. تاریخچه توسعه شاخص نسبت شانس

اصطلاح "شانس" از نظریه قمار می آید، جایی که این مفهوم برای نشان دادن نسبت موقعیت های برنده به موقعیت های بازنده استفاده می شود. در ادبیات علمی پزشکی، شاخص نسبت شانس اولین بار در سال 1951 در کار J. Kornfield ذکر شد. متعاقباً، این محقق مقالاتی را منتشر کرد که نیاز به محاسبه فاصله اطمینان 95٪ برای نسبت شانس را ذکر کردند. (Cornfield, J. A Method for Estimating Comparative Rates from Clinical Data. Applications to Cancer of the Lung, Breast, and Cervix // Journal of the National Cancer Institute, 1951. - N.11. - P.1269-1275.)

2. نسبت شانس برای چیست؟

نسبت شانس ارتباط بین یک نتیجه خاص و یک عامل خطر را تخمین می زند.

نسبت شانس به شما امکان می دهد گروه های مورد مطالعه را با توجه به دفعات تشخیص یک عامل خطر خاص مقایسه کنید. مهم است که نتیجه اعمال نسبت شانس نه تنها تعیین اهمیت آماری رابطه بین عامل و نتیجه، بلکه ارزیابی کمی آن باشد.

3. شرایط و محدودیت های استفاده از نسبت شانس

  1. شاخص های نتیجه و عامل باید در مقیاس اسمی اندازه گیری شوند. به عنوان مثال، علامت مؤثر وجود یا عدم وجود ناهنجاری مادرزادی در جنین است، عامل مورد مطالعه سیگار کشیدن مادر (سیگار می کشد یا سیگار نمی کشد).
  2. این روش امکان تجزیه و تحلیل تنها جداول چهار میدانی را فراهم می کند، زمانی که عامل و نتیجه هر دو متغیر باینری هستند، یعنی فقط دو مقدار ممکن دارند (به عنوان مثال، جنسیت - مرد یا زن، فشار خون شریانی - حضور یا عدم وجود، نتیجه بیماری - با یا بدون بهبود ...).
  3. گروه های مورد مقایسه باید مستقل باشند، یعنی نسبت شانس برای مقایسه قبل و بعد مناسب نیست.
  4. شاخص نسبت شانس در مطالعات مورد شاهدی استفاده می شود (به عنوان مثال، گروه اول بیماران مبتلا به فشار خون بالا، گروه دوم افراد نسبتا سالم هستند). برای مطالعات آینده نگر، زمانی که گروه ها بر اساس وجود یا عدم وجود یک عامل خطر تشکیل می شوند (به عنوان مثال، گروه اول سیگاری ها، گروه دوم غیر سیگاری ها)، می توان آن را نیز محاسبه کرد. ریسک نسبی.

4. چگونه نسبت شانس را محاسبه کنیم؟

نسبت شانس مقدار کسری است که در آن صورت‌دهنده شانس یک رویداد معین را برای گروه اول و مخرج آن شامل شانس همان رویداد برای گروه دوم است.

شانس. فرصتنسبت تعداد آزمودنی هایی است که دارای یک ویژگی خاص (نتیجه یا عامل) هستند به تعداد آزمودنی هایی که این ویژگی را ندارند.

به عنوان مثال، گروهی از بیمارانی که به دلیل نکروز پانکراس تحت عمل جراحی قرار گرفتند، انتخاب شدند که تعداد آنها 100 نفر بود. بعد از 5 سال 80 نفر از آنها هنوز زنده بودند. بر این اساس شانس زنده ماندن 80 به 20 یا 4 بود.

یک راه راحت این است که نسبت شانس را با خلاصه کردن داده ها در یک جدول 2x2 محاسبه کنید:

یک نتیجه وجود دارد (1) بدون نتیجه (0) جمع
یک عامل خطر وجود دارد (1) آ ب A+B
بدون عامل خطر (0) سی D C+D
جمع A+C B+D A+B+C+D

برای این جدول، نسبت شانس با استفاده از فرمول زیر محاسبه می شود:

ارزیابی اهمیت آماری ارتباط شناسایی شده بین نتیجه و عامل خطر بسیار مهم است. این به دلیل این واقعیت است که حتی با مقادیر کم نسبت شانس، نزدیک به وحدت، رابطه، با این وجود، ممکن است قابل توجه باشد و باید در نتیجه گیری های آماری مورد توجه قرار گیرد. برعکس، با مقادیر OR بزرگ، نشانگر از نظر آماری ناچیز است، و بنابراین، رابطه شناسایی شده را می توان نادیده گرفت.

برای ارزیابی اهمیت نسبت شانس، مرزهای فاصله اطمینان 95% محاسبه می شود (از مخفف 95% CI یا 95% CI از انگلیسی "فاصله اطمینان" استفاده می شود). فرمول برای یافتن مقدار حد بالایی 95% CI:

فرمول برای یافتن مقدار حد پایین 95% CI:

5. چگونه مقدار نسبت شانس را تفسیر کنیم؟

  • اگر نسبت شانس بزرگتر از 1 باشد، به این معنی است که شانس یافتن یک عامل خطر در گروهی که نتیجه آن وجود دارد بیشتر است. آن ها این عامل ارتباط مستقیمی با احتمال وقوع نتیجه دارد.
  • نسبت شانس کمتر از 1 نشان می دهد که شانس تشخیص یک عامل خطر در گروه دوم بیشتر است. آن ها این عامل با احتمال وقوع نتیجه رابطه معکوس دارد.
  • با نسبت شانس برابر با یک، شانس تشخیص یک عامل خطر در گروه های مقایسه شده یکسان است. بر این اساس، این عامل هیچ تاثیری بر احتمال نتیجه ندارد.

علاوه بر این، در هر مورد، اهمیت آماری نسبت شانس لزوماً بر اساس مقادیر فاصله اطمینان 95٪ ارزیابی می شود.

  • اگر فاصله اطمینان شامل 1 نباشد، یعنی. هر دو مقدار مرزها یا بیشتر یا کمتر از 1 هستند، در مورد اهمیت آماری رابطه شناسایی شده بین عامل و نتیجه در سطح معنی داری p نتیجه گیری می شود.<0,05.
  • اگر فاصله اطمینان شامل 1 باشد، یعنی. حد بالایی آن بیشتر از 1 و حد پایینی آن کمتر از 1 است، نتیجه می‌گیریم که در سطح معنی‌داری 05/0p> رابطه بین عامل و نتیجه از نظر آماری معنادار نیست.
  • اندازه فاصله اطمینان با سطح اهمیت رابطه بین عامل و نتیجه نسبت معکوس دارد. هرچه CI 95% کوچکتر باشد، رابطه شناسایی شده معنادارتر است.

6. مثالی از محاسبه شاخص نسبت شانس

بیایید دو گروه را تصور کنیم: گروه اول شامل 200 زن بود که با ناهنجاری مادرزادی جنین (Exodus+) تشخیص داده شد. از این تعداد 50 نفر در دوران بارداری سیگار می کشیدند (فاکتور+) (آ)، غیر سیگاری بودند (فاکتور-) - 150 نفر (با).

گروه دوم شامل 100 زن بدون علائم ناهنجاری مادرزادی جنین (نتیجه -) بود که 10 نفر در دوران بارداری سیگار می کشیدند (فاکتور +) (ب)، سیگار نمی کشید (فاکتور-) - 90 نفر (د).

1. بیایید یک جدول احتمالی چهار میدانی ایجاد کنیم:

2. مقدار نسبت شانس را محاسبه کنید:

OR = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. مرزهای 95% CI را پیدا کنید. مقدار حد پایین محاسبه شده با استفاده از فرمول فوق 1.45 و حد بالا 6.21 بود.

بنابراین، این مطالعه نشان داد که شانس ملاقات با یک زن سیگاری در بین بیماران مبتلا به ناهنجاری مادرزادی تشخیص داده شده جنین، 3 برابر بیشتر از زنان بدون علائم ناهنجاری مادرزادی جنین است. وابستگی مشاهده شده از نظر آماری معنادار است، زیرا 95% CI شامل 1 نمی شود، مقادیر حد پایین و بالایی آن بیشتر از 1 است.


خطر نسبی

خطر احتمال وقوع یک پیامد خاص مانند بیماری یا آسیب است. ریسک می تواند مقادیری از 0 (احتمال وقوع نتیجه وجود ندارد) تا 1 داشته باشد (در همه موارد نتیجه نامطلوبی انتظار می رود). در آمار پزشکی، به عنوان یک قاعده، تغییرات در خطر یک نتیجه بسته به عواملی مورد مطالعه قرار می گیرد. بیماران به طور مشروط به 2 گروه تقسیم می شوند که یکی از آنها تحت تأثیر عامل قرار می گیرد و دیگری تحت تأثیر این عامل قرار نمی گیرد.

ریسک نسبی عبارت است از نسبت فراوانی پیامدها در بین آزمودنی‌هایی که تحت تأثیر عامل مورد مطالعه قرار گرفته‌اند به فراوانی پیامدها در بین افرادی که تحت تأثیر این عامل قرار نگرفته‌اند. در ادبیات علمی، نام اختصاری شاخص اغلب استفاده می شود - RR یا RR (از انگلیسی "ریسک نسبی").

1. تاریخچه توسعه شاخص ریسک نسبی

محاسبه ریسک نسبی توسط آمار پزشکی از اقتصاد وام گرفته شده است. ارزیابی صحیح تأثیر عوامل سیاسی، اقتصادی و اجتماعی بر تقاضای یک محصول یا خدمات می تواند منجر به موفقیت شود و دست کم گرفتن این عوامل می تواند منجر به شکست مالی و ورشکستگی شرکت شود.

2. ریسک نسبی برای چه مواردی استفاده می شود؟

ریسک نسبی برای مقایسه احتمال یک نتیجه بسته به وجود یک عامل خطر استفاده می شود. به عنوان مثال، هنگام ارزیابی اثر سیگار بر بروز فشار خون بالا، هنگام مطالعه وابستگی بروز سرطان سینه به استفاده از داروهای ضد بارداری خوراکی و غیره. خطر نسبی مهمترین شاخص در تجویز روش های درمانی خاص یا انجام مطالعات با عوارض جانبی احتمالی

3. شرایط و محدودیت های اعمال ریسک نسبی

  1. شاخص‌های فاکتور و نتیجه باید در مقیاس اسمی اندازه‌گیری شوند (به عنوان مثال، جنسیت بیمار - مرد یا زن، فشار خون شریانی - وجود دارد یا نه).
  2. این روش تنها امکان تجزیه و تحلیل جداول چهار میدانی را فراهم می‌کند، زمانی که هم عامل و هم نتیجه متغیرهای غیرعادی هستند، یعنی فقط دو مقدار ممکن دارند (به عنوان مثال، سن کمتر یا بزرگتر از 50 سال، حضور یا عدم وجود یک بیماری خاص در تاریخچه).
  3. خطر نسبی در مطالعات آینده نگر استفاده می شود، زمانی که گروه های مطالعه بر اساس وجود یا عدم وجود یک عامل خطر تشکیل می شوند. در مطالعات مورد شاهدی، به جای استفاده از خطر نسبی باید استفاده شود نسبت شانس.

4. چگونه می توان ریسک نسبی را محاسبه کرد؟

برای محاسبه ریسک نسبی شما نیاز دارید:

5. چگونه ارزش ریسک نسبی را تفسیر کنیم؟

شاخص ریسک نسبی با 1 مقایسه می شود تا ماهیت رابطه بین عامل و نتیجه مشخص شود:

  • اگر RR برابر با 1 باشد، می توان نتیجه گرفت که عامل مورد مطالعه بر احتمال نتیجه تأثیر نمی گذارد (بدون رابطه بین عامل و نتیجه).
  • برای مقادیر بیشتر از 1، این نتیجه حاصل می شود که عامل، فراوانی پیامدها را افزایش می دهد (رابطه مستقیم).
  • برای مقادیر کمتر از 1، نشان دهنده کاهش احتمال نتیجه در مواجهه با عامل ( بازخورد).

مقادیر مرزهای فاصله اطمینان 95٪ نیز لزوما برآورد می شود. اگر هر دو مقدار - هم حد پایین و هم حد بالایی - در یک سمت 1 قرار داشته باشند، یا به عبارت دیگر، فاصله اطمینان شامل 1 نباشد، آنگاه نتیجه گیری در مورد اهمیت آماری رابطه شناسایی شده بین عامل و نتیجه با احتمال خطا p<0,05.

اگر حد پایین 95% CI کمتر از 1 باشد و حد بالایی بیشتر باشد، نتیجه می‌گیریم که بدون توجه به مقدار نتیجه، تأثیر عامل بر فرکانس نتیجه وجود ندارد. RR (p>0.05).

6. مثالی از محاسبه شاخص ریسک نسبی

در سال 1999، مطالعه ای در اوکلاهما در مورد بروز زخم معده در مردان انجام شد. مصرف منظم فست فود به عنوان یک عامل تأثیرگذار انتخاب شد. در گروه اول 500 مرد بودند که دائماً فست فود می خوردند که در بین آنها زخم معده در 96 نفر تشخیص داده شد. گروه دوم شامل 500 طرفدار رژیم غذایی سالم بود که در 31 مورد زخم معده در میان آنها تشخیص داده شد. بر اساس داده های به دست آمده، جدول احتمالی زیر ساخته شد:


معیار همبستگی پیرسون

آزمون همبستگی پیرسون روشی از آمار پارامتریک است که به شما امکان می دهد وجود یا عدم وجود رابطه خطی بین دو شاخص کمی را تعیین کنید و همچنین نزدیکی و اهمیت آماری آن را ارزیابی کنید. به عبارت دیگر، آزمون همبستگی پیرسون به شما امکان می دهد تعیین کنید که آیا یک شاخص در پاسخ به تغییرات در شاخص دیگر تغییر (افزایش یا کاهش) می کند؟ در محاسبات و استنباط های آماری، ضریب همبستگی معمولاً به صورت r xy یا R xy نشان داده می شود.

1. تاریخچه توسعه معیار همبستگی

آزمون همبستگی پیرسون توسط تیمی از دانشمندان بریتانیایی به رهبری کارل پیرسون(1857-1936) در دهه 90 قرن 19، برای ساده سازی تحلیل کوواریانس دو متغیر تصادفی. علاوه بر کارل پیرسون، افراد روی معیار همبستگی پیرسون نیز کار کردند فرانسیس اجورثو رافائل ولدون.

2. آزمون همبستگی پیرسون برای چه مواردی استفاده می شود؟

آزمون همبستگی پیرسون به شما امکان می دهد نزدیکی (یا قدرت) همبستگی بین دو شاخص اندازه گیری شده در مقیاس کمی را تعیین کنید. با استفاده از محاسبات اضافی، می توانید تعیین کنید که رابطه شناسایی شده چقدر از نظر آماری معنادار است.

به عنوان مثال، با استفاده از معیار همبستگی پیرسون، می توانید به این سوال پاسخ دهید که آیا بین دمای بدن و محتوای لکوسیت ها در خون در هنگام عفونت های حاد تنفسی، بین قد و وزن بیمار، بین محتوای فلوراید در خون ارتباط وجود دارد یا خیر. آب آشامیدنی و بروز پوسیدگی دندان در جمعیت

3. شرایط و محدودیت های اعمال آزمون کای اسکوئر پیرسون

  1. شاخص های قابل مقایسه باید در مقیاس کمی اندازه گیری شوند (به عنوان مثال، ضربان قلب، دمای بدن، تعداد گلبول های سفید خون در هر 1 میلی لیتر خون، فشار خون سیستولیک).
  2. با استفاده از معیار همبستگی پیرسون، شما فقط می توانید وجود و قدرت یک رابطه خطی بین کمیت ها را تعیین کنید. سایر ویژگی های رابطه، از جمله جهت (مستقیم یا معکوس)، ماهیت تغییرات (مستقیم یا منحنی خط)، و همچنین وجود وابستگی یک متغیر به متغیر دیگر، با استفاده از آن تعیین می شود. تجزیه و تحلیل رگرسیون.
  3. تعداد کمیت های مقایسه شده باید برابر با دو باشد. در مورد تجزیه و تحلیل رابطه سه یا چند پارامتر، باید از روش استفاده کنید تحلیل عاملی.
  4. معیار همبستگی پیرسون پارامتری است و بنابراین شرط کاربرد آن توزیع نرمال هر یک از متغیرهای مقایسه شده است. در صورت نیاز به انجام تجزیه و تحلیل همبستگی شاخص هایی که توزیع آنها با نرمال متفاوت است، از جمله شاخص هایی که در مقیاس ترتیبی اندازه گیری شده اند، باید استفاده کنید. ضریب همبستگی رتبه اسپیرمن.
  5. مفاهیم وابستگی و همبستگی باید به وضوح متمایز شوند. وابستگی کمیت ها وجود همبستگی بین آنها را تعیین می کند، اما نه برعکس.

مثلاً قد کودک به سن او بستگی دارد، یعنی هر چه کودک بزرگتر باشد قدش بلندتر است. اگر دو کودک در سنین مختلف را در نظر بگیریم، به احتمال زیاد رشد کودک بزرگتر از کوچکتر خواهد بود. این پدیده وابستگی نامیده می شود که دلالت بر رابطه علت و معلولی بین شاخص ها دارد. البته بین آنها همبستگی نیز وجود دارد، یعنی تغییرات یک شاخص با تغییر در شاخص دیگر همراه است.

در موقعیتی دیگر، رابطه بین قد کودک و ضربان قلب (HR) را در نظر بگیرید. همانطور که مشخص است، هر دوی این مقادیر به طور مستقیم به سن بستگی دارد، بنابراین در بیشتر موارد، کودکان با قد بیشتر (و در نتیجه سن بالاتر) مقادیر ضربان قلب کمتری خواهند داشت. یعنی یک همبستگی مشاهده خواهد شد و ممکن است کاملاً نزدیک باشد. با این حال، اگر کودکانی را با هم سن و سال، اما قدهای متفاوت در نظر بگیریم، به احتمال زیاد، ضربان قلب آنها تفاوت چندانی نخواهد داشت و بنابراین می‌توان نتیجه گرفت که ضربان قلب مستقل از قد است.

مثال بالا نشان می دهد که چقدر مهم است که بین مفاهیم ارتباط و وابستگی شاخص ها، اساسی در آمار، به منظور نتیجه گیری صحیح تمایز قائل شویم.

4. چگونه ضریب همبستگی پیرسون را محاسبه کنیم؟

ضریب همبستگی پیرسون با استفاده از فرمول زیر محاسبه می شود:

5. چگونه مقدار ضریب همبستگی پیرسون را تفسیر کنیم؟

مقادیر ضریب همبستگی پیرسون بر اساس مقادیر مطلق آنها تفسیر می شوند. مقادیر احتمالی ضریب همبستگی از 0 تا 1± متغیر است. هر چه قدر مطلق r xy بیشتر باشد، نزدیکی رابطه بین دو کمیت بیشتر است. r xy = 0 نشان دهنده فقدان کامل ارتباط است. r xy = 1 - وجود یک اتصال مطلق (عملکردی) را نشان می دهد. اگر مقدار معیار همبستگی پیرسون بیشتر از 1 یا کمتر از 1- باشد، در محاسبات اشتباه شده است.

برای ارزیابی سفتی یا استحکام یک همبستگی، معمولاً از معیارهای پذیرفته شده استفاده می شود که بر اساس آن مقادیر مطلق r xy< 0.3 свидетельствуют о ضعیفاتصال، مقادیر r xy از 0.3 تا 0.7 - در مورد اتصال میانگینتنگی، مقادیر r xy > 0.7 - o قویارتباطات

ارزیابی دقیق تری از قدرت همبستگی را می توان با استفاده از جدول Chaddock به دست آورد:

اهمیت آماری ضریب همبستگی r xy با استفاده از آزمون t که با استفاده از فرمول زیر محاسبه می شود، ارزیابی می شود:

مقدار t r بدست آمده با مقدار بحرانی در سطح معنی داری معین و تعداد درجات آزادی n-2 مقایسه می شود. اگر t r از t crit بیشتر شود، در مورد اهمیت آماری همبستگی شناسایی شده نتیجه گیری می شود.

6. مثالی از محاسبه ضریب همبستگی پیرسون

هدف از این مطالعه شناسایی، تعیین نزدیکی و اهمیت آماری همبستگی بین دو شاخص کمی: سطح تستوسترون در خون (X) و درصد توده عضلانی در بدن (Y) بود. داده های اولیه برای یک نمونه متشکل از 5 موضوع (n = 5) در جدول خلاصه شده است:


معیار اسپیرمن

ضریب همبستگی رتبه اسپیرمن روشی ناپارامتریک است که به منظور بررسی آماری رابطه بین پدیده ها استفاده می شود. در این مورد، درجه موازی واقعی بین دو سری کمی از ویژگی های مورد مطالعه تعیین می شود و ارزیابی نزدیکی اتصال برقرار شده با استفاده از یک ضریب کمّی بیان می شود.

1. تاریخچه توسعه ضریب همبستگی رتبه

این معیار در سال 1904 برای تحلیل همبستگی ایجاد و پیشنهاد شد چارلز ادوارد اسپیرمن، روانشناس انگلیسی، استاد دانشگاه های لندن و چسترفیلد.

2. ضریب اسپیرمن برای چیست؟

از ضریب همبستگی رتبه اسپیرمن برای شناسایی و ارزیابی نزدیکی رابطه بین دو سری از شاخص های کمی مقایسه شده استفاده می شود. اگر رتبه های شاخص ها، مرتب شده بر اساس درجه افزایش یا کاهش، در اکثر موارد منطبق باشند (مقدار بیشتر یک شاخص با مقدار بیشتر شاخص دیگر مطابقت دارد - به عنوان مثال، هنگام مقایسه قد بیمار و وزن بدن او)، یک نتیجه گیری در مورد حضور ساخته شده است سر راستارتباط همبستگی اگر رتبه‌های شاخص‌ها جهت مخالف داشته باشند (مقدار بالاتر یک شاخص با مقدار پایین‌تر شاخص دیگر مطابقت دارد - به عنوان مثال، هنگام مقایسه سن و ضربان قلب) ، آنها از معکوسارتباط بین نشانگرها

    ضریب همبستگی اسپیرمن دارای ویژگی های زیر است:
  1. ضریب همبستگی می تواند مقادیری از منفی یک تا یک بگیرد و با rs=1 یک رابطه کاملا مستقیم و با rs= -1 یک رابطه کاملاً بازخوردی وجود دارد.
  2. اگر ضریب همبستگی منفی باشد، رابطه بازخورد و اگر مثبت باشد، رابطه مستقیم وجود دارد.
  3. اگر ضریب همبستگی صفر باشد، عملاً هیچ ارتباطی بین کمیت ها وجود ندارد.
  4. هر چه مدول ضریب همبستگی به وحدت نزدیکتر باشد، رابطه بین کمیت های اندازه گیری شده قوی تر است.

3. در چه مواردی می توان از ضریب اسپیرمن استفاده کرد؟

با توجه به اینکه ضریب یک روش تحلیل ناپارامتریک است، آزمایش نرمال بودن توزیع نیازی نیست.

شاخص های قابل مقایسه را می توان هم در مقیاس پیوسته (مثلاً تعداد گلبول های قرمز در 1 میکرولیتر خون) و هم در مقیاس ترتیبی (مثلاً نقاط) اندازه گیری کرد. ارزیابی تخصصیاز 1 تا 5).

اگر تفاوت بین مقادیر مختلف هر یک از کمیت های اندازه گیری شده به اندازه کافی زیاد باشد، اثربخشی و کیفیت ارزیابی اسپیرمن کاهش می یابد. در صورت وجود توزیع ناهموار مقادیر اندازه گیری شده، استفاده از ضریب اسپیرمن توصیه نمی شود.

4. چگونه ضریب اسپیرمن را محاسبه کنیم؟

محاسبه ضریب همبستگی رتبه اسپیرمن شامل مراحل زیر است:

5. چگونه مقدار ضریب اسپیرمن را تفسیر کنیم؟

هنگام استفاده از ضریب همبستگی رتبه، نزدیکی ارتباط بین ویژگی ها به صورت مشروط ارزیابی می شود، با در نظر گرفتن مقادیر ضریب کمتر از 0.3 به عنوان نشانه ای از اتصال ضعیف. مقادیر بیشتر از 0.3 اما کمتر از 0.7 نشانه نزدیکی متوسط ​​اتصال و مقادیر 0.7 یا بیشتر نشانه نزدیکی زیاد اتصال است.

همچنین می توان از آن برای ارزیابی تنگی اتصال استفاده کرد. مقیاس چادوک.

معنی‌داری آماری ضریب به‌دست‌آمده با استفاده از آزمون t-student ارزیابی می‌شود. اگر مقدار آزمون t محاسبه شده کمتر از مقدار جدول بندی شده برای تعداد معینی از درجات آزادی باشد، رابطه مشاهده شده از نظر آماری معنی دار نیست. اگر بیشتر باشد، آنگاه همبستگی از نظر آماری معنی دار در نظر گرفته می شود.


روش کلموگروف- اسمیرنوف

آزمون کولموگروف-اسمیرنوف یک آزمون ناپارامتریک خوبی برازش است، به معنای کلاسیک آن برای آزمایش فرضیه های ساده در مورد اینکه آیا نمونه تجزیه و تحلیل شده به برخی از قوانین توزیع شناخته شده تعلق دارد یا خیر. شناخته شده ترین کاربرد این معیار، بررسی جمعیت های مورد مطالعه برای نرمال بودن توزیع است.

1. تاریخچه توسعه معیار کولموگروف-اسمیرنوف

معیار کولموگروف-اسمیرنوف توسط ریاضیدانان شوروی ایجاد شد آندری نیکولاویچ کولموگروفو نیکولای واسیلیویچ اسمیرنوف.
کولموگروف A.N. (1903-1987) - قهرمان کار سوسیالیستی، استاد مسکو دانشگاه دولتی، آکادمیک آکادمی علوم اتحاد جماهیر شوروی - بزرگترین ریاضیدان قرن بیستم، یکی از بنیانگذاران است. نظریه مدرناحتمالات
اسمیرنوف N.V. (1900-1966) - عضو مسئول آکادمی علوم اتحاد جماهیر شوروی، یکی از خالقان روش های ناپارامتریک آمار ریاضی و نظریه توزیع حدی آمار سفارش.

متعاقباً، آزمون نیکویی تناسب کولموگروف-اسمیرنوف برای آزمایش جمعیت ها برای نرمال بودن توزیع توسط یک آماردان آمریکایی، استاد دانشگاه جورج واشنگتن، اصلاح شد. هوبرت لیلیفورز(Hubert Whitman Lilliefors, 1928-2008). پروفسور Lilliefors یکی از پیشگامان در استفاده از تجهیزات کامپیوتردر محاسبات آماری

هوبرت لیلیفورز

2. چرا از معیار کولموگروف اسمیرنوف استفاده می شود؟

این معیار به ما امکان می دهد تا اهمیت تفاوت بین توزیع های دو نمونه را ارزیابی کنیم، از جمله امکان استفاده از آن برای ارزیابی انطباق توزیع نمونه مورد مطالعه با قانون توزیع نرمال.

3. در چه مواردی می توان از معیار کولموگروف- اسمیرنوف استفاده کرد؟

آزمون کولموگروف-اسمیرنوف برای آزمایش توزیع نرمال مجموعه داده های کمی طراحی شده است.

برای اطمینان بیشتر داده های به دست آمده، حجم نمونه های مورد بررسی باید به اندازه کافی بزرگ باشد: n ≥ 50. هنگامی که اندازه جمعیت تخمین زده شده از 25 تا 50 عنصر است، توصیه می شود از تصحیح بولشو استفاده شود.

4. چگونه معیار کولموگروف اسمیرنوف را محاسبه کنیم؟

معیار کولموگروف اسمیرنوف با استفاده از برنامه های آماری ویژه محاسبه می شود. این بر اساس آمار از فرم است:

جایی که sup S- برتری مجموعه S، Fn- تابع توزیع جمعیت مورد مطالعه، F(x)- تابع توزیع نرمال

مقادیر احتمال استنباط شده بر این فرض استوار است که میانگین و انحراف استاندارد یک توزیع نرمال از قبل شناخته شده است و از داده ها تخمین زده نمی شود.

با این حال، در عمل، پارامترها معمولا به طور مستقیم از داده ها محاسبه می شوند. در این مورد، آزمون نرمال بودن شامل یک فرضیه ترکیبی است («چقدر احتمال دارد که یک آماره D با این معنا یا بیشتر بسته به میانگین و انحراف معیار محاسبه‌شده از داده‌ها به دست آید») و احتمالات Lilliefors داده شده است (Lilliefors، 1967). ).

5. چگونه مقدار آزمون کولموگروف-اسمیرنوف را تفسیر کنیم؟

اگر آمار دی کولموگروف- اسمیرنوف قابل توجه باشد (ص<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


آکادمی اقتصاد ملی و خدمات عمومی روسیه زیر نظر رئیس فدراسیون روسیه

شعبه اوریول

گروه ریاضی و روش های ریاضی در مدیریت

کار مستقل

ریاضیات

با موضوع "سریال تنوع و ویژگی های آن"

برای دانشجویان تمام وقت دانشکده اقتصاد و مدیریت

زمینه های آموزشی "مدیریت منابع انسانی"


هدف کار:تسلط بر مفاهیم آمار ریاضی و روش های پردازش داده های اولیه.

نمونه ای از حل مسائل معمولی.

وظیفه 1.

داده های زیر از طریق نظرسنجی به دست آمد ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

لازم:

1) یک سری تغییرات (توزیع آماری نمونه) را که قبلاً یک سری گسسته رتبه بندی شده از گزینه ها را یادداشت کرده اید، تهیه کنید.

2) یک چند ضلعی فرکانس بسازید و انباشته کنید.

3) مجموعه ای از توزیع های فرکانس های نسبی (فرکانس ها) را تدوین کنید.

4) مشخصه های عددی اصلی سری تغییرات را بیابید (از فرمول های ساده شده برای پیدا کردن آنها استفاده کنید): الف) میانگین حسابی، ب) میانه مهو مد مو، ج) پراکندگی s 2، د) انحراف معیار س، ه) ضریب تغییرات V.

5) معنای نتایج به دست آمده را توضیح دهید.

راه حل.

1) برای کامپایل کردن سری گسسته از گزینه ها رتبه بندی شده است بیایید داده های نظرسنجی را بر اساس اندازه مرتب کنیم و آنها را به ترتیب صعودی مرتب کنیم

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

بیایید با نوشتن مقادیر مشاهده شده (تغییرها) در ردیف اول جدول، و فرکانس های مربوطه در ردیف دوم (جدول 1) یک سری تغییرات بسازیم.

میز 1.

2) چند ضلعی فرکانس یک خط شکسته است که نقاط اتصال ( x i; n من), من=1, 2,…, متر، جایی که متر ایکس.

اجازه دهید چند ضلعی فرکانس های سری تغییرات را به تصویر بکشیم (شکل 1).

عکس. 1. چند ضلعی فرکانس

منحنی تجمعی (انباشته) برای یک سری تغییرات گسسته نشان دهنده یک خط شکسته است که نقاط را به هم متصل می کند ( x i; n i nak), من=1, 2,…, متر.

بیایید فرکانس های انباشته شده را پیدا کنیم n i nak(فرکانس انباشته شده نشان می دهد که چند نوع با مقدار مشخصه کمتر مشاهده شده است ایکس). مقادیر یافت شده را در ردیف سوم جدول 1 وارد می کنیم.



بیایید یک انباشته بسازیم (شکل 2).

شکل 2. تجمع می کند

3) بیایید فرکانس های نسبی (فرکانس ها) را پیدا کنیم، کجا، کجا متر- تعداد مقادیر مختلف مشخصه ایکس، که با دقت یکسان محاسبه خواهیم کرد.

اجازه دهید سری توزیع فرکانس های نسبی (فرکانس ها) را در قالب جدول 2 بنویسیم.

جدول 2

4) بیایید ویژگی های عددی اصلی سری تغییرات را پیدا کنیم:

الف) میانگین حسابی را با استفاده از یک فرمول ساده پیدا کنید:

,

گزینه های مشروط کجا هستند

بگذاریم با= 3 (یکی از مقادیر متوسط ​​مشاهده شده)، ک= 1 (تفاوت بین دو گزینه همسایه) و یک جدول محاسبه (جدول 3) ترسیم کنید.

جدول 3.

x i nمن تو من u i n i u i 2 n i
-3 -12
-2 -26
-1 -14
مجموع -11

سپس میانگین حسابی

ب) میانه مهسری تغییرات مقدار مشخصه ای است که در وسط سری رتبه بندی مشاهدات قرار می گیرد. این سری تغییرات گسسته شامل تعداد زوج عبارت ( n=80)، یعنی میانه برابر با نصف مجموع دو گزینه میانی است.

روش موسری تغییرات به گزینه ای گفته می شود که با بالاترین فرکانس مطابقت دارد. برای یک سری تغییرات معین، بالاترین فرکانس nحداکثر = 24 مربوط به گزینه است ایکس= 3 به معنی مد است مو=3.

ج) واریانس s 2، که معیاری برای پراکندگی مقادیر احتمالی نشانگر است ایکسدر اطراف مقدار متوسط ​​آن، با استفاده از یک فرمول ساده شده آن را پیدا می کنیم:

، جایی که تو من- گزینه های مشروط

همچنین محاسبات میانی را در جدول 3 قرار خواهیم داد.

سپس واریانس

د) انحراف معیار سما آن را با استفاده از فرمول پیدا می کنیم:

.

ه) ضریب تغییرات V: (),

ضریب تغییرات یک کمیت غیر قابل اندازه گیری است، بنابراین برای مقایسه پراکندگی مناسب است. سری تغییرات، که انواع آن ابعاد متفاوتی دارد.

ضریب تغییرات

.

5) معنای نتایج به‌دست‌آمده این است که مقدار، مقدار میانگین مشخصه را مشخص می‌کند ایکسدر نمونه مورد بررسی، یعنی مقدار متوسط ​​2.86 بود. انحراف معیار سگسترش مطلق مقادیر شاخص را توصیف می کند ایکسو در این صورت به س≈ 1.55. ضریب تغییرات Vمتغیر بودن نسبی شاخص را مشخص می کند ایکسیعنی اسپرد نسبی حول مقدار متوسط ​​آن و در این حالت .

پاسخ: ; ; ; .

وظیفه 2.

داده های زیر در مورد سرمایه 40 بانک بزرگ در روسیه مرکزی موجود است:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

لازم:

1) یک سری تغییرات بازه ای بسازید.

2) میانگین نمونه و واریانس نمونه را محاسبه کنید

3) انحراف معیار و ضریب تغییرات را بیابید.

4) هیستوگرام توزیع فرکانس بسازید.

راه حل.

1) بیایید یک تعداد دلخواه از بازه ها را انتخاب کنیم، به عنوان مثال، 8. سپس عرض فاصله:

.

بیایید یک جدول محاسبه ایجاد کنیم:

گزینه فاصله، x k –x k +1 فرکانس، n من وسط فاصله x i گزینه مشروط، و من و من n i و من 2 n من (و i+ 1) 2 n من
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
مجموع – 5

مقدار انتخاب شده به عنوان صفر نادرست است c= 62.5 (این گزینه تقریباً در وسط سری تغییرات قرار دارد) .

گزینه های شرطی با فرمول تعیین می شوند

هنگام پردازش مقادیر زیادی از اطلاعات، که به ویژه در هنگام انجام پیشرفت های علمی مدرن اهمیت دارد، محقق با وظیفه خطیر گروه بندی صحیح داده های منبع روبرو است. اگر ماهیت داده ها گسسته باشد، همانطور که دیدیم، هیچ مشکلی پیش نمی آید - فقط باید فرکانس هر ویژگی را محاسبه کنید. در صورتی که ویژگی مورد مطالعه دارای مداومطبیعت (که در عمل رایج تر است)، پس انتخاب تعداد بهینه فواصل گروه بندی ویژگی ها به هیچ وجه کار بی اهمیتی نیست.

برای گروه بندی متغیرهای تصادفی پیوسته، کل محدوده تغییرات مشخصه به تعداد معینی از بازه ها تقسیم می شود. به.

فاصله گروهی (مداوم) سری تغییراتفواصل رتبه بندی شده با مقدار مشخصه () نامیده می شوند، که در آن تعداد مشاهدات در بازه r"ام یا فرکانس های نسبی () همراه با فرکانس های مربوطه نشان داده می شوند ():

فواصل ارزش مشخصه

فرکانس مایل

نمودار میله ایو تجمع (ogiva)قبلاً به تفصیل توسط ما مورد بحث قرار گرفته است، یک ابزار عالی برای تجسم داده ها است که به شما امکان می دهد یک ایده اولیه از ساختار داده به دست آورید. چنین نمودارهایی (شکل 1.15) برای داده های پیوسته به همان روشی که برای داده های گسسته ساخته می شوند، تنها با در نظر گرفتن این واقعیت که داده های پیوسته به طور کامل منطقه مقادیر ممکن آنها را پر می کنند، با هر مقداری، ساخته می شوند.

برنج. 1.15.

از همین رو ستون های هیستوگرام و انباشته باید با یکدیگر تماس داشته باشند و هیچ ناحیه ای نداشته باشند که مقادیر مشخصه در همه موارد ممکن قرار نگیرد.(به عنوان مثال، هیستوگرام و انباشته ها نباید دارای "سوراخ" در امتداد محور آبسیسا باشند، که حاوی مقادیر متغیر مورد مطالعه نباشد، مانند شکل 1.16). ارتفاع میله مربوط به فرکانس - تعداد مشاهدات در یک بازه معین یا فرکانس نسبی - نسبت مشاهدات است. فواصل نباید قطع شودو معمولاً هم عرض هستند.

برنج. 1.16.

هیستوگرام و چند ضلعی تقریبی از منحنی چگالی احتمال (تابع دیفرانسیل) هستند. f(x)توزیع نظری که در دوره نظریه احتمال در نظر گرفته شده است. بنابراین، ساخت آنها در پردازش آماری اولیه داده های پیوسته کمی بسیار مهم است - با ظاهر آنها می توان قانون توزیع فرضی را قضاوت کرد.

تجمع - منحنی از فرکانس‌های انباشته شده (فرکانس‌ها) یک سری تغییرات بازه‌ای. نمودار تابع توزیع تجمعی با انباشته مقایسه می شود F(x)، در درس تئوری احتمال نیز مطرح شده است.

اساساً، مفاهیم هیستوگرام و تجمع به طور خاص با داده های پیوسته و سری تغییرات بازه ای آنها مرتبط هستند، زیرا نمودارهای آنها به ترتیب تخمین های تجربی تابع چگالی احتمال و تابع توزیع هستند.

ساخت یک سری تغییرات بازه ای با تعیین تعداد بازه ها آغاز می شود ک.و این کار شاید سخت ترین، مهم ترین و بحث برانگیزترین در موضوع مورد بررسی باشد.

تعداد فواصل نباید خیلی کم باشد، زیرا هیستوگرام را خیلی صاف می کند ( بیش از حد صاف شده)تمام ویژگی های تغییرپذیری داده های اصلی را از دست می دهد - در شکل. 1.17 شما می توانید ببینید که چگونه همان داده هایی که بر روی آنها نمودارها در شکل. 1.15، برای ساختن یک هیستوگرام با تعداد بازه های کمتر (گراف سمت چپ) استفاده می شود.

در عین حال، تعداد بازه‌ها نباید خیلی زیاد باشد - در غیر این صورت نمی‌توانیم چگالی توزیع داده‌های مورد مطالعه را در امتداد محور عددی تخمین بزنیم: هیستوگرام کمتر هموار می‌شود. (نزدیک شده)،با فواصل خالی، ناهموار (نگاه کنید به شکل 1.17، نمودار سمت راست).

برنج. 1.17.

چگونه می توان ارجح ترین تعداد فواصل را تعیین کرد؟

در سال 1926، هربرت استرجز فرمولی را برای محاسبه تعداد فواصلی که لازم است مجموعه اصلی مقادیر مشخصه مورد مطالعه را تقسیم کرد، ارائه کرد. این فرمول واقعاً بسیار محبوب شده است - بیشتر کتاب های درسی آماری آن را ارائه می دهند و بسیاری از بسته های آماری به طور پیش فرض از آن استفاده می کنند. این که چقدر این امر و در همه موارد موجه است، یک سوال بسیار جدی است.

بنابراین، فرمول استرجز بر چه اساسی است؟

توزیع دو جمله ای را در نظر بگیرید)

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...