فرمول واریانس باقیمانده اقتصاد سنجی. راه حل و تحلیل. ارزیابی دقت مدل، یا ارزیابی تقریب

پراکندگی در آماربه عنوان مقادیر مجزای مشخصه مجذور از . بسته به داده های اولیه، با استفاده از فرمول های واریانس ساده و وزنی تعیین می شود:

1. (برای داده های گروه بندی نشده) با استفاده از فرمول محاسبه می شود:

2. واریانس وزنی (برای سری تغییرات):

که در آن n فرکانس است (تکرارپذیری عامل X)

نمونه ای از یافتن واریانس

این صفحه یک مثال استاندارد از یافتن واریانس را توضیح می دهد، همچنین می توانید مشکلات دیگر را برای یافتن آن بررسی کنید

مثال 1. داده های زیر برای یک گروه 20 دانشجوی مکاتبه ای موجود است. ساخت یک سری بازه ای از توزیع مشخصه، محاسبه میانگین مقدار مشخصه و مطالعه پراکندگی آن ضروری است.

بیایید یک گروه بندی فاصله ای بسازیم. بیایید محدوده فاصله را با استفاده از فرمول تعیین کنیم:

که در آن X max حداکثر مقدار مشخصه گروه بندی است.
X min - حداقل مقدار مشخصه گروه بندی.
n – تعداد فواصل:

ما n=5 را می پذیریم. مرحله این است: h = (192 - 159) / 5 = 6.6

بیایید یک گروه بندی فاصله ایجاد کنیم

برای محاسبات بیشتر، یک جدول کمکی می سازیم:

X'i وسط فاصله است. (به عنوان مثال، وسط فاصله 159 - 165.6 = 162.3)

میانگین قد دانش آموزان را با استفاده از فرمول میانگین حسابی وزنی تعیین می کنیم:

بیایید واریانس را با استفاده از فرمول تعیین کنیم:

فرمول پراکندگی را می توان به صورت زیر تبدیل کرد:

از این فرمول نتیجه می شود که واریانس برابر است با تفاوت میانگین مربع های گزینه ها و مربع و میانگین.

پراکندگی در سری تغییراتبا فواصل مساوی با استفاده از روش گشتاورها را می توان با استفاده از خاصیت دوم پراکندگی (تقسیم همه گزینه ها بر مقدار بازه) به روش زیر محاسبه کرد. تعیین واریانسمحاسبه شده با استفاده از روش گشتاورها، استفاده از فرمول زیر زحمت کمتری دارد:

جایی که i مقدار بازه است.
A یک صفر معمولی است که برای آن استفاده از وسط بازه با بالاترین فرکانس راحت است.
m1 مربع لحظه مرتبه اول است.
متر مربع - لحظه سفارش دوم

(اگر در یک جامعه آماری یک مشخصه به گونه ای تغییر کند که فقط دو گزینه متقابل وجود داشته باشد، آنگاه چنین تنوعی جایگزین نامیده می شود) را می توان با استفاده از فرمول محاسبه کرد:

با جایگزینی q = 1-p در این فرمول پراکندگی، به دست می آوریم:

انواع واریانس

واریانس کلتغییرات یک ویژگی را در کل جمعیت به عنوان یک کل تحت تأثیر همه عواملی که باعث این تنوع می شوند اندازه گیری می کند. این برابر با میانگین مربع انحراف مقادیر فردی یک مشخصه x از مقدار میانگین کلی x است و می تواند به عنوان واریانس ساده یا واریانس وزنی تعریف شود.

تغییرات تصادفی را مشخص می کند، یعنی. بخشی از تغییرات که ناشی از تأثیر عوامل حساب نشده است و به ویژگی عاملی که اساس گروه را تشکیل می دهد بستگی ندارد. چنین پراکندگی برابر است با میانگین مربع انحراف مقادیر فردی ویژگی در گروه X از میانگین حسابی گروه و می تواند به عنوان پراکندگی ساده یا پراکندگی وزنی محاسبه شود.

بدین ترتیب، اندازه گیری های واریانس درون گروهیتنوع یک صفت در یک گروه و با فرمول تعیین می شود:

جایی که xi میانگین گروه است.
ni تعداد واحدهای گروه است.

به عنوان مثال، واریانس‌های درون گروهی که باید در کار مطالعه تأثیر صلاحیت‌های کارگران بر سطح بهره‌وری نیروی کار در یک کارگاه تعیین شوند، تغییرات در بازده در هر گروه را نشان می‌دهند که ناشی از همه عوامل ممکن (وضعیت فنی تجهیزات، در دسترس بودن تجهیزات) است. ابزار و مواد، سن کارگران، شدت کار، و غیره.) به جز تفاوت در رده صلاحیت (در یک گروه همه کارگران دارای شرایط یکسان هستند).

میانگین واریانس های درون گروهی منعکس کننده تصادفی است، یعنی بخشی از تغییرات که تحت تأثیر همه عوامل دیگر، به استثنای عامل گروه بندی، رخ داده است. با استفاده از فرمول محاسبه می شود:

تغییر سیستماتیک مشخصه حاصل را مشخص می کند که به دلیل تأثیر عامل-علامت است که اساس گروه را تشکیل می دهد. برابر است با مجذور میانگین انحراف میانگین های گروه از میانگین کلی. واریانس بین گروهی با استفاده از فرمول محاسبه می شود:

قانون اضافه کردن واریانس در آمار

مطابق با قانون برای اضافه کردن واریانسواریانس کل برابر است با مجموع میانگین واریانس های درون گروهی و بین گروهی:

معنای این قاعدهاین است که کل واریانسی که تحت تأثیر همه عوامل ایجاد می شود برابر است با مجموع واریانس هایی که تحت تأثیر همه عوامل دیگر و واریانسی که به دلیل عامل گروه بندی ایجاد می شود.

با استفاده از فرمول اضافه کردن واریانس ها، می توانید سومین واریانس مجهول را از دو واریانس شناخته شده تعیین کنید و همچنین قدرت تأثیر مشخصه گروه بندی را قضاوت کنید.

خواص پراکندگی

1. اگر تمام مقادیر یک مشخصه به همان مقدار ثابت کاهش یابد (افزایش یابد)، پراکندگی تغییر نخواهد کرد.
2. اگر همه مقادیر یک مشخصه به همان تعداد n برابر کاهش (افزایش) شوند، واریانس به ترتیب n^2 برابر کاهش (افزایش) خواهد شد.

1. جوهر تحلیل همبستگی-رگرسیون و وظایف آن.

2. تعریف رگرسیون و انواع آن.

3. ویژگی های مشخصات مدل. دلایل وجود متغیر تصادفی

4. روش های انتخاب رگرسیون زوجی.

5. روش حداقل مربعات.

6. نشانگرهای اندازه گیری سفتی و استحکام اتصال.

7. برآوردهای معنی دار آماری.

8. مقدار پیش بینی شده متغیر y و فواصل اطمینان پیش بینی.

1. جوهر تحلیل همبستگی-رگرسیون و وظایف آن.پدیده‌های اقتصادی از تنوع بسیار بالایی برخوردارند و با ویژگی‌های بسیاری مشخص می‌شوند که ویژگی‌های خاصی از این فرآیندها و پدیده‌ها را منعکس می‌کنند و در معرض تغییرات وابسته به یکدیگر هستند. در برخی موارد، رابطه بین ویژگی ها بسیار نزدیک به نظر می رسد (مثلاً خروجی ساعتی یک کارمند و حقوق او)، در حالی که در موارد دیگر چنین رابطه ای اصلاً بیان نمی شود یا بسیار ضعیف است (مثلاً جنسیت). دانش آموزان و عملکرد تحصیلی آنها). هر چه ارتباط بین این ویژگی ها نزدیک تر باشد، تصمیم گیری دقیق تر است.

دو نوع وابستگی بین پدیده ها و ویژگی های آنها وجود دارد:

    وابستگی عملکردی (تعیین کننده، علّی). . به شکل فرمولی مشخص می شود که هر مقدار یک متغیر را با مقدار کاملاً تعریف شده متغیر دیگر مرتبط می کند (تاثیر عوامل تصادفی نادیده گرفته می شود). به عبارت دیگر، وابستگی عملکردی رابطه ای است که در آن هر مقدار از متغیر مستقل x با مقدار دقیقاً تعریف شده متغیر وابسته y مطابقت دارد. در اقتصاد، روابط کارکردی بین متغیرها از قاعده کلی مستثنی هستند.

    وابستگی آماری (تصادفی، غیر قطعی). - این یک ارتباط از متغیرها است که تحت تأثیر عوامل تصادفی است، به عنوان مثال. این رابطه ای است که در آن هر مقدار از متغیر مستقل x با مجموعه ای از مقادیر متغیر وابسته y مطابقت دارد و از قبل مشخص نیست که y چه مقداری خواهد گرفت.

یک مورد خاص از وابستگی آماری، وابستگی همبستگی است.

وابستگی همبستگی رابطه ای است که در آن هر مقدار متغیر مستقل x با یک انتظار ریاضی خاص (مقدار متوسط) از متغیر وابسته y مطابقت دارد.

وابستگی همبستگی یک وابستگی "ناقص" است که در هر مورد جداگانه ظاهر نمی شود، بلکه فقط در مقادیر متوسط ​​برای تعداد بسیار زیادی از موارد ظاهر می شود. به عنوان مثال، مشخص است که بهبود صلاحیت یک کارمند منجر به افزایش بهره وری نیروی کار می شود. این بیانیه اغلب در عمل تایید می شود، اما به این معنا نیست که دو یا چند کارگر از یک طبقه/سطح که در یک فرآیند مشابه درگیر هستند، بهره وری نیروی کار یکسانی خواهند داشت.

وابستگی همبستگی با استفاده از روش های همبستگی و تحلیل رگرسیون بررسی می شود.

تحلیل همبستگی و رگرسیون به شما امکان می دهد نزدیکی، جهت ارتباط و شکل این ارتباط را بین متغیرها ایجاد کنید، یعنی. بیان تحلیلی آن

وظیفه اصلی تحلیل همبستگی شامل تعیین کمی نزدیکی ارتباط بین دو مشخصه در یک اتصال دوتایی و بین ویژگی های مؤثر و چند عاملی در یک اتصال چند عاملی و ارزیابی آماری قابلیت اطمینان اتصال برقرار شده است.

2. تعریف رگرسیون و انواع آن.تحلیل رگرسیون اصلی ترین ابزار ریاضی و آماری در اقتصاد سنجی است. پسرفت مرسوم است که وابستگی مقدار متوسط ​​یک کمیت (y) را به کمیت دیگر یا به چند کمیت (x i) می نامند.

بسته به تعداد عوامل موجود در معادله رگرسیون، مرسوم است که بین رگرسیون ساده (جفتی) و رگرسیون چندگانه تمایز قائل شود.

رگرسیون ساده (جفتی). مدلی است که در آن مقدار متوسط ​​متغیر وابسته (توضیح داده شده) y به عنوان تابعی از یک متغیر مستقل (توضیحی) x در نظر گرفته می شود. به طور ضمنی، رگرسیون زوجی مدلی از شکل زیر است:

به صراحت:

,

که در آن a و b تخمینی از ضرایب رگرسیون هستند.

رگرسیون چندگانه مدلی است که در آن مقدار متوسط ​​متغیر وابسته (توضیح داده شده) y به عنوان تابعی از چندین متغیر مستقل (توضیحی) x 1، x 2، ... x n در نظر گرفته می شود. به طور ضمنی، رگرسیون زوجی مدلی از شکل زیر است:

.

به صراحت:

که در آن a و b 1، b 2، b n تخمینی از ضرایب رگرسیون هستند.

نمونه ای از چنین مدلی وابستگی حقوق کارمند به سن، تحصیلات، صلاحیت ها، مدت خدمت، صنعت و غیره است.

در مورد شکل وابستگی، موارد زیر وجود دارد:

      رگرسیون خطی؛

      رگرسیون غیرخطی، که وجود روابط غیرخطی بین عوامل بیان شده توسط تابع غیرخطی مربوطه را فرض می کند. اغلب، مدل هایی که از نظر ظاهری غیرخطی هستند را می توان به شکل خطی تقلیل داد، که به آنها اجازه می دهد تا به عنوان خطی طبقه بندی شوند.

3. ویژگی های مشخصات مدل. دلایل وجود متغیر تصادفیهر مطالعه اقتصاد سنجی با شروع می شود مشخصات مدل ، یعنی از فرمول بندی نوع مدل، بر اساس تئوری متناظر روابط بین متغیرها.

اول از همه، از کل طیف عوامل مؤثر بر ویژگی مؤثر، ضروری است که مهمترین عوامل تأثیرگذار را شناسایی کنیم. در صورت وجود یک عامل غالب که به عنوان متغیر توضیحی استفاده می شود، رگرسیون زوجی کافی است. یک معادله رگرسیون ساده، رابطه بین دو متغیر را مشخص می کند، که تنها به طور متوسط ​​برای کل مشاهدات، خود را به عنوان یک الگوی خاص نشان می دهد. در معادله رگرسیون، رابطه همبستگی به شکل یک وابستگی تابعی نشان داده می شود که توسط تابع ریاضی مربوطه بیان می شود. تقریباً در هر مورد جداگانه، مقدار y از دو عبارت تشکیل شده است:

,

که در آن y مقدار واقعی مشخصه به دست آمده است.

- ارزش نظری مشخصه حاصل که بر اساس معادله رگرسیون یافت می شود.

- یک متغیر تصادفی که انحراف مقدار واقعی مشخصه حاصل از مقدار نظری یافت شده با استفاده از معادله رگرسیون را مشخص می کند.

مقدار تصادفی اختلال نیز نامیده می شود. این شامل تأثیر عواملی است که در مدل در نظر گرفته نشده اند، خطاهای تصادفی و ویژگی های اندازه گیری. وجود یک متغیر تصادفی در مدل توسط سه منبع تولید می شود:

    مشخصات مدل،

    ماهیت انتخابی داده های منبع،

    ویژگی های متغیرهای اندازه گیری

خطاهای مشخصات نه تنها شامل انتخاب نادرست یک تابع ریاضی خاص، بلکه دست کم گرفتن هر عامل مهم در معادله رگرسیون (استفاده از رگرسیون زوجی به جای چندگانه) خواهد بود.

همراه با خطاهای مشخصات، خطاهای نمونه گیری ممکن است رخ دهد، زیرا محقق اغلب در هنگام ایجاد الگوهای روابط بین ویژگی ها با داده های نمونه سروکار دارد. خطاهای نمونه گیری نیز به دلیل ناهمگونی داده ها در جامعه آماری اصلی رخ می دهد که معمولاً هنگام مطالعه فرآیندهای اقتصادی اتفاق می افتد. اگر جمعیت ناهمگن باشد، معادله رگرسیون معنای عملی ندارد. برای به دست آوردن یک نتیجه خوب، معمولاً واحدهایی با مقادیر غیرعادی ویژگی های مورد مطالعه از جمعیت حذف می شوند. باز هم، نتایج رگرسیون نشان دهنده ویژگی های نمونه است. داده ی منبع

با این حال، بزرگترین خطر در استفاده عملی از روش های رگرسیون، خطاهای اندازه گیری است. اگر بتوان خطاهای مشخصات را با تغییر شکل مدل (نوعی فرمول ریاضی) کاهش داد و خطاهای نمونه برداری را با افزایش حجم داده های اولیه کاهش داد، خطاهای اندازه گیری عملاً تمام تلاش ها برای تعیین کمیت رابطه بین ویژگی ها را باطل می کند.

4. روش های انتخاب رگرسیون زوجی.با فرض اینکه خطاهای اندازه گیری به حداقل رسیده است، تمرکز تحقیقات اقتصادسنجی بر روی خطاهای مشخصات مدل است. در رگرسیون زوجی، انتخاب نوع تابع ریاضی
به سه روش قابل انجام است:

    گرافیکی;

    تحلیلی، یعنی بر اساس تئوری رابطه مورد مطالعه؛

    تجربی

هنگام مطالعه رابطه بین دو ویژگی روش گرافیکی انتخاب نوع معادله رگرسیون کاملاً واضح است. بر اساس میدان همبستگی است. انواع اصلی منحنی های مورد استفاده در کمی سازی روابط




کلاس توابع ریاضی برای توصیف رابطه بین دو متغیر بسیار گسترده است؛ از انواع دیگر منحنی ها نیز استفاده می شود.

روش تحلیلی انتخاب نوع معادله رگرسیون بر اساس مطالعه ماهیت مادی اتصال ویژگی های مورد مطالعه و همچنین ارزیابی بصری ماهیت اتصال است. آن ها اگر ما در مورد منحنی لافر صحبت می کنیم که رابطه بین پیشرفت مالیات و درآمدهای بودجه را نشان می دهد، در این صورت در مورد منحنی سهموی صحبت می کنیم و در تحلیل خرد، همسانت ها هذلولی هستند.

اقتصاد سنجیعلمی است که بیان کمی از روابط متقابل پدیده ها و فرآیندهای اقتصادی را ارائه می دهد. در حال حاضر، راه حل هایی برای مشکلات اقتصادسنجی زیر به صورت آنلاین در دسترس هستند:

روش تحلیل همبستگی-رگرسیون

معیارهای ناپارامتریک ارتباط

ناهمگونی مولفه تصادفی

خودهمبستگی

  1. خود همبستگی سطوح سری زمانی. تست همبستگی خودکار با ساخت یک همبستگی.

روشهای اقتصادسنجی برای انجام تحقیقات کارشناسی

  1. با استفاده از روش تحلیل واریانس، فرضیه صفر در مورد تأثیر یک عامل بر کیفیت یک شی را آزمایش کنید.

راه حل به دست آمده در قالب Word ارائه شده است. بلافاصله پس از راه حل، لینک دانلود قالب در اکسل وجود دارد که امکان بررسی تمام شاخص های به دست آمده را فراهم می کند. اگر کار به یک راه حل در اکسل نیاز دارد، می توانید از توابع آماری در اکسل استفاده کنید.

اجزای سری زمانی

  1. سرویس هموارسازی تحلیلی را می توان برای هموارسازی تحلیلی یک سری زمانی (در امتداد یک خط مستقیم) و برای یافتن پارامترهای معادله روند استفاده کرد. برای انجام این کار، باید مقدار داده منبع را مشخص کنید. اگر داده های زیادی وجود دارد، می توانید آن را از اکسل بچسبانید.
  2. محاسبه پارامترهای معادله روند.
    هنگام انتخاب نوع تابع روند، می توانید از روش تفاضل محدود استفاده کنید. اگر تمایل کلی با سهمی مرتبه دوم بیان شود، اختلافات متناهی مرتبه دوم را به دست می آوریم. اگر نرخ رشد تقریبا ثابت باشد، از یک تابع نمایی برای تراز کردن استفاده می شود.
    هنگام انتخاب فرم معادله، باید از مقدار اطلاعات موجود اقدام کنید. هر چه معادله پارامترهای بیشتری داشته باشد، مشاهدات بیشتری باید با همان درجه اطمینان تخمین وجود داشته باشد.
  3. هموارسازی با استفاده از روش میانگین متحرک. استفاده كردن

بیایید فرض کنیم که این تخمین ها را پیدا کرده ایم و می توانیم معادله را بنویسیم:

ŷ = آ + بایکس،

جایی که آ- ثابت رگرسیون، نقطه تلاقی خط رگرسیون با محور OY;

ب- ضریب رگرسیون، شیب خط رگرسیون که رابطه را مشخص می کند DY¤Dایکس;

ŷ - ارزش نظری متغیر توضیح داده شده.

همانطور که در رگرسیون زوجی مشخص است، انتخاب نوع مدل ریاضی را می توان به سه روش انجام داد:

1. گرافیک.

2. تحلیلی.

3. تجربی.

برای انتخاب تابعی که مقادیر مشاهده شده را توصیف می کند، می توان از یک روش گرافیکی استفاده کرد. داده های منبع در صفحه مختصات رسم می شوند. مقادیر مشخصه عامل بر روی محور آبسیسا و مقادیر مشخصه حاصل بر روی محور ارتین رسم می شود. محل نقطه ها شکل تقریبی اتصال را نشان می دهد. به عنوان یک قاعده، این رابطه منحنی است. اگر انحنای این خط کم باشد، می‌توان فرضیه وجود یک اتصال مستطیل را قبول کرد.

اجازه دهید تابع مصرف را به صورت نمودار پراکندگی به تصویر بکشیم. برای این کار در سیستم مختصات، ارزش درآمد را بر روی محور ابسیسا و در محور ارتین، هزینه های مصرف محصول مشروط را رسم می کنیم. مکان نقاط مربوط به مجموعه مقادیر "درآمد - هزینه مصرف" شکل تقریبی رابطه را نشان می دهد (شکل 1).

از نظر بصری، بر اساس نمودار، تقریباً هرگز نمی توان به طور واضح بهترین وابستگی را شناسایی کرد.

بیایید به ارزیابی پارامترهای تابع انتخاب شده برویم آو بروش حداقل مربعات

مسئله تخمین را می توان به مسئله «کلاسیک» یافتن حداقل کاهش داد. متغیرها اکنون نمره هستند آو بپارامترهای ناشناخته اتصال پیشنهادی درو ایکس. برای یافتن کوچکترین مقدار هر تابع، ابتدا باید مشتقات جزئی مرتبه اول را پیدا کنید. سپس هر یک از آنها را با صفر برابر کنید و سیستم معادلات حاصل را با توجه به متغیرها حل کنید. در مورد ما، چنین تابعی مجموع انحرافات مربع است - اس، و متغیرها هستند آو ب. یعنی باید = 0 و = 0 را پیدا کرده و سیستم معادلات حاصل را نسبت به حل کنیم آو ب.

اجازه دهید تخمین پارامترها را با استفاده از روش حداقل مربعات استخراج کنیم، با این فرض که معادله جفت شکل دارد. ŷ = آ + بایکس. سپس تابع اسبه نظر می رسد

. متمایز کردن عملکرد استوسط آ، اولین معادله نرمال را با تفکیک نسبت به به دست می آوریم ب- دومین معادله نرمال , ,

پس از تبدیل های مناسب به دست می آوریم:

(*)

قوانین ساده ای برای ساختن یک سیستم معادلات عادی وجود دارد. بیایید آنها را به یک تابع خطی اعمال کنیم:

1) هر جمله معادله را ضرب کنید ŷ = آ + بایکسبا ضریب پارامتر اول ( آ) یعنی توسط یک.

2) قبل از هر متغیر یک علامت جمع قرار می دهیم.

3) جمله آزاد معادله را در ضرب کنید n.

4) اولین معادله نرمال را بدست می آوریم

5) هر جمله معادله اصلی را در ضریب پارامتر دوم ضرب کنید ( ب) یعنی در ایکس.

6) قبل از هر متغیر یک علامت جمع قرار می دهیم.

7) معادله نرمال دوم را به دست می آوریم

با استفاده از این قوانین، سیستمی از معادلات عادی برای هر تابع خطی کامپایل می شود. این قوانین برای اولین بار توسط اقتصاددان انگلیسی R. Pearl تدوین شد.

پارامترهای معادلات با استفاده از فرمول های زیر محاسبه می شوند:

, ,

بیایید با استفاده از داده های اولیه جدول 1، سیستمی از معادلات عادی (*) بسازیم و آن را با توجه به مجهولات حل کنیم. آو ب:


1677=11*a+4950*ba = -3309

790 400=4950*a+2 502 500*bb = 7.6923

معادله رگرسیون به صورت زیر است:

ŷ = -3309 + 7.6923 x ,

بیایید هزینه های واقعی و برآوردی مصرف محصول A را با هم مقایسه کنیم (جدول 2).

جدول 2 مقایسه مقادیر واقعی و برآوردی هزینه های مصرف کالا آبا رابطه خطی:

شماره گروه

هزینه های مصرف

کالاها آ

انحراف هزینه های واقعی از هزینه های محاسبه شده

واقعی (های)

توافق

مطلق

(y – ŷ)

1 120 -1770,54 1890,54
2 129 -1385,92 1514,92
3 135 -1001,31 1136,31
4 140 -616,45 756,45
5 145 -232,08 377,08
6 151 152,53 -1,53
7 155 537,15 -382,15
8 160 921,76 -761,76
9 171 1306,38 -1135,38
10 182 1690,99 -1508,99
11 189 2075,61 -1886,61
جمع - - 0

بیایید تابع حاصل را رسم کنیم ŷ و یک نمودار پراکندگی با استفاده از مقادیر واقعی (y) و مقادیر محاسبه شده ( ŷ) .

مقادیر محاسبه شده به دلیل همبستگی بودن رابطه بین ویژگی ها از مقادیر واقعی منحرف می شوند.

ضریب همبستگی به عنوان معیار نزدیکی رابطه استفاده می شود:

=

با استفاده از داده های اولیه جدول 1 به دست می آوریم:

σ ایکس =158;

σ y = 20,76;

r = 0,990.

ضریب همبستگی خطی می تواند هر مقداری از منهای 1 تا مثبت 1 داشته باشد. علامت ضریب همبستگی خطی جهت رابطه را نشان می دهد - رابطه مستقیم با علامت مثبت و رابطه معکوس مربوط به علامت منفی است.

نتیجه: رابطه بین ارزش ها ایکسو مقادیر مربوطه در

نزدیک، وابستگی مستقیم

در مثال ما د = 0,9801

این بدان معنی است که هزینه های محصول تغییر می کند آرا می توان 98.01٪ با تغییرات در درآمد توضیح داد.

1.99٪ باقی مانده ممکن است ناشی از:

1) شکل ارتباطی که به اندازه کافی خوب انتخاب نشده است.

2) تأثیر هر عامل حساب نشده دیگر بر متغیر وابسته.

آزمون آماری فرضیه ها.

ما یک فرضیه صفر ارائه می دهیم که ضریب رگرسیون از نظر آماری ناچیز است:

اچ 0 : ب = 0.

اهمیت آماری ضریب رگرسیون با استفاده از بررسی می شود تی-تست دانشجویی برای این کار ابتدا مجموع مربعات باقیمانده را تعیین کنید

س 2 ost= å (y من – ŷ من) 2

س 2 ost = 1,3689.

و انحراف معیار آن

س = 0,39. ببینید ( ب ) = 0,018.

ارزش واقعی تی-آزمون دانش آموز برای ضریب رگرسیون:

.

تی ب = 427,35.

مقدار |t b |>t cr (t cr = 2.26 برای سطح معنی داری 95 درصد) به ما امکان می دهد در مورد تفاوت ضریب رگرسیون از صفر (در سطح معنی داری مربوطه) و بنابراین، در مورد وجود تأثیر نتیجه گیری کنیم. (ارتباط) ایکسو تو

نتیجه: ارزش واقعی تی-تست دانشجویی از مقدار جدول فراتر می رود، یعنی فرض صفر رد می شود و با احتمال 95 درصد فرضیه جایگزین در مورد معنی دار بودن آماری ضریب رگرسیون پذیرفته می شود.

[ب– t cr *se( ب), ب+ t cr *se( ب)]- فاصله اطمینان 95% برای ب.

فاصله اطمینان مقدار واقعی پارامتر را پوشش می دهد ببا احتمال داده شده (در این مورد 95٪).

7,6516 < ب < 7,7329.

بیایید به بررسی اهمیت آماری همبستگی و ضرایب تعیین بپردازیم:

r = 0,990;

د = r 2 = 0,9801.

ما یک فرضیه صفر ارائه می کنیم که معادله رگرسیون به عنوان یک کل از نظر آماری بی اهمیت است:

اچ 0 : r 2 = 0.

ارزیابی اهمیت آماری مدل رگرسیون ساخته شده به عنوان یک کل با استفاده از آن انجام می شود اف-معیار فیشر ارزش واقعی اف- معیارهای معادله رگرسیون زوجی خطی در پارامترها به صورت زیر تعریف می شود:

که در آن عامل s 2 پراکندگی برای مقادیر نظری است ŷ (تغییر توضیح داده شد)؛

s 2 استراحت - مجموع مربع باقی مانده.

r 2 - ضریب تعیین.

ارزش واقعی اف-معیار فیشر:

اف f = 443,26

نتیجه: فرضیه صفر را رد می کنیم و با احتمال 95 درصد، فرضیه جایگزین را در مورد اهمیت آماری معادله رگرسیون می پذیریم.

    وابستگی همبستگی بین عامل x (میانگین سطح معیشت سرانه در روز یک فرد توانمند) و مشخصه حاصل از y (میانگین دستمزد روزانه). پارامترهای معادله رگرسیون خطی، تفسیر اقتصادی ضریب رگرسیون.

y=f(x)+E,y t =f(x) – تابع نظری, E=y-y t

y t =a+bx – وابستگی همبستگی متوسط ​​دستمزد روزانه (y) به میانگین سرانه سطح معیشت در روز یک فرد توانمند (x)

a+b =

آ +b =

b=
- ضریب رگرسیون.

این نشان می دهد که وقتی سطح معیشت سرانه در روز یک فرد توانمند (X) 1 واحد افزایش یابد، میانگین دستمزد (Y) چند واحد تغییر می کند.

b=
= 0,937837482

به این معنی که با افزایش متوسط ​​سرانه سطح معیشت در روز یک فرد توانمند (x) به میزان 1 واحد، متوسط ​​دستمزد روزانه به طور متوسط ​​0.937 واحد افزایش می یابد.

a= , a=135.4166667-0.937837482 86.75=54.05926511

3) ضریب تغییرات

ضریب تغییرات نشان می دهد که چه نسبتی از مقدار متوسط ​​SV میانگین اسپرد آن است.

υ x = δх/x = 0.144982838، υ y = δy/y = 0.105751299

4) ضریب همبستگی

ضریب همبستگی برای ارزیابی نزدیکی رابطه خطی بین میانگین سرانه سطح معیشت در روز یک فرد توانمند و متوسط ​​دستمزد روزانه استفاده می شود.

rxy = b δх/δy = 0.823674909 زیرا rxy ˃0، سپس همبستگی بین متغیرها مستقیم نامیده می شود

همه اینها وابستگی متوسط ​​دستمزد روزانه به میانگین سرانه سطح معیشت در روز یک فرد توانمند را نشان می دهد.

5) ضریب تعیین

برای ارزیابی کیفیت برازش معادلات رگرسیون خطی از ضریب تعیین استفاده می شود.

ضریب تعیین، نسبت واریانس ویژگی مؤثر Y (متوسط ​​دستمزد روزانه) را که با رگرسیون در واریانس کل ویژگی مؤثر توضیح داده شده است، مشخص می کند.

R 2 xy = (∑(y t - y میانگین) 2) / (∑(y - y میانگین) 2) = 0.678440355، 0.5< R 2 < 0,7 ,

این بدان معنی است که قدرت اتصال قابل توجه، نزدیک به بالا است و معادله رگرسیون به خوبی انتخاب شده است.

6) ارزیابی دقت مدل، یا ارزیابی تقریب.

=1/n ∑ ׀(y i - y t)/y i ׀ 100% - میانگین خطای تقریب.

خطای کمتر از 5-7 درصد نشان دهنده برازش خوب مدل است.

اگر خطا بیشتر از 10٪ باشد، باید نوع دیگری از معادله مدل را انتخاب کنید.

خطای تقریب =0.015379395 100% = 1.53% که نشان دهنده تناسب خوب مدل با داده های اصلی است.

7) طرح تحلیل واریانس.

∑(y - y میانگین) 2 =∑(y t - y میانگین) 2 +∑(y i - y t) 2 n - تعداد مشاهدات، m - تعداد پارامترهای متغیر x

مولفه های واریانس

مجموع مربعات

تعداد درجات آزادی

پراکندگی به ازای درجه آزادی

∑(y - y میانگین) 2

S 2 مجموع =(∑(y - y میانگین) 2)/(n-1)

فاکتوریل

∑(y t - y av) 2

S 2 واقعیت =(∑(y t - y av) 2)/m

باقیمانده

∑(y i - y t) 2

S 2 استراحت =(∑(y i - y t) 2)/ (n-m-1)

تحلیل واریانس

اجزاء

مجموع مربعات

تعداد درجات آزادی

پراکندگی

عمومی

فاکتوریل

باقی مانده

8) بررسی کفایت مدل با توجه بهاف-معیار فیشر (05/0=α).

ارزیابی اهمیت آماری معادله رگرسیون به عنوان یک کل با استفاده ازاف-معیار فیشر

H 0 - فرضیه در مورد اهمیت آماری معادله رگرسیون.

H 1 - اهمیت آماری معادله رگرسیون.

اف محاسبه شد از نسبت مقادیر فاکتور و واریانس باقیمانده محاسبه شده به ازای درجه آزادی تعیین می شود.

F محاسبه شده = S 2 واقعیت / S 2 استراحت = ((∑(y t - y av) 2)/m) / ((∑(y i - y t) 2)/ (n-m-1)) =1669.585177 / 79.13314895 = 21.0984296

اف جدولی - حداکثر مقدار ممکن معیاری که می تواند تحت تأثیر عوامل تصادفی با درجات آزادی معین تشکیل شود، یعنی. به 1 = متر، به 2 = n- متر-1 و سطح معناداری α (05/0=α)

جدول F (0.05؛ 1؛ n-2)، جدول F (0.05؛ 1؛ 10)، جدول F = 4.964602701

اگراف جدول < اف محاسبه ، سپس فرضیهاچ 0 ماهیت تصادفی ویژگی های برآورد شده رد می شود و اهمیت آماری آنها و پایایی معادله رگرسیون شناسایی می شود. در غیر این صورتاچ 0 رد نمی شود و بی اهمیت بودن و غیرقابل اعتماد بودن معادله رگرسیون تشخیص داده می شود.در مورد ما جدول F< F расч, следовательно признаётся статистическая значимость и надёжность уравнения регрессии.

9) ارزیابی اهمیت آماری ضرایب رگرسیون و همبستگی با توجه بهتی-آزمون تی دانشجویی (05/0=α).

ارزیابی اهمیت ضریب. پسرفت.، t – معیار دانش آموز، اهمیت آماری پارامتر b را بررسی می کنیم.

فرضیه H 0: b=0، t b (calc) = ׀b ׀/ m b، m b = S استراحت / (δ x
) ، که در آن n تعداد مشاهدات است

m b = 79.13314895 / (12.57726123
) = 0,204174979

t b (محاسبه شده) = 0.937837482 / 0.204174979 = 4.593302697

جدول t حداکثر مقدار ممکن معیار تحت تأثیر عوامل تصادفی با درجات آزادی داده شده (K=n-2) و سطح معناداری α (0.05=α) است. t جدول = 2.2281، اگر t (calc) > t جدول باشد، فرضیه H 0 رد می شود و اهمیت پارامترهای معادله تشخیص داده می شود.

در مورد ما، tb (محاسبه شده) > t جدول، بنابراین فرضیه H 0 رد می شود و اهمیت آماری پارامتر b تشخیص داده می شود.

بیایید اهمیت آماری پارامتر a را بررسی کنیم. فرضیه H 0: a=0 t a (محاسبه شده) = ׀а ׀/ m a

m a = (S استراحت
)/(n δ x)، m a = (79.13314895
)/(12 12.57726123)= 17.89736655، t a (محاسبه شده) = 54.05926511 / 17.89736655=3.020515055

t a (محاسبه شده) > t جدول بنابراین فرضیه H 0 رد می شود و اهمیت آماری پارامتر a شناسایی می شود.

ارزیابی اهمیت همبستگی.بیایید اهمیت آماری ضریب همبستگی را بررسی کنیم.

mrxy =
، mrxy =
= 0.179320842، trxy = 0.823674909/ 0.179320842 = 4.593302697

tr = t b , tr > t جدول، بنابراین اهمیت آماری ضریب همبستگی تشخیص داده می شود.

با دوستان به اشتراک بگذارید یا برای خود ذخیره کنید:

بارگذاری...