معادله رگرسیون معادله رگرسیون چندگانه. همبستگی و تجزیه و تحلیل رگرسیون در اکسل: دستورالعمل های اجرا الزامات یک مدل تجزیه و تحلیل رگرسیون چیست؟

رگرسیون و تحلیل همبستگی از روش های تحقیق آماری هستند. اینها رایج ترین راه ها برای نشان دادن وابستگی یک پارامتر به یک یا چند متغیر مستقل هستند.

در زیر با استفاده از مثال های کاربردی خاص، این دو تحلیل بسیار محبوب در بین اقتصاددانان را بررسی خواهیم کرد. ما همچنین مثالی از به دست آوردن نتایج در هنگام ترکیب آنها خواهیم داد.

تجزیه و تحلیل رگرسیون در اکسل

تأثیر برخی از مقادیر (مستقل، مستقل) را بر روی متغیر وابسته نشان می دهد. به عنوان مثال، چگونه تعداد جمعیت فعال اقتصادی به تعداد شرکت ها، دستمزدها و سایر پارامترها بستگی دارد. یا: سرمایه گذاری های خارجی، قیمت انرژی و غیره چگونه بر سطح تولید ناخالص داخلی تأثیر می گذارد.

نتیجه تجزیه و تحلیل به شما امکان می دهد اولویت ها را برجسته کنید. و بر اساس عوامل اصلی، پیش بینی، برنامه ریزی توسعه حوزه های اولویت دار و تصمیم گیری مدیریتی انجام شود.

رگرسیون اتفاق می افتد:

خطی (y = a + bx)؛
سهمی (y = a + bx + cx 2)؛
نمایی (y = a * exp(bx));
توان (y = a*x^b)؛
هذلولی (y = b/x + a)؛
لگاریتمی (y = b * 1n(x) + a)؛
نمایی (y = a * b^x).

بیایید نمونه ای از ساخت مدل رگرسیون در اکسل و تفسیر نتایج را بررسی کنیم. بیایید نوع خطی رگرسیون را در نظر بگیریم.

وظیفه. در 6 شرکت، میانگین حقوق ماهانه و تعداد کارکنانی که ترک می کنند، مورد تجزیه و تحلیل قرار گرفت. تعیین وابستگی تعداد کارمندان انصرافی به میانگین حقوق ضروری است.

مدل رگرسیون خطی به شکل زیر است:

Y = a 0 + a 1 x 1 +…+ a k x k.

در جایی که a ضرایب رگرسیون هستند، x متغیرهای تأثیرگذار هستند، k تعداد عوامل است.

در مثال ما، Y نشانگر ترک کارمندان است. عامل تأثیرگذار دستمزد (x) است.

اکسل دارای توابع داخلی است که می تواند به شما در محاسبه پارامترهای یک مدل رگرسیون خطی کمک کند. اما افزودنی «بسته تجزیه و تحلیل» این کار را سریع‌تر انجام می‌دهد.

ما یک ابزار تحلیلی قدرتمند را فعال می کنیم:

پس از فعال شدن، افزونه در تب Data در دسترس خواهد بود.

حال بیایید خود تحلیل رگرسیون را انجام دهیم.

اول از همه به R-squared و ضرایب توجه می کنیم.

R-squared ضریب تعیین است. در مثال ما - 0.755 یا 75.5٪. به این معنی که پارامترهای محاسبه شده مدل 75.5 درصد از رابطه بین پارامترهای مورد مطالعه را توضیح می دهد. هر چه ضریب تعیین بالاتر باشد، مدل بهتر است. خوب - بالای 0.8. بد - کمتر از 0.5 (چنین تجزیه و تحلیل به سختی می تواند معقول در نظر گرفته شود). در مثال ما - "بد نیست".

ضریب 64.1428 نشان می دهد که اگر همه متغیرهای مدل مورد نظر برابر با 0 باشند Y چه مقدار خواهد بود. یعنی مقدار پارامتر تحلیل شده نیز تحت تأثیر عوامل دیگری است که در مدل توضیح داده نشده است.

ضریب -0.16285 وزن متغیر X را بر Y نشان می دهد. یعنی میانگین حقوق ماهانه در این مدل بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد (این درجه تأثیر کمی است). علامت "-" نشان می دهد نفوذ بد: هر چه حقوق بالاتر باشد، افراد کمتری ترک می کنند. که منصفانه است.

تجزیه و تحلیل همبستگی در اکسل

تجزیه و تحلیل همبستگی به تعیین اینکه آیا رابطه ای بین شاخص ها در یک یا دو نمونه وجود دارد کمک می کند. به عنوان مثال، بین زمان کارکرد دستگاه و هزینه تعمیرات، قیمت تجهیزات و مدت زمان کارکرد، قد و وزن کودکان و غیره.

اگر یک اتصال وجود داشته باشد، آیا افزایش یک پارامتر منجر به افزایش (همبستگی مثبت) یا کاهش (منفی) پارامتر دیگر می شود. تحلیل همبستگی به تحلیلگر کمک می کند تا تعیین کند که آیا می توان از مقدار یک شاخص برای پیش بینی مقدار احتمالی شاخص دیگر استفاده کرد یا خیر.

ضریب همبستگی با r نشان داده می شود. از +1 تا -1 متغیر است. طبقه بندی همبستگی ها برای حوزه های مختلف متفاوت خواهد بود. وقتی ضریب 0 باشد، هیچ رابطه خطی بین نمونه ها وجود ندارد.

بیایید نحوه یافتن ضریب همبستگی با استفاده از اکسل را بررسی کنیم.

برای یافتن ضرایب زوج از تابع CORREL استفاده می شود.

هدف: تعیین اینکه آیا بین زمان کارکرد ماشین تراش و هزینه نگهداری آن رابطه وجود دارد یا خیر.

مکان نما را در هر سلولی قرار دهید و دکمه fx را فشار دهید.

در دسته «آماری»، تابع CORREL را انتخاب کنید.
آرگومان "آرایه 1" - اولین محدوده مقادیر - زمان کار ماشین: A2:A14.
آرگومان "آرایه 2" - محدوده دوم مقادیر - هزینه تعمیر: B2:B14. روی OK کلیک کنید.

برای تعیین نوع اتصال، باید به عدد مطلق ضریب نگاه کنید (هر زمینه فعالیت مقیاس خاص خود را دارد).

برای تجزیه و تحلیل همبستگی چندین پارامتر (بیش از 2)، استفاده از "تحلیل داده ها" (افزونه "بسته تجزیه و تحلیل") راحت تر است. شما باید همبستگی را از لیست انتخاب کنید و آرایه را تعیین کنید. همه.

ضرایب حاصل در ماتریس همبستگی نمایش داده می شود. مثل این:

تحلیل همبستگی و رگرسیون

در عمل، این دو تکنیک اغلب با هم استفاده می شوند.

مثال:

اکنون داده های تحلیل رگرسیون قابل مشاهده است.

در طول تحصیل، دانش آموزان اغلب با انواع معادلات مواجه می شوند. یکی از آنها - معادله رگرسیون - در این مقاله مورد بحث قرار گرفته است. این نوع معادله به طور خاص برای توصیف ویژگی های رابطه بین استفاده می شود پارامترهای ریاضی. این نوعبرابری در آمار و اقتصاد سنجی استفاده می شود.

تعریف رگرسیون

در ریاضیات، رگرسیون به معنای کمیت معینی است که وابستگی میانگین مقدار مجموعه ای از داده ها را به مقادیر کمیت دیگر توصیف می کند. معادله رگرسیون، به عنوان تابعی از یک مشخصه خاص، مقدار متوسط یک مشخصه دیگر را نشان می دهد. تابع رگرسیون دارای فرم است معادله ساده y = x، که در آن y به عنوان یک متغیر وابسته، و x به عنوان یک متغیر مستقل (عامل-ویژگی) عمل می کند. در واقع رگرسیون به صورت y = f (x) بیان می شود.

انواع روابط بین متغیرها چیست؟

به طور کلی، دو نوع روابط متضاد وجود دارد: همبستگی و رگرسیون.

اولین مورد با برابری متغیرهای شرطی مشخص می شود. که در در این موردبا قطعیت مشخص نیست که کدام متغیر به دیگری بستگی دارد.

اگر بین متغیرها برابری وجود نداشته باشد و شرایط بگوید کدام متغیر توضیحی و کدام وابسته است، در این صورت می‌توان از وجود ارتباط نوع دوم صحبت کرد. برای ساخت یک معادله رگرسیون خطی، لازم است که نوع رابطه مشاهده شود.

انواع رگرسیون

امروزه 7 نوع رگرسیون مختلف وجود دارد: هذلولی، خطی، چندگانه، غیرخطی، زوجی، معکوس، خطی لگاریتمی.

هایپربولیک، خطی و لگاریتمی

از معادله رگرسیون خطی در آمار برای توضیح واضح پارامترهای معادله استفاده می شود. به نظر می رسد y = c+t*x+E. یک معادله هذلولی به شکل یک هذلولی منظم y = c + m / x + E است. یک معادله خطی لگاریتمی با استفاده از یک تابع لگاریتمی رابطه را بیان می کند: در y = در c + m * در x + در E.

چندگانه و غیرخطی

دو تا بیشتر انواع پیچیدهرگرسیون چندگانه و غیر خطی است. معادله رگرسیون چندگانه با تابع y = f(x 1, x 2 ... x c) + E بیان می شود. در این شرایط، y به عنوان یک متغیر وابسته و x به عنوان یک متغیر توضیحی عمل می کند. متغیر E تصادفی است؛ این متغیر شامل تأثیر عوامل دیگر در معادله است. معادله رگرسیون غیرخطی کمی بحث برانگیز است. از یک سو نسبت به شاخص های در نظر گرفته شده خطی نیست اما از سوی دیگر در نقش ارزیابی شاخص ها خطی است.

انواع رگرسیون معکوس و زوجی

معکوس نوعی تابع است که باید به شکل خطی تبدیل شود. در سنتی ترین برنامه های کاربردیبه شکل تابع y = 1/c + m*x+E است. یک معادله رگرسیون زوجی رابطه بین داده ها را به عنوان تابعی از y = f (x) + E نشان می دهد. درست مانند سایر معادلات، y به x بستگی دارد و E یک پارامتر تصادفی است.

مفهوم همبستگی

این شاخصی است که وجود رابطه بین دو پدیده یا فرآیند را نشان می دهد. قدرت رابطه به عنوان یک ضریب همبستگی بیان می شود. مقدار آن در بازه [-1;+1] در نوسان است. یک شاخص منفی حضور را نشان می دهد بازخورد، مثبت - در مورد یک خط مستقیم. اگر ضریب مقداری برابر با 0 بگیرد، هیچ رابطه ای وجود ندارد. هر چه مقدار به 1 نزدیک تر باشد، رابطه بین پارامترها قوی تر است و هر چه به 0 نزدیک تر باشد، ضعیف تر است.

مواد و روش ها

روش های پارامتریک همبستگی می توانند قدرت رابطه را ارزیابی کنند. آنها بر اساس تخمین توزیع برای مطالعه پارامترهایی که از قانون توزیع نرمال تبعیت می کنند استفاده می شوند.

پارامترهای معادله رگرسیون خطی برای شناسایی نوع وابستگی، عملکرد معادله رگرسیون و ارزیابی شاخص های فرمول رابطه انتخابی ضروری است. فیلد همبستگی به عنوان روش شناسایی اتصال استفاده می شود. برای انجام این کار، تمام داده های موجود باید به صورت گرافیکی به تصویر کشیده شوند. تمام داده های شناخته شده باید در یک سیستم مختصات دو بعدی مستطیلی رسم شوند. به این ترتیب یک میدان همبستگی تشکیل می شود. مقادیر ضریب توصیف در امتداد محور آبسیسا و مقادیر ضریب وابسته در امتداد محور مختصات مشخص می شوند. اگر یک رابطه عملکردی بین پارامترها وجود داشته باشد، آنها به شکل یک خط ردیف می شوند.

اگر ضریب همبستگی چنین داده هایی کمتر از 30٪ باشد، می توانیم از عدم وجود تقریباً کامل اتصال صحبت کنیم. اگر بین 30٪ و 70٪ باشد، این نشان دهنده وجود اتصالات متوسط بسته است. نشانگر 100% گواه اتصال عملکردی است.

معادله رگرسیون غیرخطی، درست مانند یک معادله خطی، باید با یک شاخص همبستگی (R) تکمیل شود.

همبستگی برای رگرسیون چندگانه

ضریب تعیین نشانگر مربع همبستگی چندگانه است. او از رابطه نزدیک مجموعه شاخص های ارائه شده با ویژگی مورد مطالعه صحبت می کند. همچنین می تواند در مورد ماهیت تأثیر پارامترها بر نتیجه صحبت کند. معادله رگرسیون چندگانه با استفاده از این شاخص برآورد شده است.

برای محاسبه شاخص همبستگی چندگانه، لازم است شاخص آن محاسبه شود.

روش حداقل مربعات

این روش راهی برای تخمین عوامل رگرسیون است. ماهیت آن به حداقل رساندن مجموع انحرافات مجذور به دست آمده در نتیجه وابستگی عامل به تابع است.

یک معادله رگرسیون خطی زوجی را می توان با استفاده از چنین روشی تخمین زد. این نوع معادلات زمانی استفاده می شود که یک رابطه خطی زوجی بین اندیکاتورها تشخیص داده شود.

پارامترهای معادله

هر پارامتر تابع رگرسیون خطی معنای خاصی دارد. معادله رگرسیون خطی زوجی شامل دو پارامتر است: c و m. پارامتر m میانگین تغییر در شاخص نهایی تابع y را نشان می دهد، مشروط بر اینکه متغیر x یک واحد معمولی کاهش (افزایش) داشته باشد. اگر متغیر x صفر باشد، تابع برابر با پارامتر c است. اگر متغیر x صفر نباشد، عامل c معنای اقتصادی ندارد. تنها تاثیری که روی تابع وجود دارد، علامت مقابل عامل c است. اگر منهای وجود داشته باشد، می توان گفت که تغییر در نتیجه در مقایسه با عامل کند است. اگر یک مثبت وجود داشته باشد، این نشان دهنده تغییر سریع در نتیجه است.

هر پارامتری که مقدار معادله رگرسیون را تغییر می دهد می تواند از طریق یک معادله بیان شود. به عنوان مثال، عامل c به شکل c = y - mx است.

داده های گروه بندی شده

شرایط کاری وجود دارد که در آن تمام اطلاعات با ویژگی x گروه بندی می شوند، اما برای یک گروه خاص مقادیر میانگین مربوطه نشانگر وابسته نشان داده شده است. در این مورد، مقادیر متوسط چگونگی تغییر شاخص بسته به x را مشخص می کند. بنابراین، اطلاعات گروه بندی شده به یافتن معادله رگرسیون کمک می کند. به عنوان تجزیه و تحلیل روابط استفاده می شود. با این حال، این روش دارای معایبی است. متأسفانه، شاخص های متوسط اغلب در معرض نوسانات خارجی هستند. این نوسانات الگوی رابطه را منعکس نمی کنند، بلکه فقط «سر و صدا» آن را پنهان می کنند. میانگین ها الگوهای رابطه را بسیار بدتر از معادله رگرسیون خطی نشان می دهند. با این حال، آنها می توانند به عنوان مبنایی برای یافتن یک معادله استفاده شوند. با ضرب تعداد یک جمعیت در میانگین مربوطه، می توان به جمع y درون گروه دست یافت. در مرحله بعد، باید تمام مبالغ دریافتی را جمع کنید و نشانگر نهایی y را پیدا کنید. انجام محاسبات با شاخص مجموع xy کمی دشوارتر است. اگر بازه ها کوچک باشند، می توانیم به طور مشروط نشانگر x را برای همه واحدها (در گروه) یکسان در نظر بگیریم. باید آن را در مجموع y ضرب کنید تا حاصل جمع x و y را دریابید. سپس تمام مقادیر با هم جمع می شوند و مقدار کل xy به دست می آید.

معادله رگرسیون زوجی چندگانه: ارزیابی اهمیت یک رابطه

همانطور که قبلاً بحث شد، رگرسیون چندگانه تابعی به شکل y = f (x1,x2,…,xm)+E دارد. اغلب از چنین معادله ای برای حل مشکل عرضه و تقاضا برای یک محصول، سود سود سهام بازخرید شده و بررسی علل و نوع تابع هزینه تولید استفاده می شود. همچنین به طور فعال در طیف گسترده ای از مطالعات و محاسبات اقتصاد کلان استفاده می شود، اما در سطح اقتصاد خرد از این معادله کمی کمتر استفاده می شود.

وظیفه اصلی رگرسیون چندگانه ساختن مدلی از داده‌ها است که حاوی حجم عظیمی از اطلاعات باشد تا مشخص شود که هر یک از عوامل به‌صورت جداگانه و در خود چه تأثیری دارند. جمعیت عمومیبر روی شاخصی که نیاز به مدل سازی دارد و ضرایب آن. معادله رگرسیون می تواند مقادیر بسیار متنوعی به خود بگیرد. در این حالت برای ارزیابی رابطه معمولاً از دو نوع تابع استفاده می شود: خطی و غیرخطی.

تابع خطی به شکل رابطه زیر نشان داده می شود: y = a 0 + a 1 x 1 + a 2 x 2، + ... + a m x m. در این مورد، a2، a m ضرایب رگرسیون "خالص" در نظر گرفته می شوند. آنها برای مشخص کردن میانگین تغییر پارامتر y با تغییر (کاهش یا افزایش) در هر پارامتر مربوطه x توسط یک واحد، با شرط مقادیر پایدار سایر شاخص ها ضروری هستند.

معادلات غیرخطی، برای مثال، شکل تابع توانی y=ax 1 b1 x 2 b2 ...x m bm را دارند. در این مورد، شاخص های b 1، b 2 ..... b m ضرایب کشش نامیده می شوند، آنها نشان می دهند که چگونه نتیجه با افزایش (کاهش) در شاخص مربوطه x به میزان 1٪ تغییر می کند (چه مقدار٪). با شاخص ثابت سایر عوامل.

در ساخت رگرسیون چندگانه چه عواملی باید در نظر گرفته شود

برای ساخت صحیح رگرسیون چندگانه، باید دریابید که به کدام عوامل باید توجه ویژه ای داشت.

لازم است تا حدی درک درستی از ماهیت روابط بین عوامل اقتصادی و آنچه در حال مدل سازی است داشته باشیم. عواملی که باید گنجانده شوند باید معیارهای زیر را داشته باشند:

باید تحت اندازه گیری کمی باشد. برای استفاده از فاکتوری که کیفیت یک شی را توصیف می کند، در هر صورت باید شکل کمی به آن داده شود.
نباید هیچ گونه همبستگی بین عوامل یا رابطه عملکردی وجود داشته باشد. چنین اقداماتی اغلب منجر به عواقب غیرقابل برگشت می شود - سیستم معادلات معمولی بدون قید و شرط می شود و این مستلزم عدم اطمینان و برآوردهای نامشخص آن است.
در مورد یک شاخص همبستگی عظیم، هیچ راهی برای کشف تأثیر مجزای عوامل بر نتیجه نهایی شاخص وجود ندارد، بنابراین، ضرایب غیر قابل تفسیر می شوند.

روش های ساخت و ساز

تعداد زیادی روش و روش وجود دارد که توضیح می دهد چگونه می توانید عوامل را برای یک معادله انتخاب کنید. با این حال، تمام این روش ها بر اساس انتخاب ضرایب با استفاده از یک شاخص همبستگی است. از جمله آنها عبارتند از:

روش حذف.
روش سوئیچینگ.
تحلیل رگرسیون گام به گام

روش اول شامل فیلتر کردن تمام ضرایب از کل مجموعه است. روش دوم شامل معرفی بسیاری از عوامل اضافی است. خوب، سوم حذف عواملی است که قبلاً برای معادله استفاده می شد. هر یک از این روش ها حق وجود دارد. آنها موافقان و مخالفان خود را دارند، اما همه آنها می توانند موضوع حذف شاخص های غیر ضروری را به روش خود حل کنند. به عنوان یک قاعده، نتایج به دست آمده توسط هر روش فردی کاملاً نزدیک است.

روش های تحلیل چند متغیره

چنین روش هایی برای تعیین عوامل مبتنی بر در نظر گرفتن ترکیب های فردی از ویژگی های مرتبط است. اینها عبارتند از تجزیه و تحلیل متمایز، تشخیص شکل، تجزیه و تحلیل اجزای اصلی و تجزیه و تحلیل خوشه. علاوه بر این، تحلیل عاملی نیز وجود دارد، اما به دلیل توسعه روش مؤلفه ظاهر شد. همه آنها در شرایط خاص و با شرایط و عوامل خاصی اعمال می شوند.

تحلیل رگرسیون روشی برای ایجاد یک بیان تحلیلی برای وابستگی تصادفی بین ویژگی های مورد مطالعه است. معادله رگرسیون نشان می دهد که چگونه میانگین تغییر می کند درهنگام تغییر هر یک از ایکس من , و دارای شکل:

جایی که y -متغیر وابسته (همیشه یکسان است)؛

ایکس من - متغیرهای مستقل (عوامل) (ممکن است چندین مورد از آنها وجود داشته باشد).

اگر تنها یک متغیر مستقل وجود داشته باشد، این یک تحلیل رگرسیون ساده است. اگر تعدادی از آنها وجود داشته باشد ( پ 2), سپس چنین تحلیلی چند عاملی نامیده می شود.

تحلیل رگرسیون دو مشکل اصلی را حل می کند:

ساخت یک معادله رگرسیون، یعنی یافتن نوع رابطه بین شاخص نتیجه و عوامل مستقل ایکس 1 , ایکس 2 , …, ایکس n .

ارزیابی اهمیت معادله حاصل، یعنی. تعیین اینکه چقدر ویژگی های عامل انتخاب شده تنوع یک صفت را توضیح می دهد تو

تحلیل رگرسیون عمدتاً برای برنامه ریزی و همچنین برای توسعه یک چارچوب نظارتی استفاده می شود.

بر خلاف تحلیل همبستگی، که تنها به این سوال پاسخ می دهد که آیا رابطه ای بین ویژگی های تحلیل شده وجود دارد، تحلیل رگرسیون نیز بیان رسمی خود را ارائه می دهد. علاوه بر این، اگر تحلیل همبستگی هر گونه رابطه بین عوامل را مطالعه کند، تحلیل رگرسیون به مطالعه وابستگی یک طرفه می‌پردازد. رابطه ای که نشان می دهد چگونه تغییر در ویژگی های عامل بر ویژگی مؤثر تأثیر می گذارد.

تحلیل رگرسیون یکی از پیشرفته ترین روش های آمار ریاضی است. به بیان دقیق، برای اجرای تحلیل رگرسیون، لازم است تعدادی از الزامات ویژه (به ویژه، ایکسل ،ایکس 2 ،...،ایکس n ;yباید متغیرهای تصادفی مستقل و معمولی با واریانس ثابت باشند). که در زندگی واقعیرعایت دقیق الزامات رگرسیون و تحلیل همبستگی بسیار نادر است، اما هر دوی این روش ها در تحقیقات اقتصادی بسیار رایج هستند. وابستگی ها در اقتصاد نه تنها می توانند مستقیم، بلکه معکوس و غیرخطی نیز باشند. در صورت وجود هر وابستگی می توان یک مدل رگرسیون ساخت، با این حال، در تحلیل چند متغیره فقط از مدل های خطی شکل استفاده می شود:

معادله رگرسیون معمولاً با استفاده از روش ساخته می شود کمترین مربعات، که ماهیت آن به حداقل رساندن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل از مقادیر محاسبه شده آن است، یعنی:

جایی که تی -تعداد مشاهدات؛

j =a+b 1 ایکس 1 j +b 2 ایکس 2 j + ... + ب n ایکس n j - مقدار محاسبه شده ضریب نتیجه

توصیه می شود ضرایب رگرسیون را با استفاده از بسته های تحلیلی برای رایانه شخصی یا یک ماشین حساب مالی ویژه تعیین کنید. در ساده ترین حالت، ضرایب رگرسیون یک متغیره معادله خطیرگرسیون های فرم y = a + bxرا می توان با استفاده از فرمول ها پیدا کرد:

آنالیز خوشه ای

تحلیل خوشه ای یکی از روش های تحلیل چند بعدی است که برای گروه بندی (خوشه بندی) جمعیتی در نظر گرفته شده است که عناصر آن با ویژگی های بسیاری مشخص می شوند. مقادیر هر ویژگی به عنوان مختصات هر واحد از جمعیت مورد مطالعه در فضای چند بعدی ویژگی ها عمل می کند. هر مشاهده ای که با مقادیر چندین شاخص مشخص می شود، می تواند به عنوان یک نقطه در فضای این شاخص ها نمایش داده شود که مقادیر آن به عنوان مختصاتی در یک فضای چند بعدی در نظر گرفته می شود. فاصله بین نقاط آرو qبا کمختصات به صورت زیر تعریف می شود:

معیار اصلی برای خوشه بندی این است که تفاوت بین خوشه ها باید بیشتر از مشاهدات اختصاص داده شده به همان خوشه باشد. در یک فضای چند بعدی نابرابری زیر باید رعایت شود:

جایی که r 1، 2 - فاصله بین خوشه های 1 و 2.

درست مانند روش های تحلیل رگرسیون، روش خوشه بندی کاملاً کار فشرده است؛ توصیه می شود آن را روی رایانه انجام دهید.

هدف اصلی تحلیل رگرسیونعبارت است از تعیین شکل تحلیلی ارتباط که در آن تغییر در مشخصه مؤثر ناشی از تأثیر یک یا چند ویژگی عامل است و مجموعه سایر عواملی که بر ویژگی مؤثر نیز تأثیر می گذارند به عنوان مقادیر ثابت و متوسط در نظر گرفته می شوند.
مشکلات تحلیل رگرسیون:
الف) ایجاد شکل وابستگی. با توجه به ماهیت و شکل رابطه بین پدیده ها، بین رگرسیون خطی مثبت و غیرخطی و خطی و غیرخطی منفی تفاوت قائل می شود.
ب) تعیین تابع رگرسیون در قالب یک معادله ریاضی از یک نوع و تعیین تأثیر متغیرهای توضیحی بر متغیر وابسته.
ج) برآورد مقادیر مجهول متغیر وابسته. با استفاده از تابع رگرسیون، می توانید مقادیر متغیر وابسته را در بازه مقادیر مشخص شده متغیرهای توضیحی بازتولید کنید (یعنی حل مشکل درون یابی) یا سیر فرآیند را خارج از بازه مشخص شده ارزیابی کنید (یعنی حل مشکل برون یابی). نتیجه تخمینی از مقدار متغیر وابسته است.

رگرسیون زوجی معادله ای برای رابطه بین دو متغیر y و x است: y=f(x)، که در آن y متغیر وابسته است (ویژگی نتیجه). x یک متغیر توضیحی مستقل (ویژگی-عامل) است.

رگرسیون خطی و غیرخطی وجود دارد.
رگرسیون خطی: y = a + bx + ε
رگرسیون های غیرخطی به دو دسته تقسیم می شوند: رگرسیون هایی که با توجه به متغیرهای توضیحی موجود در تحلیل غیرخطی هستند، اما نسبت به پارامترهای برآورد شده خطی هستند و رگرسیون هایی که نسبت به پارامترهای برآورد شده غیرخطی هستند.
رگرسیون هایی که در متغیرهای توضیحی غیرخطی هستند:

رگرسیون هایی که با توجه به پارامترهای تخمین زده شده غیرخطی هستند:

توان y=a x b ε
نمایی y=a b x ε
نمایی y=e a+b x ε

ساخت یک معادله رگرسیون به تخمین پارامترهای آن ختم می شود. برای برآورد پارامترهای رگرسیون خطی در پارامترها، از روش حداقل مربعات (OLS) استفاده شده است. روش حداقل مربعات به دست آوردن چنین تخمین های پارامتری را امکان پذیر می کند که در آن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل از y از y x نظری حداقل باشد، یعنی.

.
برای معادلات خطی و غیرخطی قابل تقلیل به خطی، سیستم زیر برای a و b حل می شود:

می توانید از فرمول های آماده ای که از این سیستم پیروی می کنند استفاده کنید:

نزدیکی ارتباط بین پدیده های مورد مطالعه توسط ضریب همبستگی جفت خطی r xy برای رگرسیون خطی (-1≤r xy ≤1) ارزیابی می شود:

و شاخص همبستگی p xy - برای رگرسیون غیرخطی (0≤p xy ≤1):

کیفیت مدل ساخته شده با ضریب (شاخص) تعیین و همچنین میانگین خطای تقریب ارزیابی خواهد شد.
میانگین خطای تقریب - میانگین انحراف مقادیر محاسبه شده از مقادیر واقعی:

.
حد مجاز مقادیر A بیش از 8-10٪ نیست.
ضریب کشش متوسط E نشان می دهد که نتیجه کل به طور متوسط با چند درصد از آن تغییر می کند اندازه متوسطوقتی عامل x از مقدار متوسط خود 1% تغییر می کند:
.

هدف از تحلیل واریانس تحلیل واریانس متغیر وابسته است:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
که در آن ∑(y-y)² مجموع مجذور انحرافات است.
∑(y x -y)² - مجموع انحرافات مجذور ناشی از رگرسیون ("توضیح داده شده" یا "عامل")؛
∑(y-y x)² - مجموع باقیمانده انحرافات مجذور.
سهم واریانس توضیح داده شده توسط رگرسیون در کل واریانس مشخصه حاصل از y با ضریب (شاخص) تعیین R2 مشخص می شود:

ضریب تعیین مجذور ضریب یا شاخص همبستگی است.

آزمون F - ارزیابی کیفیت معادله رگرسیون - شامل آزمون فرضیه No در مورد بی اهمیت بودن آماری معادله رگرسیون و نشانگر نزدیکی رابطه است. برای انجام این کار، مقایسه ای بین واقعیت F واقعی و مقادیر جدول F بحرانی (جدولی) معیار F فیشر انجام می شود. F واقعیت از نسبت مقادیر فاکتور و واریانس های باقی ماندهطراحی شده برای یک درجه آزادی:
,
که در آن n تعداد واحدهای جمعیت است. m تعداد پارامترهای متغیر x است.
جدول F حداکثر مقدار ممکن معیار تحت تأثیر عوامل تصادفی در درجه های آزادی معین و سطح معنی داری a است. سطح معناداری a احتمال رد فرضیه صحیح است، مشروط بر اینکه درست باشد. معمولا a برابر با 0.05 یا 0.01 گرفته می شود.
اگر جدول F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >در واقع، فرضیه H o رد نمی شود و بی اهمیت بودن و غیرقابل اعتماد بودن معادله رگرسیونی تشخیص داده می شود.
برای ارزیابی اهمیت آماری ضرایب رگرسیون و همبستگی، آزمون t استودیو و فواصل اطمینان برای هر شاخص محاسبه شده است. فرضیه ای در مورد ماهیت تصادفی شاخص ها مطرح می شود، به عنوان مثال. در مورد تفاوت ناچیز آنها از صفر. ارزیابی اهمیت ضرایب رگرسیون و همبستگی با استفاده از آزمون t Student با مقایسه مقادیر آنها با بزرگی خطای تصادفی انجام می شود:
; ; .
خطاهای تصادفی پارامترهای رگرسیون خطی و ضریب همبستگی با فرمول تعیین می شود:

با مقایسه مقادیر واقعی و بحرانی (جدولی) آمار t - t جدول و t fact - فرضیه H o را می پذیریم یا رد می کنیم.
رابطه بین آزمون F فیشر و آماره t دانشجویی با برابری بیان می شود

اگر T جدول< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t یک واقعیت است که فرضیه H o رد نمی شود و ماهیت تصادفی تشکیل a، b یا r xy تشخیص داده می شود.
برای محاسبه فاصله اطمینان، حداکثر خطای D را برای هر نشانگر تعیین می کنیم:
Δ a =t جدول m a , Δ b =t جدول m b .
فرمول های محاسبه فواصل اطمینان به شرح زیر است:
γ a =aΔ a ; γ a =a-Δ a ; γ a =a+Δa
γ b =bΔ b ; γ b =b-Δ b ; γ b =b+Δ b
اگر صفر در بازه اطمینان قرار گیرد، یعنی. اگر حد پایین منفی و حد بالایی مثبت باشد، پارامتر تخمین زده شده صفر در نظر گرفته می شود، زیرا نمی تواند همزمان مقادیر مثبت و منفی را بگیرد.
مقدار پیش‌بینی y p با جایگزین کردن مقدار (پیش‌بینی) متناظر x p در معادله رگرسیونی y x =a+b·x تعیین می‌شود. میانگین خطای استاندارد پیش‌بینی m y x محاسبه می‌شود:
,
جایی که
و یک فاصله اطمینان برای پیش بینی ساخته می شود:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
جایی که Δ y x =t جدول m y x .

راه حل مثال

وظیفه شماره 1. برای هفت قلمرو منطقه اورال در 199X، ارزش دو ویژگی شناخته شده است.
میز 1.

ضروری: 1. برای مشخص کردن وابستگی y به x، پارامترهای توابع زیر را محاسبه کنید:
الف) خطی؛
ب) توان (ابتدا باید رویه خطی سازی متغیرها را با گرفتن لگاریتم هر دو قسمت انجام دهید).
ج) نمایشی؛
د) هذلولای متساوی الاضلاع (شما همچنین باید نحوه پیش خطی کردن این مدل را دریابید).
2. هر مدل را از طریق میانگین خطای تقریب A و آزمون F فیشر ارزیابی کنید.

راه حل (گزینه شماره 1)

برای محاسبه پارامترهای a و b رگرسیون خطی y=a+b·x (محاسبه را می توان با استفاده از ماشین حساب انجام داد).
حل یک سیستم معادلات عادی برای آو ب:

با استفاده از داده های اولیه، ∑y، ∑x، ∑y x، ∑x²، ∑y² را محاسبه می کنیم:

	y	ایکس	yx	x 2	y 2	y x	y-y x	یک آی
ل	68,8	45,1	3102,88	2034,01	4733,44	61,3	7,5	10,9
2	61,2	59,0	3610,80	3481,00	3745,44	56,5	4,7	7,7
3	59,9	57,2	3426,28	3271,84	3588,01	57,1	2,8	4,7
4	56,7	61,8	3504,06	3819,24	3214,89	55,5	1,2	2,1
5	55,0	58,8	3234,00	3457,44	3025,00	56,5	-1,5	2,7
6	54,3	47,2	2562,96	2227,84	2948,49	60,5	-6,2	11,4
7	49,3	55,2	2721,36	3047,04	2430,49	57,8	-8,5	17,2
جمع	405,2	384,3	22162,34	21338,41	23685,76	405,2	0,0	56,7
چهارشنبه معنی (مجموع/n)	57,89 y	54,90 ایکس	3166,05 x y	3048,34 x²	3383,68 y²	ایکس	ایکس	8,1
س	5,74	5,86	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس
s 2	32,92	34,34	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس

a=y -b x = 57.89+0.35 54.9 ≈ 76.88

معادله رگرسیون: y = 76,88 - 0,35ایکس.با افزایش متوسط دستمزد روزانه 1 روبل. سهم هزینه های خرید محصولات غذایی به طور متوسط 0.35 واحد درصد کاهش می یابد.
بیایید ضریب همبستگی جفت خطی را محاسبه کنیم:

اتصال متوسط، معکوس است.
بیایید ضریب تعیین را تعیین کنیم: r² xy =(-0.35)=0.127
تغییرات 12.7٪ در نتیجه با تغییر در ضریب x توضیح داده می شود. جایگزینی در معادله رگرسیون ارزش های واقعی ایکس، بیایید مقادیر نظری (محاسبه شده) y x را تعیین کنیم. اجازه دهید مقدار میانگین خطای تقریب A را پیدا کنیم:

به طور متوسط، مقادیر محاسبه شده 8.1٪ از مقادیر واقعی انحراف دارند.
بیایید معیار F را محاسبه کنیم:

مقدار به دست آمده لزوم پذیرش فرضیه H 0 در مورد ماهیت تصادفی وابستگی شناسایی شده و بی اهمیت بودن آماری پارامترهای معادله و نشانگر نزدیکی اتصال را نشان می دهد.
1b.ساخت مدل توان y=a·x b با رویه خطی سازی متغیرها انجام می شود. در مثال، خطی سازی با گرفتن لگاریتم دو طرف معادله انجام می شود:
lg y=lg a + b lg x
Y=C+b·Y
که در آن Y=log(y)، X=log(x)، C=log(a).

برای محاسبات از داده های جدول استفاده می کنیم. 1.3.
جدول 1.3

	Y	ایکس	YX	Y2	X 2	y x	y-y x	(y-y x)²	یک آی
1	1,8376	1,6542	3,0398	3,3768	2,7364	61,0	7,8	60,8	11,3
2	1,7868	1,7709	3,1642	3,1927	3,1361	56,3	4,9	24,0	8,0
3	1,7774	1,7574	3,1236	3,1592	3,0885	56,8	3,1	9,6	5,2
4	1,7536	1,7910	3,1407	3,0751	3,2077	55,5	1,2	1,4	2,1
5	1,7404	1,7694	3,0795	3,0290	3,1308	56,3	-1,3	1,7	2,4
6	1,7348	1,6739	2,9039	3,0095	2,8019	60,2	-5,9	34,8	10,9
7	1,6928	1,7419	2,9487	2,8656	3,0342	57,4	-8,1	65,6	16,4
جمع	12,3234	12,1587	21,4003	21,7078	21,1355	403,5	1,7	197,9	56,3
مقدار متوسط	1,7605	1,7370	3,0572	3,1011	3,0194	ایکس	ایکس	28,27	8,0
σ	0,0425	0,0484	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس
σ 2	0,0018	0,0023	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس

بیایید C و b را محاسبه کنیم:

C=Y -b·X = 1.7605+0.298·1.7370 = 2.278126
یک معادله خطی بدست می آوریم: Y=2.278-0.298 X
پس از انجام تقویت آن، به دست می آوریم: y=10 2.278 ·x -0.298
جایگزینی مقادیر واقعی در این معادله ایکس،ما مقادیر نظری نتیجه را بدست می آوریم. بر اساس آنها، شاخص های زیر را محاسبه خواهیم کرد: تنگی اتصال - شاخص همبستگی p xy و میانگین خطای تقریب A.

ویژگی های مدل قدرت-قانون نشان می دهد که رابطه را تا حدودی بهتر از تابع خطی توصیف می کند.

1c. ساخت معادله منحنی نمایی y=a·b x قبل از خطی کردن متغیرها با گرفتن لگاریتم دو طرف معادله انجام می شود:
log y=log a + x log b
Y=C+B x
برای محاسبات از داده های جدول استفاده می کنیم.

	Y	ایکس	Yx	Y2	x 2	y x	y-y x	(y-y x)²	یک آی
1	1,8376	45,1	82,8758	3,3768	2034,01	60,7	8,1	65,61	11,8
2	1,7868	59,0	105,4212	3,1927	3481,00	56,4	4,8	23,04	7,8
3	1,7774	57,2	101,6673	3,1592	3271,84	56,9	3,0	9,00	5,0
4	1,7536	61,8	108,3725	3,0751	3819,24	55,5	1,2	1,44	2,1
5	1,7404	58,8	102,3355	3,0290	3457,44	56,4	-1,4	1,96	2,5
6	1,7348	47,2	81,8826	3,0095	2227,84	60,0	-5,7	32,49	10,5
7	1,6928	55,2	93,4426	2,8656	3047,04	57,5	-8,2	67,24	16,6
جمع	12,3234	384,3	675,9974	21,7078	21338,41	403,4	-1,8	200,78	56,3
چهارشنبه zn.	1,7605	54,9	96,5711	3,1011	3048,34	ایکس	ایکس	28,68	8,0
σ	0,0425	5,86	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس
σ 2	0,0018	34,339	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس	ایکس

مقادیر پارامترهای رگرسیون A و که درتخمین زده می شود به:

A=Y -B x = 1.7605+0.0023 54.9 = 1.887
معادله خطی بدست آمده عبارت است از: Y=1.887-0.0023x. اجازه دهید معادله حاصل را تقویت کنیم و آن را به شکل معمول بنویسیم:
y x = 10 1.887 10 -0.0023x = 77.1 0.9947 x
اجازه دهید نزدیکی اتصال را از طریق شاخص همبستگی p xy ارزیابی کنیم:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 جمع405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 مقدار متوسط57,9 0,0184 1,0723 0,000345 3383,68 ایکسایکس27,84 8,1 σ 5,74 0,002145 ایکسایکسایکسایکسایکسایکسایکس σ 232,9476 0,000005 ایکسایکس

تحلیل رگرسیون است روش آماریتحقیقی که به شما امکان می دهد وابستگی یک پارامتر خاص را به یک یا چند متغیر مستقل نشان دهید. در دوران پیش از کامپیوتر، استفاده از آن بسیار دشوار بود، به خصوص زمانی که به حجم زیادی از داده ها می رسید. امروزه، با آموختن نحوه ایجاد رگرسیون در اکسل، می توانید مسائل پیچیده آماری را تنها در چند دقیقه حل کنید. در زیر آمده است نمونه های خاصاز رشته اقتصاد

انواع رگرسیون

این مفهوم خود در سال 1886 وارد ریاضیات شد. رگرسیون اتفاق می افتد:

خطی؛
سهموی
آرام بخش
نمایی;
هذلولی
نمایشی؛
لگاریتمی

مثال 1

بیایید مشکل تعیین وابستگی تعداد اعضای تیمی که از کار کناره گیری می کنند به میانگین حقوق در 6 شرکت صنعتی در نظر بگیریم.

وظیفه. در شش شرکت، میانگین حقوق ماهانه و تعداد کارکنانی که داوطلبانه ترک کردند، تجزیه و تحلیل شد. به شکل جدول داریم:


		تعداد افرادی که ترک کردند	حقوق
			30000 روبل
			35000 روبل
			40000 روبل
			45000 روبل
			50000 روبل
			55000 روبل
			60000 روبل

برای تعیین وابستگی تعداد کارگران انصرافی به میانگین حقوق در 6 شرکت، مدل رگرسیون به شکل معادله Y = a 0 + a 1 x 1 +...+a k x k است که x i معادل است. متغیرهای تأثیرگذار، a i ضرایب رگرسیون و k تعداد عوامل است.

برای این مشکل، Y شاخص ترک کار کارکنان است و عامل تأثیرگذار، حقوق است که آن را با X نشان می دهیم.

استفاده از قابلیت های پردازشگر صفحه گسترده اکسل

تجزیه و تحلیل رگرسیون در اکسل باید با اعمال توابع داخلی به داده های جدولی موجود انجام شود. با این حال، برای این اهداف بهتر است از افزونه بسیار مفید "Analysis Pack" استفاده کنید. برای فعال کردن آن نیاز دارید:

از برگه "فایل" به بخش "گزینه ها" بروید.
در پنجره ای که باز می شود، خط "افزونه ها" را انتخاب کنید.
روی دکمه "Go" واقع در زیر، سمت راست خط "Management" کلیک کنید.
کادر کنار نام «بسته تجزیه و تحلیل» را علامت بزنید و با کلیک بر روی «تأیید» اقدامات خود را تأیید کنید.

اگر همه چیز به درستی انجام شود، دکمه مورد نیاز در سمت راست برگه "داده ها" که در بالای کاربرگ اکسل قرار دارد ظاهر می شود.

در اکسل

اکنون که همه ابزارهای مجازی لازم برای انجام محاسبات اقتصادسنجی را در اختیار داریم، می‌توانیم شروع به حل مشکل خود کنیم. برای این:

بر روی دکمه "تجزیه و تحلیل داده ها" کلیک کنید؛
در پنجره ای که باز می شود، روی دکمه "Regression" کلیک کنید.
در برگه ای که ظاهر می شود، محدوده مقادیر Y (تعداد کارمندان ترک) و X (حقوق آنها) را وارد کنید.
ما اقدامات خود را با فشار دادن دکمه "Ok" تأیید می کنیم.

در نتیجه، برنامه به طور خودکار یک صفحه گسترده جدید را با داده های تحلیل رگرسیون پر می کند. توجه داشته باشید! اکسل به شما امکان می دهد مکان مورد نظر خود را برای این منظور به صورت دستی تنظیم کنید. به عنوان مثال، می تواند همان برگه ای باشد که مقادیر Y و X در آن قرار دارند یا حتی یک کتاب جدید، به طور خاص برای ذخیره چنین داده هایی طراحی شده است.

تجزیه و تحلیل نتایج رگرسیون برای R-squared

در اکسل، داده های به دست آمده در هنگام پردازش داده ها در مثال مورد بررسی به شکل زیر است:

اول از همه، باید به مقدار R-squared توجه کنید. نشان دهنده ضریب تعیین است. در این مثال، R-square = 0.755 (75.5%)، یعنی پارامترهای محاسبه شده مدل، رابطه بین پارامترهای در نظر گرفته شده را تا 75.5% توضیح می دهد. هر چه مقدار ضریب تعیین بالاتر باشد، مدل انتخاب شده برای یک کار خاص مناسب تر است. در نظر گرفته می شود که به درستی وضعیت واقعی را وقتی که مقدار R-square بالای 0.8 باشد، توصیف می کند. اگر R مربع باشد<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

تحلیل شانس

عدد 64.1428 نشان می دهد که اگر تمام متغیرهای xi در مدلی که در نظر داریم به صفر برسند، مقدار Y چقدر خواهد بود. به عبارت دیگر، می توان استدلال کرد که مقدار پارامتر تحلیل شده نیز تحت تأثیر عوامل دیگری است که در یک مدل خاص توضیح داده نشده اند.

ضریب بعدی -0.16285 که در سلول B18 قرار دارد، وزن تأثیر متغیر X را بر Y نشان می دهد. این بدان معنی است که میانگین حقوق ماهانه کارکنان در مدل مورد بررسی بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد. درجه نفوذ آن کاملاً کم است. علامت "-" نشان دهنده منفی بودن ضریب است. این بدیهی است ، زیرا همه می دانند که هرچه حقوق در شرکت بالاتر باشد ، افراد کمتری تمایل به فسخ قرارداد کار یا ترک کار را دارند.

رگرسیون چندگانه

این اصطلاح به یک معادله رابطه با چندین متغیر مستقل از شکل اشاره دارد:

y=f(x 1 +x 2 +…x m) + ε، که در آن y مشخصه حاصل (متغیر وابسته) است، و x 1، x 2،…x m ویژگی های عاملی (متغیرهای مستقل) هستند.

تخمین پارامتر

برای رگرسیون چندگانه (MR)، با استفاده از روش حداقل مربعات (OLS) انجام می شود. برای معادلات خطی به شکل Y = a + b 1 x 1 +…+b m x m + ε ما سیستمی از معادلات عادی می سازیم (به زیر مراجعه کنید)

برای درک اصل روش، یک مورد دو عاملی را در نظر بگیرید. سپس وضعیتی داریم که با فرمول توصیف شده است

از اینجا دریافت می کنیم:

که در آن σ واریانس ویژگی مربوطه منعکس شده در شاخص است.

OLS برای معادله MR در مقیاس استاندارد قابل اعمال است. در این حالت معادله را بدست می آوریم:

که در آن t y، t x 1، ... t xm متغیرهای استانداردی هستند که مقادیر متوسط آنها برابر با 0 است. β i ضرایب رگرسیون استاندارد شده است و انحراف استاندارد 1 است.

لطفاً توجه داشته باشید که همه β i در این مورد به صورت عادی و متمرکز مشخص می شوند، بنابراین مقایسه آنها با یکدیگر صحیح و قابل قبول تلقی می شود. علاوه بر این، مرسوم است که عوامل را با کنار گذاشتن آنهایی که کمترین مقدار βi را دارند، غربال کنند.

مسئله با استفاده از معادله رگرسیون خطی

فرض کنید جدولی از پویایی قیمت برای یک محصول خاص N در 8 ماه گذشته داریم. لازم است در مورد توصیه خرید دسته ای از آن با قیمت 1850 روبل در تن تصمیم گیری شود.


شماره ماه	نام ماه	قیمت محصول N
		1750 روبل در هر تن
		1755 روبل در هر تن
		1767 روبل در هر تن
		1760 روبل در هر تن
		1770 روبل در هر تن
		1790 روبل در هر تن
		1810 روبل در هر تن
		1840 روبل در هر تن

برای حل این مشکل در پردازنده صفحه گسترده اکسل، باید از ابزار "تجزیه و تحلیل داده ها" استفاده کنید، که قبلاً از مثال ارائه شده در بالا شناخته شده است. بعد، بخش "Regression" را انتخاب کنید و پارامترها را تنظیم کنید. لازم به یادآوری است که در قسمت "فاصله ورودی Y" باید محدوده ای از مقادیر برای متغیر وابسته (در این مورد قیمت کالاها در ماه های خاص سال) و در "فاصله ورودی X" وارد شود. - برای متغیر مستقل (تعداد ماه). با کلیک بر روی "Ok" اقدام را تأیید کنید. در یک صفحه جدید (اگر چنین باشد) داده هایی را برای رگرسیون به دست می آوریم.

با استفاده از آنها، یک معادله خطی به شکل y=ax+b می سازیم، که در آن پارامترهای a و b ضرایب خط با نام شماره ماه و ضرایب و خطوط "تقاطع Y" از صفحه با نتایج تحلیل رگرسیون بنابراین، معادله رگرسیون خطی (LR) برای کار 3 به صورت زیر نوشته می شود:

قیمت محصول N = 11.714* شماره ماه + 1727.54.

یا در نماد جبری

y = 11.714 x + 1727.54

تجزیه و تحلیل نتایج

برای تصمیم گیری در مورد مناسب بودن معادله رگرسیون خطی حاصل، از ضرایب همبستگی چندگانه (MCC) و تعیین و همچنین آزمون فیشر و آزمون تی دانشجویی استفاده می شود. در صفحه گسترده اکسل با نتایج رگرسیون، به ترتیب R، R-squared، F-statistic و t-statistic نامیده می شوند.

KMC R امکان ارزیابی نزدیکی رابطه احتمالی بین متغیرهای مستقل و وابسته را فراهم می کند. ارزش بالای آن نشان دهنده ارتباط نسبتاً قوی بین متغیرهای "تعداد ماه" و "قیمت محصول N به روبل در هر 1 تن" است. با این حال، ماهیت این رابطه ناشناخته باقی مانده است.

مجذور ضریب تعیین R2 (RI) یک مشخصه عددی نسبت پراکندگی کل است و پراکندگی کدام بخشی از داده های تجربی را نشان می دهد، یعنی. مقادیر متغیر وابسته با معادله رگرسیون خطی مطابقت دارد. در مسئله مورد بررسی، این مقدار برابر با 84.8 درصد است، یعنی داده های آماری با درجه دقت بالایی توسط SD حاصل توصیف می شوند.

آماره F که آزمون فیشر نیز نامیده می شود، برای ارزیابی اهمیت یک رابطه خطی، رد یا تایید فرضیه وجود آن استفاده می شود.

(آزمون دانشجویی) به ارزیابی معنی داری ضریب با یک جمله مجهول یا آزاد رابطه خطی کمک می کند. اگر مقدار آزمون t > tcr باشد، فرضیه بی اهمیت بودن جمله آزاد معادله خطی رد می شود.

در مسئله مورد بررسی برای عبارت آزاد، با استفاده از ابزار اکسل، به دست آمد که t = 169.20903، و p = 2.89E-12، یعنی احتمال صفر داریم که فرضیه صحیح در مورد بی اهمیت بودن عبارت آزاد رد شود. . برای ضریب مجهول t=5.79405 و p=0.001158. به عبارت دیگر، احتمال رد فرضیه صحیح در مورد بی اهمیت بودن ضریب برای مجهول 0.12 درصد است.

بنابراین، می توان استدلال کرد که معادله رگرسیون خطی به دست آمده کافی است.

مشکل امکان سنجی خرید بلوکی از سهام

رگرسیون چندگانه در اکسل با استفاده از همان ابزار تحلیل داده انجام می شود. بیایید یک مشکل کاربردی خاص را در نظر بگیریم.

مدیریت شرکت NNN باید در مورد امکان خرید 20 درصد سهام در MMM JSC تصمیم بگیرد. هزینه بسته (SP) 70 میلیون دلار آمریکا می باشد. متخصصان NNN داده هایی را در مورد تراکنش های مشابه جمع آوری کرده اند. تصمیم بر این شد که ارزش بلوک سهام با توجه به پارامترهایی که به میلیون ها دلار آمریکا بیان می شود، ارزیابی شود:

حساب های پرداختنی (VK)؛
حجم گردش مالی سالانه (VO)؛
حساب های دریافتنی (VD)؛
هزینه دارایی های ثابت (COF).

علاوه بر این، پارامتر معوقه دستمزد شرکت (V3 P) به هزار دلار آمریکا استفاده می شود.

راه حل با استفاده از پردازشگر صفحه گسترده اکسل

اول از همه، شما باید یک جدول از داده های منبع ایجاد کنید. به نظر می رسد این است:

با پنجره "تحلیل داده ها" تماس بگیرید.
بخش "Regression" را انتخاب کنید؛
در کادر "فاصله ورودی Y"، محدوده مقادیر متغیرهای وابسته را از ستون G وارد کنید.
روی نماد با یک فلش قرمز در سمت راست پنجره "Input interval X" کلیک کنید و دامنه همه مقادیر از ستون های B، C، D، F را در برگه برجسته کنید.

مورد «کاربرگ جدید» را علامت بزنید و روی «تأیید» کلیک کنید.

یک تحلیل رگرسیون برای یک مسئله معین بدست آورید.

مطالعه نتایج و نتیجه گیری

ما از داده های گرد ارائه شده در بالا در صفحه جدول "جمع آوری" می کنیم پردازنده اکسلمعادله رگرسیون:

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

در یک شکل ریاضی آشناتر، می توان آن را به صورت زیر نوشت:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

داده های MMM JSC در جدول ارائه شده است:

با جایگزینی آنها در معادله رگرسیون، رقمی برابر با 64.72 میلیون دلار آمریکا بدست می آوریم. این بدان معناست که سهام MMM JSC ارزش خرید ندارد زیرا ارزش 70 میلیون دلاری آنها کاملاً متورم است.

همانطور که می بینید، استفاده از صفحه گسترده اکسل و معادله رگرسیون امکان تصمیم گیری آگاهانه در مورد امکان سنجی یک تراکنش بسیار خاص را فراهم می کند.

اکنون می دانید که رگرسیون چیست. مثال های اکسل که در بالا توضیح داده شد به شما کمک می کند تصمیم بگیرید مشکلات عملیاز رشته اقتصاد سنجی