Регресивна равенка. Равенка на повеќекратна регресија. Корелација и регресивна анализа во Excel: инструкции за извршување Кои се барањата за модел за регресивна анализа?

Регресија и корелација анализа се статистички методи на истражување. Ова се најчестите начини за прикажување на зависноста на параметар од една или повеќе независни променливи.

Подолу, користејќи конкретни практични примери, ќе ги разгледаме овие две многу популарни анализи меѓу економистите. Ќе дадеме и пример за добивање резултати при нивно комбинирање.

Регресивна анализа во Excel

Го прикажува влијанието на некои вредности (независни, независни) врз зависната променлива. На пример, како бројот на економски активно население зависи од бројот на претпријатија, платите и другите параметри. Или: како странските инвестиции, цените на енергијата итн. влијаат на нивото на БДП.

Резултатот од анализата ви овозможува да ги истакнете приоритетите. И врз основа на главните фактори, предвидете, планирајте го развојот на приоритетните области и донесувајте одлуки за управување.

Регресија се случува:

  • линеарна (y = a + bx);
  • параболичен (y = a + bx + cx 2);
  • експоненцијална (y = a * exp(bx));
  • моќност (y = a*x^b);
  • хиперболичен (y = b/x + a);
  • логаритамски (y = b * 1n(x) + a);
  • експоненцијално (y = a * b^x).

Ајде да погледнеме пример за градење на регресивен модел во Excel и толкување на резултатите. Да го земеме линеарниот тип на регресија.

Задача. Кај 6 претпријатија беа анализирани просечната месечна плата и бројот на отказни вработени. Неопходно е да се утврди зависноста на бројот на вработени кои се откажуваат од просечната плата.

Моделот на линеарна регресија изгледа вака:

Y = a 0 + a 1 x 1 +…+a k x k.

Каде што a се регресивни коефициенти, x се влијателни променливи, k е бројот на фактори.

Во нашиот пример, Y е индикатор за напуштање на вработените. Влијателен фактор се платите (x).

Excel има вградени функции кои можат да ви помогнат да ги пресметате параметрите на моделот на линеарна регресија. Но, додатокот „Пакет за анализа“ ќе го направи тоа побрзо.

Активираме моќна аналитичка алатка:

Откако ќе се активира, додатокот ќе биде достапен во картичката Податоци.

Сега да ја направиме самата регресивна анализа.



Пред сè, обрнуваме внимание на R-квадрат и коефициенти.

R-квадрат е коефициентот на определување. Во нашиот пример – 0,755, или 75,5%. Тоа значи дека пресметаните параметри на моделот објаснуваат 75,5% од односот помеѓу проучуваните параметри. Колку е поголем коефициентот на определување, толку е подобар моделот. Добро - над 0,8. Лошо – помалку од 0,5 (таквата анализа тешко може да се смета за разумна). Во нашиот пример - „не е лошо“.

Коефициентот 64,1428 покажува колку ќе биде Y ако сите променливи во моделот што се разгледува се еднакви на 0. Односно, на вредноста на анализираниот параметар влијаат и други фактори кои не се опишани во моделот.

Коефициентот -0,16285 ја покажува тежината на променливата X на Y. Односно, просечната месечна плата во рамките на овој модел влијае на бројот на отпуштања со тежина од -0,16285 (ова е мал степен на влијание). Знакот „-“ покажува лошо влијание: колку е поголема платата, толку помалку луѓе се откажуваат. Што е фер.



Анализа на корелација во Excel

Анализата на корелација помага да се утврди дали постои врска помеѓу индикаторите во еден или два примероци. На пример, помеѓу времето на работа на машината и трошоците за поправки, цената на опремата и времетраењето на работата, висината и тежината на децата итн.

Ако постои врска, тогаш дали зголемувањето на еден параметар води до зголемување (позитивна корелација) или намалување (негативно) на другиот. Анализата на корелација му помага на аналитичарот да одреди дали вредноста на еден индикатор може да се користи за да се предвиди можната вредност на друг.

Коефициентот на корелација се означува со r. Варира од +1 до -1. Класификацијата на корелации за различни области ќе биде различна. Кога коефициентот е 0, нема линеарна врска помеѓу примероците.

Ајде да погледнеме како да го пронајдеме коефициентот на корелација користејќи Excel.

За да се најдат спарени коефициенти, се користи функцијата CORREL.

Цел: Утврдете дали постои врска помеѓу времето на работа на струг и трошоците за неговото одржување.

Поставете го курсорот во која било ќелија и притиснете го копчето fx.

  1. Во категоријата „Статистика“, изберете ја функцијата CORREL.
  2. Аргумент „Низа 1“ - првиот опсег на вредности - време на работа на машината: A2:A14.
  3. Аргумент „Низа 2“ - втор опсег на вредности - цена на поправка: B2:B14. Кликнете на ОК.

За да го одредите типот на врската, треба да го погледнете апсолутниот број на коефициентот (секое поле на активност има своја скала).

За корелација на неколку параметри (повеќе од 2), попогодно е да се користи „Анализа на податоци“ (додаток „Пакет за анализа“). Треба да изберете корелација од листата и да ја назначите низата. Сите.

Добиените коефициенти ќе бидат прикажани во матрицата за корелација. Како ова:

Корелација и регресивна анализа

Во пракса, овие две техники често се користат заедно.

Пример:


Сега податоците за регресивна анализа станаа видливи.

Во текот на студирањето, студентите многу често се среќаваат со различни равенки. Еден од нив - равенката на регресија - се дискутира во овој напис. Овој тип на равенка се користи конкретно за да се опишат карактеристиките на врската помеѓу математички параметри. Овој типеднаквостите се користат во статистиката и економетријата.

Дефиниција на регресија

Во математиката, регресија значи одредена количина што ја опишува зависноста на просечната вредност на збир на податоци од вредностите на друга количина. Регресивната равенка ја покажува, како функција на одредена карактеристика, просечната вредност на друга карактеристика. Регресионата функција ја има формата едноставна равенка y = x, во која y делува како зависна променлива, а x како независна променлива (фактор-фактор). Всушност, регресијата се изразува како y = f (x).

Кои се видовите на врски помеѓу променливите?

Општо земено, постојат два спротивставени типа на односи: корелација и регресија.

Првиот се карактеризира со еднаквост на условните променливи. ВО во овој случајНе се знае со сигурност која променлива зависи од другата.

Ако не постои еднаквост меѓу променливите и условите кажуваат која променлива е објаснувачка, а која зависна, тогаш можеме да зборуваме за присуство на врска од вториот тип. За да се изгради линеарна регресивна равенка, ќе биде неопходно да се открие каков тип на врска е забележан.

Видови регресии

Денес, постојат 7 различни типови на регресија: хиперболична, линеарна, повеќекратна, нелинеарна, парна, инверзна, логаритамски линеарна.

Хиперболичен, линеарен и логаритамски

Линеарната регресивна равенка се користи во статистиката за јасно објаснување на параметрите на равенката. Изгледа како y = c+t*x+E. Хиперболичната равенка има форма на правилна хипербола y = c + m / x + E. Логаритмски линеарната равенка ја изразува врската користејќи логаритамска функција: Во y = Во c + m * Во x + Во E.

Повеќекратни и нелинеарни

Уште две комплексни типовиРегресијата е повеќекратна и нелинеарна. Равенката на повеќекратна регресија се изразува со функцијата y = f(x 1, x 2 ... x c) + E. Во оваа ситуација, y делува како зависна променлива, а x делува како објаснувачка променлива. Променливата Е е стохастичка, таа го вклучува влијанието на другите фактори во равенката. Нелинеарната регресивна равенка е малку контроверзна. Од една страна, во однос на земените индикатори, тој не е линеарен, но од друга страна, во улога на оценувачки индикатори, тој е линеарен.

Инверзни и спарени типови на регресии

Инверзна е тип на функција која треба да се претвори во линеарна форма. Во најтрадиционалните апликативни програмиима форма на функција y = 1/c + m*x+E. Равенката за регресија во пар ја покажува врската помеѓу податоците како функција од y = f (x) + E. Исто како и во другите равенки, y зависи од x, а E е стохастички параметар.

Концепт на корелација

Ова е показател што покажува постоење на врска помеѓу два феномени или процеси. Јачината на врската се изразува како коефициент на корелација. Неговата вредност флуктуира во интервалот [-1;+1]. Негативен индикатор укажува на присуство повратни информации, позитивно - за права линија. Ако коефициентот земе вредност еднаква на 0, тогаш нема врска. Колку е поблиску вредноста до 1, толку е посилна врската помеѓу параметрите; колку е поблиску до 0, толку е послаба.

Методи

Корелационите параметарски методи можат да ја проценат силата на врската. Тие се користат врз основа на проценката на дистрибуцијата за проучување на параметрите кои го почитуваат законот за нормална дистрибуција.

Параметрите на линеарната регресивна равенка се неопходни за да се идентификува типот на зависност, функцијата на регресивната равенка и да се проценат индикаторите на избраната формула за врска. Полето за корелација се користи како метод за идентификација на врската. За да го направите ова, сите постоечки податоци мора да бидат графички прикажани. Сите познати податоци мора да бидат нацртани во правоаголен дводимензионален координатен систем. Така се формира корелационо поле. Вредностите на опишувачкиот фактор се означени по оската на апсцисата, додека вредностите на зависниот фактор се означени по должината на оската на ординатите. Доколку постои функционална врска помеѓу параметрите, тие се редат во форма на линија.

Ако коефициентот на корелација на таквите податоци е помал од 30%, можеме да зборуваме за речиси целосно отсуство на врска. Ако е помеѓу 30% и 70%, тогаш ова укажува на присуство на средно-блиски врски. 100% индикатор е доказ за функционална врска.

Нелинеарната регресивна равенка, исто како и линеарната, мора да биде дополнета со индекс на корелација (R).

Корелација за повеќекратна регресија

Коефициентот на определување е показател за квадратот на повеќекратна корелација. Тој зборува за блиската врска на претставениот сет на индикатори со карактеристиката што се проучува. Може да зборува и за природата на влијанието на параметрите врз резултатот. Равенката на повеќекратна регресија се проценува со помош на овој индикатор.

За да се пресмета индикаторот за повеќекратна корелација, неопходно е да се пресмета неговиот индекс.

Метод на најмал квадрат

Овој метод е начин да се проценат факторите на регресија. Нејзината суштина е да се минимизира збирот на квадратни отстапувања добиени како резултат на зависноста на факторот од функцијата.

Линеарна регресивна равенка во пар може да се процени со користење на таков метод. Овој тип на равенки се користи кога ќе се открие спарена линеарна врска помеѓу индикаторите.

Параметри на равенката

Секој параметар на линеарната регресивна функција има специфично значење. Спарената линеарна регресивна равенка содржи два параметри: c и m. Параметарот m ја демонстрира просечната промена на крајниот индикатор на функцијата y, под услов променливата x да се намали (зголеми) за една конвенционална единица. Ако променливата x е нула, тогаш функцијата е еднаква на параметарот c. Ако променливата x не е нула, тогаш факторот c не носи економско значење. Единствено влијание врз функцијата е знакот пред факторот c. Ако има минус, тогаш можеме да кажеме дека промената на резултатот е бавна во споредба со факторот. Ако има плус, тогаш ова укажува на забрзана промена во резултатот.

Секој параметар кој ја менува вредноста на регресивната равенка може да се изрази преку равенка. На пример, факторот c има форма c = y - mx.

Групирани податоци

Постојат услови за задачи во кои сите информации се групирани по атрибут x, но за одредена група се означени соодветните просечни вредности на зависниот индикатор. Во овој случај, просечните вредности го карактеризираат како се менува индикаторот во зависност од x. Така, групираните информации помагаат да се најде регресивната равенка. Се користи како анализа на односите. Сепак, овој метод има свои недостатоци. За жал, просечните индикатори често се предмет на надворешни флуктуации. Овие флуктуации не го одразуваат моделот на врската; тие само ја маскираат нејзината „шум“. Просеците покажуваат шеми на врска многу полоши од равенката на линеарна регресија. Сепак, тие можат да се користат како основа за наоѓање равенка. Со множење на бројот на поединечно население со соодветниот просек, може да се добие збирот y во групата. Следно, треба да ги соберете сите примени износи и да го пронајдете конечниот индикатор y. Малку потешко е да се прават пресметки со индикаторот за збир xy. Ако интервалите се мали, можеме условно да земеме дека индикаторот x за сите единици (во групата) е ист. Треба да го помножите со збирот од y за да го дознаете збирот на производите од x и y. Следно, сите износи се собираат заедно и се добива вкупниот износ xy.

Равенка за регресија во повеќе парови: проценка на важноста на врската

Како што беше дискутирано претходно, повеќекратната регресија има функција од формата y = f (x 1,x 2,…,x m)+E. Најчесто, ваквата равенка се користи за решавање на проблемот на понудата и побарувачката на производ, приходите од камати на откупените акции и за проучување на причините и видот на функцијата на трошоците на производството. Исто така, активно се користи во широк спектар на макроекономски студии и пресметки, но на микроекономско ниво оваа равенка се користи малку поретко.

Главната задача на повеќекратната регресија е да се изгради модел на податоци кој содржи огромна количина на информации со цел дополнително да се утврди какво влијание има секој од факторите поединечно и во нивното општата популацијана индикаторот што треба да се моделира и неговите коефициенти. Регресивната равенка може да добие широк спектар на вредности. Во овој случај, за да се процени врската, обично се користат два типа на функции: линеарни и нелинеарни.

Линеарната функција е прикажана во форма на следнава врска: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Во овој случај, a2, a m се сметаат за „чисти“ регресивни коефициенти. Тие се неопходни за да се карактеризира просечната промена на параметарот y со промена (намалување или зголемување) на секој соодветен параметар x за една единица, со услов за стабилни вредности на други индикатори.

Нелинеарните равенки имаат, на пример, форма на функција на моќност y=ax 1 b1 x 2 b2 ...x m bm. Во овој случај, индикаторите b 1, b 2 ..... b m се нарекуваат коефициенти на еластичност, тие покажуваат како резултатот ќе се промени (за колку%) со зголемување (намалување) на соодветниот индикатор x за 1% и со стабилен показател за други фактори.

Кои фактори треба да се земат предвид при конструирање на повеќекратна регресија

За правилно да се изгради повеќекратна регресија, неопходно е да се открие на кои фактори треба да се посвети посебно внимание.

Неопходно е да се има одредено разбирање за природата на односите помеѓу економските фактори и она што се моделира. Факторите што ќе треба да се вклучат мора да ги исполнуваат следниве критериуми:

  • Мора да биде предмет на квантитативно мерење. За да се користи фактор кој го опишува квалитетот на објектот, во секој случај треба да му се даде квантитативна форма.
  • Не треба да има меѓусебна корелација на фактори или функционална врска. Ваквите постапки најчесто доведуваат до неповратни последици - системот на обични равенки станува безусловен, а тоа повлекува негова неверодостојност и нејасни проценки.
  • Во случај на огромен индикатор за корелација, не постои начин да се дознае изолираното влијание на факторите врз конечниот резултат на индикаторот, затоа, коефициентите стануваат нетолкливи.

Конструктивни методи

Има огромен број методи и методи кои објаснуваат како можете да изберете фактори за равенка. Сепак, сите овие методи се засноваат на избор на коефициенти со помош на индикатор за корелација. Меѓу нив се:

  • Метод на елиминација.
  • Метод на префрлување.
  • Степен регресивна анализа.

Првиот метод вклучува филтрирање на сите коефициенти од вкупниот сет. Вториот метод вклучува воведување на многу дополнителни фактори. Па, третата е елиминација на факторите кои претходно беа користени за равенката. Секој од овие методи има право да постои. Тие имаат свои добрите и лошите страни, но сите тие можат да го решат прашањето за елиминирање на непотребните индикатори на свој начин. Како по правило, резултатите добиени со секој поединечен метод се прилично блиски.

Методи на мултиваријантна анализа

Ваквите методи за одредување фактори се засноваат на разгледување на поединечни комбинации на меѓусебно поврзани карактеристики. Тие вклучуваат дискриминаторска анализа, препознавање на обликот, анализа на главна компонента и анализа на кластери. Покрај тоа, постои и факторска анализа, но таа се појави поради развојот на методот на компоненти. Сите тие се применуваат во одредени околности, предмет на одредени услови и фактори.

Регресивната анализа е метод за воспоставување на аналитички израз за стохастичката зависност помеѓу карактеристиките што се испитуваат. Регресивната равенка покажува како се менува просекот напри промена на која било од x јас , и има форма:

Каде y -зависна променлива (секогаш е иста);

X јас - независни променливи (фактори) (може да има неколку од нив).

Ако има само една независна променлива, ова е едноставна регресивна анализа. Ако има неколку од нив ( П 2), тогаш таквата анализа се нарекува мултифакторијална.

Регресивната анализа решава два главни проблеми:

    конструирање на регресивна равенка, т.е. наоѓање на видот на врската помеѓу индикаторот за резултат и независните фактори x 1 , x 2 , …, x n .

    проценка на значајноста на добиената равенка, т.е. одредување колку избраните фактори на фактори ја објаснуваат варијацијата на особина u.

Регресивната анализа се користи главно за планирање, како и за развој на регулаторна рамка.

За разлика од корелациската анализа, која само одговара на прашањето дали постои врска помеѓу анализираните карактеристики, регресивната анализа го дава и својот формализиран израз. Дополнително, ако анализата на корелација проучува каква било врска помеѓу факторите, тогаш регресивната анализа ја проучува едностраната зависност, т.е. однос кој покажува како промената на факторските карактеристики влијае на ефективната карактеристика.

Регресивната анализа е еден од најразвиените методи на математичка статистика. Строго кажано, за спроведување на регресивна анализа потребно е да се исполнат голем број посебни барања (особено, xл , x 2 ,..., x n ;yмора да бидат независни, нормално распределени случајни променливи со постојани варијанси). ВО вистински животстрогото усогласување со барањата за регресивна и корелација анализа е многу ретко, но и двата од овие методи се многу чести во економските истражувања. Зависностите во економијата можат да бидат не само директни, туку и инверзни и нелинеарни. Регресивен модел може да се изгради во присуство на каква било зависност, меѓутоа, во мултиваријатната анализа се користат само линеарни модели на формата:

Регресивната равенка обично се конструира со користење на методот најмали квадрати, чија суштина е да се минимизира збирот на квадратни отстапувања на вистинските вредности на добиената карактеристика од нејзините пресметани вредности, т.е.

Каде Т -број на набљудувања;

ј =a+b 1 x 1 ј 2 x 2 ј + ... + б n X n ј - пресметана вредност на факторот резултат.

Се препорачува да се одредат коефициентите на регресија користејќи аналитички пакети за персонален компјутер или специјален финансиски калкулатор. Во наједноставниот случај, коефициентите на регресија на униваријатот линеарна равенкарегресии на формата y = a + bxможе да се најде со помош на формулите:

Кластерска анализа

Кластерска анализа е еден од методите на повеќедимензионална анализа наменета за групирање (групирање) популација чии елементи се карактеризираат со многу карактеристики. Вредностите на секоја карактеристика служат како координати на секоја единица од популацијата што се проучува во повеќедимензионалниот простор на карактеристики. Секое набљудување, кое се карактеризира со вредности на неколку индикатори, може да се претстави како точка во просторот на овие индикатори, чии вредности се сметаат како координати во повеќедимензионален простор. Растојание помеѓу точките РИ qСо ккоординатите се дефинираат како:

Главниот критериум за кластерирање е дека разликите помеѓу кластерите треба да бидат позначајни отколку помеѓу набљудувањата доделени на истиот кластер, т.е. во повеќедимензионален простор мора да се набљудува следната нееднаквост:

Каде р 1, 2 - растојание помеѓу кластерите 1 и 2.

Исто како и процедурите за регресивна анализа, постапката за кластерирање е доста трудоинтензивна, препорачливо е да се изврши на компјутер.

Главната цел на регресивната анализасе состои во определување на аналитичката форма на комуникација во која промената на ефективната карактеристика се должи на влијанието на еден или повеќе факторски карактеристики, а збирот на сите други фактори кои исто така влијаат на ефективната карактеристика се земаат како константни и просечни вредности.
Проблеми со регресивна анализа:
а) Воспоставување на форма на зависност. Во однос на природата и формата на односот меѓу појавите, се прави разлика помеѓу позитивна линеарна и нелинеарна и негативна линеарна и нелинеарна регресија.
б) Определување на функцијата на регресија во форма на математичка равенка од еден или друг тип и утврдување на влијанието на објаснувачките променливи врз зависната променлива.
в) Проценка на непознати вредности на зависната променлива. Користејќи ја функцијата за регресија, можете да ги репродуцирате вредностите на зависната променлива во интервалот на наведените вредности на објаснувачките променливи (т.е. да го решите проблемот со интерполација) или да го оцените текот на процесот надвор од наведениот интервал (т.е. реши проблемот со екстраполација). Резултатот е проценка на вредноста на зависната променлива.

Спарената регресија е равенка за врската помеѓу две променливи y и x: y=f(x), каде што y е зависната променлива (резултативен атрибут); x е независна објаснувачка променлива (фактор-фактор).

Постојат линеарни и нелинеарни регресии.
Линеарна регресија: y = a + bx + ε
Нелинеарните регресии се поделени во две класи: регресии кои се нелинеарни во однос на објаснувачките променливи вклучени во анализата, но линеарни во однос на проценетите параметри и регресии кои се нелинеарни во однос на проценетите параметри.
Регресии кои се нелинеарни во објаснувачките променливи:

Регресии кои се нелинеарни во однос на параметрите што се проценуваат:

  • моќност y=a x b ε
  • експоненцијална y=a b x ε
  • експоненцијална y=e a+b x ε
Конструирањето на регресивна равенка се сведува на проценка на нејзините параметри. За да се проценат параметрите на регресиите линеарни во параметри, се користи методот на најмали квадрати (OLS). Методот на најмали квадрати овозможува да се добијат такви проценки на параметрите при кои збирот на квадратните отстапувања на вистинските вредности на добиената карактеристика y од теоретската y x е минимална, т.е.
.
За линеарни и нелинеарни равенки сведени на линеарни, следниот систем е решен за a и b:

Можете да користите готови формули што следат од овој систем:

Блискоста на врската помеѓу феномените што се проучуваат се проценува со коефициентот на корелација на линеарни парови r xy за линеарна регресија (-1≤r xy ≤1):

и индекс на корелација p xy - за нелинеарна регресија (0≤p xy ≤1):

Квалитетот на конструираниот модел ќе се оценува со коефициентот (индексот) на определување, како и просечната грешка на приближување.
Просечна грешка при приближување - просечно отстапување на пресметаните вредности од вистинските:
.
Дозволената граница на вредностите А не е поголема од 8-10%.
Просечниот коефициент на еластичност Е покажува за колкав процент во просек вкупниот резултат ќе се промени од неговиот просечна големинакога факторот x се менува за 1% од неговата просечна вредност:
.

Целта на анализата на варијансата е да се анализира варијансата на зависната променлива:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
каде што ∑(y-y)² е вкупниот збир на квадратни отстапувања;
∑(y x -y)² - збир на квадратни отстапувања поради регресија („објаснето“ или „факториелно“);
∑(y-y x)² - резидуален збир на квадратни отстапувања.
Уделот на варијансата објаснет со регресија во вкупната варијанса на резултантната карактеристика y се карактеризира со коефициентот (индексот) на определување R2:

Коефициентот на определување е квадратот на коефициентот или индексот на корелација.

F-тестот - оценување на квалитетот на регресивната равенка - се состои од тестирање на хипотезата бр за статистичката незначајност на регресивната равенка и индикаторот за блискост на врската. За да го направите ова, се прави споредба помеѓу вистинскиот факт F и критичните (табеларни) вредности на табелата F на критериумот Fisher F. F факт се одредува од односот на вредностите на факторот и резидуални варијанси, дизајниран за еден степен на слобода:
,
каде n е бројот на единици на население; m е бројот на параметри за променливите x.
Табела F е максималната можна вредност на критериумот под влијание на случајни фактори при дадени степени на слобода и ниво на значајност a. Нивото на значајност a е веројатноста за отфрлање на точната хипотеза, под услов да е вистинита. Обично a се зема еднакво на 0,05 или 0,01.
Ако F табела< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F факт, тогаш хипотезата H o не се отфрла и се препознава статистичката безначајност и неверодостојност на регресивната равенка.
За да се процени статистичката значајност на коефициентите на регресија и корелација, се пресметуваат студентски т-тест и интервали на доверба за секој индикатор. Се поставува хипотеза за случајната природа на индикаторите, т.е. за нивната незначителна разлика од нула. Оценувањето на значајноста на коефициентите на регресија и корелација со помош на Студентскиот t-тест се врши со споредување на нивните вредности со големината на случајната грешка:
; ; .
Случајните грешки на параметрите на линеарна регресија и коефициентот на корелација се одредуваат со формулите:



Споредувајќи ги вистинските и критичните (табеларни) вредности на t-статистика - t табела и t факт - ја прифаќаме или отфрламе хипотезата H o.
Врската помеѓу Fisher F-тестот и Student t-статистиката се изразува со еднаквоста

Ако т табела< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t е факт дека хипотезата H o не е отфрлена и се препознава случајната природа на формирањето на a, b или r xy.
За да го пресметаме интервалот на доверба, ја одредуваме максималната грешка D за секој индикатор:
Δ a =t табела m a , Δ b =t табела m b .
Формулите за пресметување на интервали на доверба се како што следува:
γ a =aΔ a ; γ a =a-Δ a ; γ a =a+Δa
γ b =bΔ b ; γ b =b-Δ b; γ b =b+Δ b
Ако нулата спаѓа во интервалот на доверба, т.е. Ако долната граница е негативна, а горната граница е позитивна, тогаш проценетиот параметар се зема како нула, бидејќи не може истовремено да земе и позитивни и негативни вредности.
Вредноста на предвидувањето y p се одредува со замена на соодветната (прогнозирана) вредност x p во регресивната равенка y x =a+b·x. Просечната стандардна грешка на прогнозата m y x се пресметува:
,
Каде
и се конструира интервал на доверба за прогнозата:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y стр
каде Δ y x =t табела m y x.

Пример решение

Задача бр. 1. За седум територии на регионот на Урал во 199X година, познати се вредностите на две карактеристики.
Табела 1.

Потребно: 1. За да ја карактеризирате зависноста на y од x, пресметајте ги параметрите на следните функции:
а) линеарна;
б) моќност (прво мора да се изврши постапката на линеаризација на променливите со земање на логаритам на двата дела);
в) демонстративна;
г) рамностран хипербола (исто така треба да сфатите како да го прелинеаризирате овој модел).
2. Оценете го секој модел преку просечната грешка на приближување А и Фишеровиот тест F.

Решение (Опција бр. 1)

Да се ​​пресметаат параметрите a и b од линеарна регресија y=a+b·x (пресметувањето може да се направи со помош на калкулатор).
реши систем на нормални равенки за АИ б:
Користејќи ги почетните податоци, пресметуваме ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x 2 y 2 y xy-y xА и
л68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Вкупно405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ср. значење (Вкупно/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
с 5,74 5,86 XXXXXX
и 232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Регресивна равенка: y = 76,88 - 0,35X.Со зголемување на просечната дневна плата за 1 руб. учеството на трошоците за набавка на прехранбени производи се намалува во просек за 0,35 процентни поени.
Да го пресметаме коефициентот на корелација на линеарни парови:

Врската е умерена, инверзна.
Да го одредиме коефициентот на определување: r² xy =(-0,35)=0,127
Варијацијата од 12,7% во резултатот се објаснува со варијацијата во факторот x. Замена во регресивната равенка реалните вредности X, да ги одредиме теоретските (пресметани) вредности на y x. Дозволете ни да ја најдеме вредноста на просечната приближна грешка А:

Во просек, пресметаните вредности отстапуваат од реалните за 8,1%.
Да го пресметаме критериумот F:

Добиената вредност укажува на потребата од прифаќање на хипотезата H 0 за случајната природа на идентификуваната зависност и статистичката незначајност на параметрите на равенката и индикаторот за блискост на врската.
1б.На конструкцијата на моделот на моќност y=a·x b и претходи постапката на линеаризација на променливите. Во примерот, линеаризацијата се изведува со земање логаритми од двете страни на равенката:
lg y=lg a + b lg x
Y=C+b·Y
каде што Y=log(y), X=log(x), C=log(a).

За пресметки ги користиме податоците од табелата. 1.3.
Табела 1.3

YX YX Y2 X 2 y xy-y x(y-y x)²А и
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Вкупно12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Средна вредност1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ 20,0018 0,0023 XXXXXXX

Да ги пресметаме C и b:

C=Y -b·X = 1,7605+0,298·1,7370 = 2,278126
Добиваме линеарна равенка: Y=2,278-0,298 X
Откако го извршивме неговото потенцирање, добиваме: y=10 2,278 ·x -0,298
Замена на вистинските вредности во оваа равенка X,добиваме теоретски вредности на резултатот. Врз основа на нив ќе ги пресметаме следните показатели: затегнатост на врската - индекс на корелација p xy и просечна грешка на приближување А.

Карактеристиките на моделот моќ-закон укажуваат дека тој ја опишува врската нешто подобро од линеарната функција.

. На конструкцијата на равенката на експоненцијалната крива y=a·b x и претходи постапката на линеаризација на променливите со земање на логаритам од двете страни на равенката:
log y=log a + x log b
Y=C+B x
За пресметки ги користиме податоците од табелата.

Yx Yx Y2 x 2y xy-y x(y-y x)²А и
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Вкупно12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ср. zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ 20,0018 34,339 XXXXXXX

Вредности на регресивните параметри А и ВОизнесуваше:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Добиената линеарна равенка е: Y=1,887-0,0023x. Дозволете ни да ја потенцираме добиената равенка и да ја напишеме во вообичаената форма:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Дозволете ни да ја оцениме блискоста на врската преку индексот на корелација p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Вкупно405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Средна вредност57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ 232,9476 0,000005 XX

Регресивна анализа е статистички методистражување кое ви овозможува да ја прикажете зависноста на одреден параметар од една или повеќе независни променливи. Во пред-компјутерската ера, неговата употреба беше доста тешка, особено кога станува збор за големи количини на податоци. Денес, откако научивте како да изградите регресија во Excel, можете да решите сложени статистички проблеми за само неколку минути. Подолу се конкретни примериод областа на економијата.

Видови на регресија

Самиот овој концепт беше воведен во математиката во 1886 година. Регресија се случува:

  • линеарна;
  • параболичен;
  • седатив;
  • експоненцијална;
  • хиперболичен;
  • демонстративна;
  • логаритамски.

Пример 1

Да го разгледаме проблемот со одредување на зависноста на бројот на членови на тимот кои се откажале од просечната плата во 6 индустриски претпријатија.

Задача. Кај шест претпријатија анализирана е просечната месечна плата и бројот на вработени кои доброволно се откажале. Во табеларна форма имаме:

Број на луѓе кои се откажале

Плата

30.000 рубли

35.000 рубли

40.000 рубли

45.000 рубли

50.000 рубли

55.000 рубли

60.000 рубли

За задачата да се определи зависноста на бројот на отказните работници од просечната плата во 6 претпријатија, моделот на регресија има форма на равенката Y = a 0 + a 1 x 1 +...+a k x k, каде што x i се влијателни променливи, a i се регресивните коефициенти, а k е бројот на фактори.

За овој проблем, Y е показател за отказ на вработените, а фактор што влијае е платата, која ја означуваме со X.

Користење на можностите на процесорот за табеларни пресметки Excel

На анализата на регресија во Excel мора да и претходи примена на вградени функции на постоечките табеларни податоци. Сепак, за овие цели подобро е да се користи многу корисниот додаток „Пакет за анализа“. За да го активирате ви треба:

  • од табулаторот „Датотека“ одете во делот „Опции“;
  • во прозорецот што се отвора, изберете ја линијата „Додатоци“;
  • кликнете на копчето „Оди“ што се наоѓа подолу, десно од линијата „Управување“;
  • штиклирајте го полето до името „Пакет за анализа“ и потврдете ги вашите дејства со кликнување на „Ок“.

Ако сè е направено правилно, потребното копче ќе се појави на десната страна на табулаторот „Податоци“, што се наоѓа над работниот лист на Excel.

во Excel

Сега, кога ги имаме при рака сите потребни виртуелни алатки за извршување на економетриските пресметки, можеме да почнеме да го решаваме нашиот проблем. За ова:

  • Кликнете на копчето „Анализа на податоци“;
  • во прозорецот што се отвора, кликнете на копчето „Регресија“;
  • во табулаторот што се појавува, внесете го опсегот на вредности за Y (бројот на вработени кои се откажуваат) и за X (нивните плати);
  • Ги потврдуваме нашите постапки со притискање на копчето „Ок“.

Како резултат на тоа, програмата автоматски ќе пополни нова табела со податоци за регресивна анализа. Забелешка! Excel ви овозможува рачно да ја поставите локацијата што ја претпочитате за оваа намена. На пример, може да биде истиот лист каде што се наоѓаат вредностите Y и X, или дури Нова книга, специјално дизајниран за складирање на такви податоци.

Анализа на резултатите од регресија за R-квадрат

Во Excel, податоците добиени при обработката на податоците во примерот што се разгледува имаат форма:

Пред сè, треба да обрнете внимание на вредноста на R-квадрат. Тој го претставува коефициентот на определување. Во овој пример, R-квадрат = 0,755 (75,5%), т.е., пресметаните параметри на моделот ја објаснуваат врската помеѓу параметрите што се разгледуваат за 75,5%. Колку е поголема вредноста на коефициентот на определување, толку избраниот модел е посоодветен за одредена задача. Се смета дека правилно ја опишува реалната ситуација кога вредноста на R-квадрат е над 0,8. Ако R-квадрат<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализа на шансите

Бројот 64.1428 покажува колкава ќе биде вредноста на Y ако сите променливи xi во моделот што го разгледуваме се ресетираат на нула. Со други зборови, може да се тврди дека вредноста на анализираниот параметар е под влијание и на други фактори кои не се опишани во одреден модел.

Следниот коефициент -0,16285, лоциран во ќелијата B18, ја покажува тежината на влијанието на променливата X врз Y. Тоа значи дека просечната месечна плата на вработените во рамките на моделот што се разгледува влијае на бројот на отпуштања со тежина од -0,16285, т.е. степенот на неговото влијание е сосема мал. Знакот „-“ покажува дека коефициентот е негативен. Ова е очигледно, бидејќи сите знаат дека колку е поголема платата во претпријатието, толку помалку луѓе изразуваат желба да го раскинат договорот за вработување или да дадат отказ.

Повеќекратна регресија

Овој термин се однесува на равенка на врска со неколку независни променливи од формата:

y=f(x 1 +x 2 +…x m) + ε, каде што y е резултантната карактеристика (зависна променлива), а x 1, x 2,…x m се факторски карактеристики (независни променливи).

Проценка на параметри

За повеќекратна регресија (MR), таа се спроведува со користење на методот на најмали квадрати (OLS). За линеарни равенки од формата Y = a + b 1 x 1 +…+b m x m + ε конструираме систем на нормални равенки (види подолу)

За да го разберете принципот на методот, разгледајте случај со два фактори. Тогаш имаме ситуација опишана со формулата

Од тука добиваме:

каде σ е варијансата на соодветната карактеристика рефлектирана во индексот.

OLS е применлив за MR равенката на стандардизирана скала. Во овој случај, ја добиваме равенката:

во кои t y, t x 1, ... t xm се стандардизирани променливи, за кои просечните вредности се еднакви на 0; β i се стандардизираните коефициенти на регресија, а стандардното отстапување е 1.

Ве молиме имајте предвид дека сите β i во овој случај се наведени како нормализирани и централизирани, затоа нивната споредба меѓу себе се смета за точна и прифатлива. Покрај тоа, вообичаено е да се проверат факторите со отфрлање на оние со најниски βi вредности.

Проблем со користење на линеарна регресивна равенка

Да претпоставиме дека имаме табела за динамика на цени за одреден производ N во изминатите 8 месеци. Неопходно е да се донесе одлука за препорачливоста да се купи серија од неа по цена од 1850 рубли/t.

број на месец

име на месецот

цена на производот Н

1750 рубли за тон

1755 рубли за тон

1767 рубли за тон

1760 рубли за тон

1770 рубли за тон

1790 рубли за тон

1810 рубли за тон

1840 рубли за тон

За да го решите овој проблем во процесорот за табели на Excel, треба да ја користите алатката „Анализа на податоци“, веќе позната од примерот претставен погоре. Следно, изберете го делот „Регресија“ и поставете ги параметрите. Мора да се запомни дека во полето „Влезен интервал Y“ мора да се внесе опсег на вредности за зависната променлива (во овој случај, цени за стоки во одредени месеци од годината) и во „Влезен интервал X“ - за независната променлива (број на месецот). Потврдете ја акцијата со кликнување на „Ок“. На нов лист (ако е така назначено) добиваме податоци за регресија.

Користејќи ги, конструираме линеарна равенка од формата y=ax+b, каде што параметрите a и b се коефициентите на правата со името на бројот на месецот и коефициентите и правите „Y-пресек“ од листот со резултатите од регресивната анализа. Така, линеарната регресивна равенка (LR) за задача 3 е напишана како:

Цена на производот N = 11.714* месечен број + 1727.54.

или во алгебарска нотација

y = 11,714 x + 1727,54

Анализа на резултатите

За да се одлучи дали добиената линеарна регресивна равенка е адекватна, се користат коефициентите на повеќекратна корелација (MCC) и определување, како и Fisher тестот и Student t тестот. Во табеларната табела на Excel со резултати од регресија, тие се нарекуваат повеќекратни R, R-квадратни, F-статистички и t-статистички податоци, соодветно.

KMC R овозможува да се процени блискоста на веројатната врска помеѓу независните и зависните променливи. Неговата висока вредност укажува на прилично силна врска помеѓу променливите „Број на месец“ и „Цена на производот N во рубли за 1 тон“. Сепак, природата на оваа врска останува непозната.

Квадратот на коефициентот на определување R2 (RI) е нумеричка карактеристика на пропорцијата на вкупното расејување и го покажува расејувањето на кој дел од експерименталните податоци, т.е. вредностите на зависната променлива одговараат на линеарната регресивна равенка. Во проблемот што се разгледува, оваа вредност е еднаква на 84,8%, т.е. статистичките податоци се опишани со висок степен на точност од добиената SD.

Статистиката F, наречена и Фишеров тест, се користи за да се оцени значењето на линеарната врска, побивајќи ја или потврдувајќи ја хипотезата за нејзиното постоење.

(Студентски тест) помага да се оцени значајноста на коефициентот со непознат или слободен член на линеарната врска. Ако вредноста на t-тестот > tcr, тогаш хипотезата за незначителноста на слободниот член на линеарната равенка се отфрла.

Во разгледуваниот проблем за слободниот член, со помош на алатките на Excel, добиено е дека t = 169.20903 и p = 2.89E-12, т.е., имаме нула веројатност дека точната хипотеза за незначајноста на слободниот член ќе биде отфрлена. . За коефициентот за непознатата t=5,79405, и p=0,001158. Со други зборови, веројатноста да се отфрли точната хипотеза за незначителноста на коефициентот за непозната е 0,12%.

Така, може да се тврди дека добиената линеарна регресивна равенка е адекватна.

Проблемот со изводливоста за купување на блок акции

Повеќекратна регресија во Excel се врши со користење на истата алатка за анализа на податоци. Да разгледаме специфичен проблем со апликацијата.

Раководството на компанијата ННН мора да одлучи за препорачливоста за купување на 20% од акциите во МММ АД. Цената на пакетот (СП) е 70 милиони американски долари. Специјалистите на NNN собраа податоци за слични трансакции. Одлучено е да се оцени вредноста на блокот акции според такви параметри, изразени во милиони американски долари, како што се:

  • сметки кои се плаќаат (VK);
  • годишен обем на обрт (VO);
  • побарувања (VD);
  • трошок на основни средства (COF).

Дополнително, се користи параметарот на заостанатите плати на претпријатието (V3 P) во илјадници американски долари.

Решение со помош на процесор за табеларни пресметки Excel

Пред сè, треба да креирате табела со изворни податоци. Изгледа вака:

  • повикајте го прозорецот „Анализа на податоци“;
  • изберете го делот „Регресија“;
  • Во полето „Влезен интервал Y“, внесете го опсегот на вредности на зависните променливи од колоната G;
  • Кликнете на иконата со црвена стрелка десно од прозорецот „Влезен интервал X“ и означете го опсегот на сите вредности од колоните B, C, D, F на листот.

Обележете ја ставката „Нов работен лист“ и кликнете „Во ред“.

Добијте регресивна анализа за даден проблем.

Студија на резултати и заклучоци

Ние „собираме“ од заокружените податоци претставени погоре на табеларниот лист Excel процесор, регресивна равенка:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Во попозната математичка форма, може да се напише како:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Податоците за МММ АД се прикажани во табелата:

Заменувајќи ги во равенката на регресија, добиваме бројка од 64,72 милиони американски долари. Тоа значи дека акциите на МММ АД не вредат да се купат, бидејќи нивната вредност од 70 милиони американски долари е прилично надувана.

Како што можете да видите, употребата на табеларната табела на Excel и равенката за регресија овозможија да се донесе информирана одлука во врска со изводливоста на многу специфична трансакција.

Сега знаете што е регресија. Примерите на Excel дискутирани погоре ќе ви помогнат да одлучите практични проблемиод областа на економетријата.

Споделете со пријателите или заштедете за себе:

Се вчитува...