Kontakti      O sajtu

Jednačina regresije. Jednačina višestruke regresije. Korelaciona i regresiona analiza u Excelu: uputstva za izvršenje Koji su zahtevi za model regresione analize?

Regresijska i korelaciona analiza su statističke metode istraživanja. Ovo su najčešći načini da se pokaže zavisnost parametra od jedne ili više nezavisnih varijabli.

U nastavku ćemo, koristeći konkretne praktične primjere, razmotriti ove dvije vrlo popularne analize među ekonomistima. Navest ćemo i primjer dobijanja rezultata pri njihovom kombinovanju.

Regresiona analiza u Excelu

Pokazuje uticaj nekih vrednosti (nezavisnih, nezavisnih) na zavisnu varijablu. Na primjer, kako broj ekonomski aktivnog stanovništva zavisi od broja preduzeća, plata i drugih parametara. Ili: kako strane investicije, cijene energije itd. utiču na nivo BDP-a.

Rezultat analize vam omogućava da istaknete prioritete. I na osnovu glavnih faktora predvidjeti, planirati razvoj prioritetnih oblasti i donijeti upravljačke odluke.

Regresija se dešava:

  • linearni (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolično (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Pogledajmo primjer izgradnje regresijskog modela u Excelu i interpretacije rezultata. Uzmimo linearni tip regresije.

Zadatak. U 6 preduzeća analizirana je prosječna mjesečna plata i broj zaposlenih koji su otpustili. Potrebno je utvrditi zavisnost broja zaposlenih koji napuštaju rad od prosječne plate.

Model linearne regresije izgleda ovako:

Y = a 0 + a 1 x 1 +…+a k x k.

Gdje su a koeficijenti regresije, x su utjecajne varijable, k je broj faktora.

U našem primjeru, Y je indikator napuštanja zaposlenika. Faktor uticaja su plate (x).

Excel ima ugrađene funkcije koje vam mogu pomoći da izračunate parametre modela linearne regresije. Ali dodatak “Paket analize” će to učiniti brže.

Aktiviramo moćan analitički alat:

Kada se aktivira, dodatak će biti dostupan na kartici Podaci.

Sada uradimo samu regresijsku analizu.



Prije svega, obraćamo pažnju na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru – 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju 75,5% odnosa između proučavanih parametara. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše – manje od 0,5 (ovakva analiza se teško može smatrati razumnom). U našem primjeru – “nije loše”.

Koeficijent 64.1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatraju jednake 0. Odnosno, na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u modelu.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plata u okviru ovog modela utiče na broj onih koji odustaju sa ponderom od -0,16285 (ovo je mali stepen uticaja). Znak "-" označava loš uticaj: što je veća plata, manje ljudi daje otkaz. Što je pošteno.



Analiza korelacije u Excel-u

Korelaciona analiza pomaže da se utvrdi da li postoji veza između indikatora u jednom ili dva uzorka. Na primjer, između vremena rada mašine i troškova popravki, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji veza, da li povećanje jednog parametra dovodi do povećanja (pozitivna korelacija) ili smanjenja (negativno) drugog. Korelaciona analiza pomaže analitičaru da utvrdi da li se vrednost jednog indikatora može koristiti za predviđanje moguće vrednosti drugog.

Koeficijent korelacije je označen sa r. Varira od +1 do -1. Klasifikacija korelacija za različita područja bit će različita. Kada je koeficijent 0, ne postoji linearna veza između uzoraka.

Pogledajmo kako pronaći koeficijent korelacije koristeći Excel.

Za pronalaženje uparenih koeficijenata koristi se CORREL funkcija.

Cilj: Utvrditi postoji li veza između vremena rada tokarilice i troškova njenog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite dugme fx.

  1. U kategoriji “Statistički” odaberite funkciju CORREL.
  2. Argument “Niz 1” - prvi raspon vrijednosti – vrijeme rada mašine: A2:A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - cijena popravke: B2:B14. Kliknite OK.

Da biste odredili vrstu veze, potrebno je pogledati apsolutni broj koeficijenta (svako polje aktivnosti ima svoju skalu).

Za korelacione analize nekoliko parametara (više od 2) pogodnije je koristiti „Analizu podataka“ (dodatak „Paket analize“). Potrebno je da izaberete korelaciju sa liste i odredite niz. Sve.

Dobijeni koeficijenti će biti prikazani u korelacionoj matrici. Volim ovo:

Korelaciona i regresiona analiza

U praksi se ove dvije tehnike često koriste zajedno.

primjer:


Sada su podaci regresione analize postali vidljivi.

Tokom studija studenti se vrlo često susreću sa raznim jednačinama. Jedna od njih - jednačina regresije - razmatra se u ovom članku. Ova vrsta jednadžbe se koristi posebno za opisivanje karakteristika odnosa između matematičkih parametara. Ovaj tip jednakosti se koriste u statistici i ekonometriji.

Definicija regresije

U matematici, regresija označava određenu veličinu koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Jednačina regresije pokazuje, kao funkciju određene karakteristike, prosječnu vrijednost druge karakteristike. Funkcija regresije ima oblik jednostavna jednačina y = x, u kojoj y djeluje kao zavisna varijabla, a x kao nezavisna varijabla (faktor karakteristika). U stvari, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli?

Općenito, postoje dvije suprotne vrste odnosa: korelacija i regresija.

Prvi karakteriše jednakost uslovnih varijabli. IN u ovom slučaju Ne zna se sa sigurnošću koja varijabla zavisi od druge.

Ako ne postoji jednakost između varijabli i uvjeti govore koja varijabla je eksplanatorna, a koja zavisna, onda možemo govoriti o prisutnosti veze drugog tipa. Da bi se konstruisala jednačina linearne regresije, biće potrebno saznati kakav se tip odnosa posmatra.

Vrste regresija

Danas postoji 7 različitih tipova regresije: hiperbolička, linearna, višestruka, nelinearna, parna, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednačina linearne regresije se koristi u statistici za jasno objašnjenje parametara jednačine. Izgleda kao y = c+t*x+E. Hiperbolična jednačina ima oblik regularne hiperbole y = c + m / x + E. Logaritamski linearna jednačina izražava odnos pomoću logaritamske funkcije: In y = In c + m * In x + In E.

Višestruki i nelinearni

Još dva složene vrste Regresija je višestruka i nelinearna. Jednačina višestruke regresije izražava se funkcijom y = f(x 1, x 2 ... x c) + E. U ovoj situaciji, y djeluje kao zavisna varijabla, a x djeluje kao varijabla koja objašnjava. E varijabla je stohastička i uključuje utjecaj drugih faktora u jednačini. Jednačina nelinearne regresije je pomalo kontroverzna. S jedne strane, u odnosu na indikatore koji se uzimaju u obzir, nije linearan, ali s druge strane, u ulozi indikatora ocjenjivanja je linearan.

Inverzne i uparene vrste regresija

Inverzna je vrsta funkcije koju treba pretvoriti u linearni oblik. U najtradicionalnijem aplikativni programi ima oblik funkcije y = 1/c + m*x+E. Jednačina parne regresije pokazuje odnos između podataka kao funkcije y = f (x) + E. Kao iu drugim jednadžbama, y ​​ovisi o x, a E je stohastički parametar.

Koncept korelacije

Ovo je indikator koji pokazuje postojanje veze između dva fenomena ili procesa. Jačina veze se izražava kao koeficijent korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan indikator ukazuje na prisustvo povratne informacije, pozitivno - o pravoj liniji. Ako koeficijent ima vrijednost jednaku 0, onda nema veze. Što je vrijednost bliža 1, to je jača veza između parametara; što je bliža 0, to je slabija.

Metode

Korelacione parametarske metode mogu proceniti snagu veze. Koriste se na osnovu procjene distribucije za proučavanje parametara koji se pridržavaju zakona normalne distribucije.

Parametri jednačine linearne regresije su neophodni za identifikaciju tipa zavisnosti, funkciju jednačine regresije i procenu indikatora izabrane formule odnosa. Korelaciono polje se koristi kao metoda identifikacije veze. Da biste to učinili, svi postojeći podaci moraju biti grafički prikazani. Svi poznati podaci moraju biti ucrtani u pravougaoni dvodimenzionalni koordinatni sistem. Tako se formira korelaciono polje. Vrijednosti opisnog faktora su označene duž apscisne ose, dok su vrijednosti zavisnog faktora označene duž ordinatne ose. Ako postoji funkcionalni odnos između parametara, oni su poređani u obliku linije.

Ako je koeficijent korelacije takvih podataka manji od 30%, možemo govoriti o gotovo potpunom odsustvu povezanosti. Ako je između 30% i 70%, onda to ukazuje na prisustvo srednje bliskih veza. 100% indikator je dokaz funkcionalne veze.

Jednačina nelinearne regresije, baš kao i linearna, mora biti dopunjena indeksom korelacije (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je pokazatelj kvadrata višestruke korelacije. On govori o bliskoj povezanosti prikazanog skupa indikatora sa karakteristikom koja se proučava. Takođe se može govoriti o prirodi uticaja parametara na rezultat. Jednačina višestruke regresije se procjenjuje korištenjem ovog indikatora.

Da bi se izračunao indikator višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način za procjenu faktora regresije. Njegova je suština minimizirati sumu kvadrata odstupanja dobivenih kao rezultat ovisnosti faktora o funkciji.

Jednadžba linearne regresije u paru može se procijeniti pomoću takve metode. Ova vrsta jednadžbi se koristi kada se otkrije upareni linearni odnos između indikatora.

Parametri jednačine

Svaki parametar funkcije linearne regresije ima specifično značenje. Uparena jednačina linearne regresije sadrži dva parametra: c i m. Parametar m pokazuje prosječnu promjenu konačnog indikatora funkcije y, pod uslovom da se varijabla x smanji (poveća) za jednu konvencionalnu jedinicu. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, onda faktor c nema ekonomsko značenje. Jedini uticaj na funkciju je znak ispred faktora c. Ako postoji minus, onda možemo reći da je promjena rezultata spora u odnosu na faktor. Ako postoji plus, onda to ukazuje na ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost jednačine regresije može se izraziti kroz jednačinu. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje uvjeti zadatka u kojima su sve informacije grupirane po atributu x, ali za određenu grupu su naznačene odgovarajuće prosječne vrijednosti zavisnog indikatora. U ovom slučaju, prosječne vrijednosti karakteriziraju kako se indikator mijenja ovisno o x. Dakle, grupisane informacije pomažu u pronalaženju regresijske jednačine. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosječni pokazatelji su često podložni vanjskim fluktuacijama. Ove fluktuacije ne odražavaju obrazac odnosa; one samo maskiraju njegovu „buku“. Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem broja pojedinačne populacije sa odgovarajućim prosjekom, može se dobiti zbir y unutar grupe. Zatim morate zbrojiti sve primljene iznose i pronaći konačni pokazatelj y. Malo je teže izvršiti proračune sa indikatorom zbira xy. Ako su intervali mali, možemo uslovno uzeti indikator x za sve jedinice (unutar grupe) da je isti. Trebali biste ga pomnožiti sa zbirom y da biste saznali zbir proizvoda x i y. Zatim se svi iznosi sabiraju i dobije se ukupan iznos xy.

Jednačina višestruke parne regresije: procjena važnosti veze

Kao što je ranije objašnjeno, višestruka regresija ima funkciju oblika y = f (x 1,x 2,…,x m)+E. Najčešće se ovakva jednadžba koristi za rješavanje problema ponude i potražnje za proizvodom, prihoda od kamata na otkupljene dionice, te za proučavanje uzroka i vrste funkcije troškova proizvodnje. Takođe se aktivno koristi u širokom spektru makroekonomskih studija i proračuna, ali na nivou mikroekonomije ova jednačina se koristi nešto rjeđe.

Glavni zadatak višestruke regresije je da izgradi model podataka koji sadrži ogromnu količinu informacija kako bi se dalje utvrdilo kakav uticaj ima svaki od faktora pojedinačno i na svoj opšta populacija na indikator koji treba modelirati i njegove koeficijente. Jednačina regresije može poprimiti širok raspon vrijednosti. U ovom slučaju, za procjenu odnosa, obično se koriste dvije vrste funkcija: linearne i nelinearne.

Linearna funkcija je prikazana u obliku sljedećeg odnosa: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. U ovom slučaju, a2, a m se smatraju “čistim” koeficijentom regresije. Oni su neophodni za karakterizaciju prosječne promjene parametra y sa promjenom (smanjenjem ili povećanjem) svakog odgovarajućeg parametra x za jednu jedinicu, uz uvjet stabilnih vrijednosti ostalih indikatora.

Nelinearne jednadžbe imaju, na primjer, oblik funkcije stepena y=ax 1 b1 x 2 b2 ...x m bm. U ovom slučaju, indikatori b 1, b 2 ..... b m nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg indikatora x za 1% i sa stabilnim pokazateljem drugih faktora.

Koje faktore treba uzeti u obzir pri konstruisanju višestruke regresije

Da bi se pravilno izgradila višestruka regresija, potrebno je saznati na koje faktore treba obratiti posebnu pažnju.

Neophodno je imati određeno razumijevanje prirode odnosa između ekonomskih faktora i onoga što se modelira. Faktori koji će se morati uključiti moraju ispunjavati sljedeće kriterije:

  • Mora biti predmet kvantitativnog mjerenja. Da bi se koristio faktor koji opisuje kvalitetu nekog objekta, u svakom slučaju mu treba dati kvantitativni oblik.
  • Ne bi trebalo postojati međusobna povezanost faktora ili funkcionalni odnos. Takve radnje najčešće dovode do nepovratnih posljedica - sistem običnih jednačina postaje bezuvjetan, a to podrazumijeva njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog korelacionog indikatora, ne postoji način da se sazna izolovani uticaj faktora na krajnji rezultat indikatora, stoga koeficijenti postaju neinterpretljivi.

Metode izgradnje

Postoji ogroman broj metoda i metoda koje objašnjavaju kako možete odabrati faktore za jednadžbu. Međutim, sve ove metode se zasnivaju na odabiru koeficijenata pomoću indikatora korelacije. Među njima su:

  • Metoda eliminacije.
  • Metoda prebacivanja.
  • Postepena regresiona analiza.

Prva metoda uključuje filtriranje svih koeficijenata iz ukupnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su prethodno korišteni za jednačinu. Svaka od ovih metoda ima pravo na postojanje. Oni imaju svoje prednosti i nedostatke, ali svi mogu na svoj način riješiti pitanje eliminacije nepotrebnih indikatora. U pravilu, rezultati dobiveni svakom pojedinačnom metodom su prilično bliski.

Metode multivarijantne analize

Takve metode za određivanje faktora zasnivaju se na razmatranju pojedinačnih kombinacija međusobno povezanih karakteristika. To uključuje diskriminantnu analizu, prepoznavanje oblika, analizu glavnih komponenti i analizu klastera. Osim toga, postoji i faktorska analiza, ali se pojavila zbog razvoja komponentne metode. Sve se primjenjuju u određenim okolnostima, pod određenim uvjetima i faktorima.

Regresiona analiza je metoda uspostavljanja analitičkog izraza za stohastičku zavisnost između ispitivanih karakteristika. Jednačina regresije pokazuje kako se prosjek mijenja at prilikom promjene bilo kojeg od x i , i ima oblik:

Gdje y - zavisna varijabla (uvijek je ista);

X i - nezavisne varijable (faktori) (može ih biti nekoliko).

Ako postoji samo jedna nezavisna varijabla, ovo je jednostavna regresijska analiza. Ako ih ima nekoliko ( P 2), onda se takva analiza naziva multifaktorska.

Regresiona analiza rješava dva glavna problema:

    konstruisanje regresione jednačine, tj. pronalaženje vrste odnosa između indikatora rezultata i nezavisnih faktora x 1 , x 2 , …, x n .

    procjenu značaja rezultirajuće jednačine, tj. određivanje u kojoj meri odabrane faktorske karakteristike objašnjavaju varijaciju osobine u.

Regresiona analiza se koristi uglavnom za planiranje, kao i za razvoj regulatornog okvira.

Za razliku od korelacione analize, koja samo odgovara na pitanje da li postoji veza između analiziranih karakteristika, regresiona analiza daje i njen formalizovani izraz. Osim toga, ako korelaciona analiza proučava bilo kakav odnos između faktora, onda regresiona analiza proučava jednostranu zavisnost, tj. odnos koji pokazuje kako promjena karakteristika faktora utiče na efektivnu karakteristiku.

Regresiona analiza je jedna od najrazvijenijih metoda matematičke statistike. Strogo govoreći, za implementaciju regresione analize potrebno je ispuniti niz posebnih zahtjeva (posebno, x l ,x 2 ,...,x n ;y moraju biti nezavisne, normalno raspoređene slučajne varijable sa konstantnim varijacijama). IN pravi zivot striktno poštovanje zahtjeva regresione i korelacijske analize je vrlo rijetko, ali su obje ove metode vrlo česte u ekonomskim istraživanjima. Zavisnosti u ekonomiji mogu biti ne samo direktne, već i inverzne i nelinearne. Regresijski model se može izgraditi u prisustvu bilo koje zavisnosti, međutim, u multivarijantnoj analizi koriste se samo linearni modeli oblika:

Regresijska jednadžba se obično konstruira korištenjem metode najmanjih kvadrata, čija je suština minimizirati zbroj kvadrata odstupanja stvarnih vrijednosti rezultirajuće karakteristike od njenih izračunatih vrijednosti, tj.:

Gdje T - broj zapažanja;

j =a+b 1 x 1 j + b 2 x 2 j + ... + b n X n j - izračunata vrijednost faktora rezultata.

Preporučuje se određivanje koeficijenata regresije pomoću analitičkih paketa za personalni računar ili posebnog finansijskog kalkulatora. U najjednostavnijem slučaju, koeficijenti regresije univarijate linearna jednačina regresije forme y = a + bx može se pronaći pomoću formula:

Klaster analiza

Klaster analiza je jedna od metoda višedimenzionalne analize namijenjena grupisanju (klasterizaciji) populacije čije elemente karakteriziraju mnoge karakteristike. Vrijednosti svake karakteristike služe kao koordinate svake jedinice populacije koja se proučava u višedimenzionalnom prostoru obilježja. Svako opažanje, koje karakteriziraju vrijednosti nekoliko indikatora, može se predstaviti kao tačka u prostoru ovih indikatora, čije se vrijednosti smatraju koordinatama u višedimenzionalnom prostoru. Udaljenost između tačaka R I q With k koordinate su definirane kao:

Glavni kriterijum za grupisanje je da razlike između klastera treba da budu značajnije nego između posmatranja dodeljenih istom klasteru, tj. u višedimenzionalnom prostoru mora se poštovati sljedeća nejednakost:

Gdje r 1, 2 - udaljenost između klastera 1 i 2.

Kao i procedure regresione analize, postupak grupisanja je prilično radno intenzivan, preporučljivo ga je izvoditi na računaru.

Glavna svrha regresione analize sastoji se u određivanju analitičkog oblika komunikacije u kojem je promjena efektivne karakteristike posljedica utjecaja jedne ili više faktorskih karakteristika, a skup svih ostalih faktora koji također utiču na efektivnu karakteristiku uzimaju se kao konstantne i prosječne vrijednosti.
Problemi regresijske analize:
a) Utvrđivanje oblika zavisnosti. U pogledu prirode i oblika odnosa među pojavama, pravi se razlika između pozitivne linearne i nelinearne i negativne linearne i nelinearne regresije.
b) Određivanje funkcije regresije u obliku matematičke jednačine ove ili one vrste i utvrđivanje uticaja eksplanatornih varijabli na zavisnu varijablu.
c) Procjena nepoznatih vrijednosti zavisne varijable. Pomoću funkcije regresije možete reproducirati vrijednosti zavisne varijable unutar intervala specificiranih vrijednosti varijabli objašnjenja (tj. riješiti problem interpolacije) ili procijeniti tok procesa izvan navedenog intervala (tj. riješiti problem ekstrapolacije). Rezultat je procjena vrijednosti zavisne varijable.

Uparena regresija je jednačina za odnos između dvije varijable y i x: y=f(x), gdje je y zavisna varijabla (rezultativni atribut); x je nezavisna eksplanatorna varijabla (faktor karakteristika).

Postoje linearne i nelinearne regresije.
Linearna regresija: y = a + bx + ε
Nelinearne regresije se dijele u dvije klase: regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, i regresije koje su nelinearne u odnosu na procijenjene parametre.
Regresije koje su nelinearne u eksplanatornim varijablama:

Regresije koje su nelinearne u odnosu na parametre koji se procjenjuju:

  • snaga y=a x b ε
  • eksponencijalna y=a b x ε
  • eksponencijalna y=e a+b x ε
Izrada regresione jednadžbe se svodi na procjenu njenih parametara. Za procjenu parametara regresije linearnih po parametrima, koristi se metoda najmanjih kvadrata (OLS). Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara kod kojih je zbir kvadrata odstupanja stvarnih vrijednosti efektivne karakteristike y od teorijske y x minimalan, tj.
.
Za linearne i nelinearne jednadžbe koje se svode na linearne, za a i b je riješen sljedeći sistem:

Možete koristiti gotove formule koje slijede iz ovog sistema:

Bliskost odnosa između fenomena koji se proučavaju procjenjuje se koeficijentom linearne parove korelacije r xy za linearnu regresiju (-1≤r xy ≤1):

i indeks korelacije p xy - za nelinearnu regresiju (0≤p xy ≤1):

Kvalitet izgrađenog modela će se ocjenjivati ​​koeficijentom (indeksom) determiniranosti, kao i prosječnom greškom aproksimacije.
Prosječna greška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:
.
Dozvoljena granica A vrijednosti nije veća od 8-10%.
Prosječni koeficijent elastičnosti E pokazuje za koji će se postotak u prosjeku ukupan rezultat promijeniti od svog prosječne veličine kada se faktor x promijeni za 1% od svoje prosječne vrijednosti:
.

Svrha analize varijanse je analiza varijanse zavisne varijable:
∑(y-y )²=∑(y x -y)²+∑(y-y x)²
gdje je ∑(y-y)² ukupan zbir kvadrata odstupanja;
∑(y x -y)² - zbir kvadrata odstupanja zbog regresije („objašnjeno“ ili „faktorsko“);
∑(y-y x)² - rezidualni zbir kvadrata odstupanja.
Udio varijanse objašnjen regresijom u ukupnoj varijansi rezultantne karakteristike y karakterizira koeficijent (indeks) determinacije R2:

Koeficijent determinacije je kvadrat koeficijenta ili indeksa korelacije.

F-test - procjena kvaliteta jednačine regresije - sastoji se od testiranja hipoteze br o statističkoj beznačajnosti regresione jednačine i indikatora bliskosti veze. Da bi se to postiglo, pravi se poređenje između stvarne F činjenice i kritične (tabelarne) vrijednosti F tablice Fišerova F-kriterija. F činjenica se određuje iz omjera vrijednosti faktora i rezidualne varijanse, dizajniran za jedan stepen slobode:
,
gdje je n broj jedinica stanovništva; m je broj parametara za varijable x.
F tabela je maksimalna moguća vrijednost kriterijuma pod uticajem slučajnih faktora na datim stepenima slobode i nivou značajnosti a. Nivo značajnosti a je vjerovatnoća odbacivanja tačne hipoteze, pod uslovom da je tačna. Obično se a uzima jednako 0,05 ili 0,01.
Ako je F tabela< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Činjenica je da se hipoteza H o ne odbacuje i priznaje se statistička beznačajnost i nepouzdanost jednačine regresije.
Za procjenu statističke značajnosti koeficijenata regresije i korelacije, izračunava se Studentov t-test i intervali povjerenja za svaki indikator. Postavlja se hipoteza o slučajnoj prirodi indikatora, tj. o njihovoj neznatnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa vrši se poređenjem njihovih vrijednosti sa veličinom slučajne greške:
; ; .
Slučajne greške parametara linearne regresije i koeficijenta korelacije određuju se formulama:



Upoređujući stvarne i kritične (tabelarne) vrijednosti t-statistike - t tablice i t činjenice - prihvatamo ili odbacujemo hipotezu H o.
Odnos između Fišerovog F-testa i Studentove t-statistike izražava se jednakošću

Ako t tabela< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >Činjenica je da se hipoteza H o ne odbacuje i da se prepoznaje slučajna priroda formiranja a, b ili r xy.
Da bismo izračunali interval pouzdanosti, određujemo maksimalnu grešku D za svaki indikator:
Δ a =t tabela m a , Δ b =t tabela m b .
Formule za izračunavanje intervala povjerenja su sljedeće:
γ a =aΔ a ; γ a =a-Δ a ; γ a =a+Δa
γ b =bΔ b ; γ b =b-Δ b ; γ b =b+Δ b
Ako nula spada u interval pouzdanosti, tj. Ako je donja granica negativna, a gornja pozitivna, tada se procijenjeni parametar uzima kao nula, jer ne može istovremeno uzimati i pozitivne i negativne vrijednosti.
Predviđena vrijednost y p određuje se zamjenom odgovarajuće (prognozirane) vrijednosti x p u regresionu jednačinu y x =a+b·x. Prosječna standardna greška prognoze m y x izračunava se:
,
Gdje
i konstruiše se interval pouzdanosti za prognozu:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
gdje je Δ y x =t tabela m y x .

Primjer rješenja

Zadatak br. 1. Za sedam teritorija Uralskog regiona 199X godine poznate su vrijednosti dvije karakteristike.
Tabela 1.

Obavezno: 1. Da biste okarakterizirali ovisnost y od x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) snaga (najprije morate izvršiti proceduru linearizacije varijabli uzimajući logaritam oba dijela);
c) demonstrativna;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Procijenite svaki model kroz prosječnu grešku aproksimacije A i Fišerov F test.

Rješenje (opcija br. 1)

Za izračunavanje parametara a i b linearne regresije y=a+b·x (izračun se može izvršiti pomoću kalkulatora).
riješiti sistem normalnih jednačina za A I b:
Koristeći početne podatke, izračunavamo ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x 2 y 2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Ukupno405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
sri značenje (Ukupno/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s 232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Regresijska jednadžba: y = 76,88 - 0,35X. Uz povećanje prosječne dnevne plaće za 1 rub. udio rashoda za nabavku prehrambenih proizvoda smanjuje se u prosjeku za 0,35 procentnih poena.
Izračunajmo linearni koeficijent korelacije para:

Veza je umjerena, inverzna.
Odredimo koeficijent determinacije: r² xy =(-0,35)=0,127
Varijacija rezultata od 12,7% objašnjava se varijacijom faktora x. Zamjena u jednadžbu regresije stvarne vrijednosti X, odredimo teorijske (izračunate) vrijednosti y x . Nađimo vrijednost prosječne greške aproksimacije A:

U prosjeku, izračunate vrijednosti odstupaju od stvarnih za 8,1%.
Izračunajmo F-kriterijum:

Dobijena vrijednost ukazuje na potrebu prihvatanja hipoteze H 0 o slučajnoj prirodi utvrđene zavisnosti i statističkoj beznačajnosti parametara jednačine i indikatora bliskosti veze.
1b. Konstrukciji modela snage y=a·x b prethodi postupak linearizacije varijabli. U primjeru, linearizacija se izvodi uzimanjem logaritama obje strane jednačine:
log y=log a + b log x
Y=C+b·Y
gdje je Y=log(y), X=log(x), C=log(a).

Za proračune koristimo podatke u tabeli. 1.3.
Tabela 1.3

YX YX Y2 X 2 y xy-y x(y-y x)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Ukupno12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Prosječna vrijednost1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ 20,0018 0,0023 XXXXXXX

Izračunajmo C i b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Dobijamo linearnu jednačinu: Y=2,278-0,298 X
Nakon što smo izvršili njegovo potenciranje, dobijamo: y=10 2,278 ·x -0,298
Zamjena stvarnih vrijednosti u ovu jednačinu X, dobijamo teorijske vrijednosti rezultata. Na osnovu njih ćemo izračunati sledeće indikatore: čvrstoću veze - indeks korelacije p xy i prosečnu grešku aproksimacije A.

Karakteristike modela stepena pokazuju da on opisuje odnos nešto bolje od linearne funkcije.

1c. Konstrukciji jednadžbe eksponencijalne krive y=a·b x prethodi postupak linearizacije varijabli uzimanjem logaritma obje strane jednačine:
log y=log a + x log b
Y=C+B x
Za proračune koristimo tabelarne podatke.

Yx Yx Y2 x 2y xy-y x(y-y x)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Ukupno12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
sri zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ 20,0018 34,339 XXXXXXX

Vrijednosti regresijskih parametara A i IN iznosio:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Dobijena linearna jednačina je: Y=1,887-0,0023x. Potencirajmo rezultirajuću jednačinu i zapišemo je u uobičajenom obliku:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Procijenimo bliskost veze kroz korelacijski indeks p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Ukupno405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Prosječna vrijednost57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ 232,9476 0,000005 XX

Regresiona analiza je statistička metoda istraživanje koje vam omogućava da pokažete zavisnost određenog parametra od jedne ili više nezavisnih varijabli. U predkompjuterskoj eri, njegova upotreba je bila prilično teška, posebno kada su u pitanju velike količine podataka. Danas, nakon što ste naučili kako izgraditi regresiju u Excelu, možete riješiti složene statističke probleme za samo nekoliko minuta. Ispod su konkretnim primjerima iz oblasti ekonomije.

Vrste regresije

Ovaj koncept je uveden u matematiku 1886. Regresija se dešava:

  • linearno;
  • parabolični;
  • sedate;
  • eksponencijalni;
  • hiperbolično;
  • demonstrativna;
  • logaritamski.

Primjer 1

Razmotrimo problem utvrđivanja zavisnosti broja članova tima koji su odustali od prosječne plate u 6 industrijskih preduzeća.

Zadatak. U šest preduzeća analizirana je prosječna mjesečna plata i broj zaposlenih koji su dobrovoljno dali otkaz. U tabelarnom obliku imamo:

Broj ljudi koji su odustali

Plata

30.000 rubalja

35.000 rubalja

40.000 rubalja

45.000 rubalja

50.000 rubalja

55.000 rubalja

60.000 rubalja

Za zadatak utvrđivanja zavisnosti broja radnika koji napuštaju rad od prosječne plate u 6 preduzeća, regresijski model ima oblik jednačine Y = a 0 + a 1 x 1 +...+a k x k, gdje su x i uticajne varijable, a i su koeficijenti regresije, a k je broj faktora.

Za ovaj problem Y je indikator otpuštanja zaposlenih, a faktor uticaja je plata koju označavamo sa X.

Korištenje mogućnosti Excel procesora proračunskih tablica

Regresionoj analizi u Excelu mora prethoditi primjena ugrađenih funkcija na postojeće tabelarne podatke. Međutim, u ove svrhe bolje je koristiti vrlo koristan dodatak „Analysis Pack“. Da biste ga aktivirali potrebno vam je:

  • sa kartice “Datoteka” idite na odjeljak “Opcije”;
  • u prozoru koji se otvori odaberite redak "Dodaci";
  • kliknite na dugme „Idi“ koje se nalazi ispod, desno od linije „Upravljanje“;
  • označite polje pored naziva „Paket analize“ i potvrdite svoje radnje klikom na „U redu“.

Ako je sve urađeno kako treba, potrebno dugme će se pojaviti na desnoj strani kartice „Podaci“, koja se nalazi iznad Excel radnog lista.

u Excelu

Sada kada imamo sve potrebne virtuelne alate pri ruci za izvođenje ekonometrijskih proračuna, možemo početi rješavati naš problem. Za ovo:

  • Kliknite na dugme „Analiza podataka“;
  • u prozoru koji se otvori kliknite na dugme "Regresija";
  • na kartici koja se pojavi unesite raspon vrijednosti za Y (broj zaposlenih koji su napustili) i za X (njihove plate);
  • Svoje radnje potvrđujemo pritiskom na dugme "OK".

Kao rezultat, program će automatski popuniti novu tabelu podacima regresione analize. Bilješka! Excel vam omogućava da ručno postavite željenu lokaciju u tu svrhu. Na primjer, to može biti isti list na kojem se nalaze Y i X vrijednosti, ili čak Nova knjiga, posebno dizajniran za pohranjivanje takvih podataka.

Analiza rezultata regresije za R-kvadrat

U Excelu podaci dobijeni tokom obrade podataka u razmatranom primjeru imaju oblik:

Prije svega, obratite pažnju na vrijednost R-kvadrata. Predstavlja koeficijent determinacije. U ovom primjeru R-kvadrat = 0,755 (75,5%), odnosno izračunati parametri modela objašnjavaju odnos između parametara koji se razmatraju za 75,5%. Što je veća vrijednost koeficijenta determinacije, to je odabrani model pogodniji za određeni zadatak. Smatra se da ispravno opisuje stvarnu situaciju kada je vrijednost R-kvadrata iznad 0,8. Ako je R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Odds Analysis

Broj 64.1428 pokazuje kolika će biti vrijednost Y ako se sve varijable xi u modelu koji razmatramo resetujemo na nulu. Drugim riječima, može se tvrditi da na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u konkretnom modelu.

Sledeći koeficijent -0,16285, koji se nalazi u ćeliji B18, pokazuje težinu uticaja varijable X na Y. To znači da prosečna mesečna plata zaposlenih u okviru modela koji se razmatra utiče na broj onih koji odustaju sa ponderom od -0,16285, tj. stepen njenog uticaja je potpuno mali. Znak "-" označava da je koeficijent negativan. To je očigledno, jer svi znaju da što je veća plata u preduzeću, manje ljudi izražava želju za raskidom ugovora o radu ili otkazom.

Višestruka regresija

Ovaj termin se odnosi na jednadžbu odnosa sa nekoliko nezavisnih varijabli oblika:

y=f(x 1 +x 2 +…x m) + ε, gdje je y rezultantna karakteristika (zavisna varijabla), a x 1, x 2,…x m su faktorske karakteristike (nezavisne varijable).

Procjena parametara

Za višestruku regresiju (MR) provodi se metodom najmanjih kvadrata (OLS). Za linearne jednadžbe oblika Y = a + b 1 x 1 +…+b m x m + ε konstruiramo sistem normalnih jednačina (vidi dolje)

Da biste razumjeli princip metode, razmotrite slučaj sa dva faktora. Tada imamo situaciju opisanu formulom

Odavde dobijamo:

gdje je σ varijansa odgovarajuće karakteristike prikazane u indeksu.

OLS je primjenjiv na MR jednačinu na standardiziranoj skali. U ovom slučaju dobijamo jednačinu:

u kojima su t y, t x 1, … t xm standardizirane varijable, za koje su prosječne vrijednosti jednake 0; β i su standardizirani koeficijenti regresije, a standardna devijacija je 1.

Imajte na umu da su svi β i u ovom slučaju specificirani kao normalizirani i centralizirani, stoga se njihovo međusobno poređenje smatra ispravnim i prihvatljivim. Osim toga, uobičajeno je da se faktori odstrane odbacivanjem onih s najnižim vrijednostima βi.

Problem Korištenje jednadžbe linearne regresije

Pretpostavimo da imamo tabelu dinamike cijena za određeni proizvod N u posljednjih 8 mjeseci. Potrebno je donijeti odluku o preporučljivosti kupovine njegove serije po cijeni od 1850 rubalja/t.

broj mjeseca

naziv mjeseca

cijena proizvoda N

1750 rubalja po toni

1755 rubalja po toni

1767 rubalja po toni

1760 rubalja po toni

1770 rubalja po toni

1790 rubalja po toni

1810 rubalja po toni

1840 rubalja po toni

Da biste riješili ovaj problem u Excel procesoru proračunskih tablica, trebate koristiti alat „Analiza podataka“, već poznat iz gore prikazanog primjera. Zatim odaberite odjeljak "Regresija" i postavite parametre. Treba imati na umu da se u polje "Input interval Y" mora unijeti raspon vrijednosti za zavisnu varijablu (u ovom slučaju cijene robe u određenim mjesecima u godini), au "Input interval X" - za nezavisnu varijablu (broj mjeseca). Potvrdite radnju klikom na “OK”. Na novom listu (ako je tako naznačeno) dobijamo podatke za regresiju.

Koristeći ih, konstruišemo linearnu jednačinu oblika y=ax+b, gde su parametri a i b koeficijenti prave sa nazivom broja meseca i koeficijenti i prave „Y-presek“ sa lista sa rezultate regresione analize. Dakle, jednadžba linearne regresije (LR) za zadatak 3 se piše kao:

Cijena proizvoda N = 11.714* broj mjeseca + 1727.54.

ili u algebarskoj notaciji

y = 11,714 x + 1727,54

Analiza rezultata

Da bi se odlučilo da li je rezultirajuća jednačina linearne regresije adekvatna, koriste se koeficijenti višestruke korelacije (MCC) i determinacije, kao i Fisherov test i Student t test. U Excel tabeli sa rezultatima regresije oni se nazivaju višestruki R, R-kvadrat, F-statistika i t-statistika, respektivno.

KMC R omogućava procjenu bliskosti vjerovatnoće veze između nezavisnih i zavisnih varijabli. Njegova visoka vrijednost ukazuje na prilično jaku vezu između varijabli „Broj mjeseci“ i „Cijena proizvoda N u rubljama po 1 toni“. Međutim, priroda ovog odnosa ostaje nepoznata.

Kvadrat koeficijenta determinacije R2 (RI) je numerička karakteristika udjela ukupnog rasipa i pokazuje čiji dio eksperimentalnih podataka, tj. vrijednosti zavisne varijable odgovaraju jednadžbi linearne regresije. U problemu koji se razmatra ova vrijednost je jednaka 84,8%, tj. statistički podaci se opisuju sa visokim stepenom tačnosti rezultujućim SD.

F-statistika, koja se naziva i Fišerov test, koristi se za procenu značaja linearnog odnosa, pobijajući ili potvrđujući hipotezu o njegovom postojanju.

(Studentov test) pomaže da se proceni značaj koeficijenta za nepoznati ili slobodni termin linearne veze. Ako je vrijednost t-testa > tcr, hipoteza o beznačajnosti slobodnog člana linearne jednačine se odbacuje.

U zadatku koji se razmatra za slobodni termin, korišćenjem Excel alata, dobijeno je da je t = 169,20903, a p = 2,89E-12, odnosno da imamo nultu verovatnoću da će tačna hipoteza o beznačajnosti slobodnog člana biti odbačena . Za koeficijent za nepoznatu t=5,79405, i p=0,001158. Drugim riječima, vjerovatnoća da će tačna hipoteza o beznačajnosti koeficijenta za nepoznatu biti odbačena je 0,12%.

Stoga se može tvrditi da je rezultirajuća jednačina linearne regresije adekvatna.

Problem izvodljivosti kupovine paketa akcija

Višestruka regresija u Excelu se izvodi pomoću istog alata za analizu podataka. Razmotrimo konkretan problem aplikacije.

Menadžment kompanije NNN mora odlučiti o preporučljivosti kupovine 20% udjela u MMM ad. Cijena paketa (SP) je 70 miliona američkih dolara. Stručnjaci NNN-a prikupili su podatke o sličnim transakcijama. Odlučeno je da se vrijednost paketa dionica procijeni prema takvim parametrima, izraženim u milionima američkih dolara, kao što su:

  • obaveze prema dobavljačima (VK);
  • godišnji obim prometa (VO);
  • potraživanja (VD);
  • trošak osnovnih sredstava (COF).

Pored toga, koristi se parametar zaostalih plata preduzeća (V3 P) u hiljadama američkih dolara.

Rješenje pomoću Excel procesora proračunskih tablica

Prije svega, trebate kreirati tabelu izvornih podataka. izgleda ovako:

  • pozovite prozor „Analiza podataka“;
  • odaberite odjeljak "Regresija";
  • U polje „Input interval Y“ unesite raspon vrijednosti zavisnih varijabli iz stupca G;
  • Kliknite na ikonu sa crvenom strelicom desno od prozora „Input interval X“ i označite raspon svih vrijednosti ​​iz kolona B, C, D, F na listu.

Označite stavku „Novi radni list“ i kliknite na „U redu“.

Nabavite regresionu analizu za dati problem.

Studija rezultata i zaključaka

„Sakupljamo“ iz zaokruženih podataka koji su gore prikazani na tabelarnom listu Excel procesor, jednadžba regresije:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

U poznatijem matematičkom obliku, može se napisati kao:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Podaci za MMM dd prikazani su u tabeli:

Zamijenivši ih u jednadžbu regresije, dobijamo cifru od 64,72 miliona američkih dolara. To znači da se akcije MMM ad ne vrede kupovati, jer je njihova vrednost od 70 miliona američkih dolara prilično naduvana.

Kao što vidite, upotreba Excel tabele i regresione jednačine omogućila je donošenje informisane odluke u vezi izvodljivosti vrlo specifične transakcije.

Sada znate šta je regresija. Primjeri u Excelu o kojima smo gore govorili pomoći će vam da odlučite praktični problemi iz oblasti ekonometrije.

Podijelite sa prijateljima ili sačuvajte za sebe:

Učitavanje...