Regresjonsligning. Multippel regresjonsligning. Korrelasjons- og regresjonsanalyse i Excel: utførelsesinstruksjoner Hva er kravene til en regresjonsanalysemodell?

Regresjon og korrelasjonsanalyse er statistiske forskningsmetoder. Dette er de vanligste måtene å vise avhengigheten til en parameter på en eller flere uavhengige variabler.

Nedenfor vil vi, ved å bruke konkrete praktiske eksempler, vurdere disse to svært populære analysene blant økonomer. Vi vil også gi et eksempel på hvordan man oppnår resultater når man kombinerer dem.

Regresjonsanalyse i Excel

Viser påvirkningen av noen verdier (uavhengig, uavhengig) på den avhengige variabelen. For eksempel, hvordan avhenger antall økonomisk aktive befolkning av antall bedrifter, lønn og andre parametere. Eller: hvordan påvirker utenlandske investeringer, energipriser osv. nivået på BNP.

Resultatet av analysen lar deg fremheve prioriteringer. Og basert på hovedfaktorene, forutsi, planlegge utviklingen av prioriterte områder og ta ledelsesbeslutninger.

Regresjon skjer:

  • lineær (y = a + bx);
  • parabolsk (y = a + bx + cx 2);
  • eksponentiell (y = a * exp(bx));
  • potens (y = a*x^b);
  • hyperbolsk (y = b/x + a);
  • logaritmisk (y = b * 1n(x) + a);
  • eksponentiell (y = a * b^x).

La oss se på et eksempel på å bygge en regresjonsmodell i Excel og tolke resultatene. La oss ta den lineære typen regresjon.

Oppgave. Ved 6 virksomheter ble gjennomsnittlig månedslønn og antall sluttarbeidere analysert. Det er nødvendig å bestemme avhengigheten av antall sluttansatte på gjennomsnittslønnen.

Den lineære regresjonsmodellen ser slik ut:

Y = a 0 + a 1 x 1 +...+a k x k.

Der a er regresjonskoeffisienter, x er påvirkende variabler, er k antall faktorer.

I vårt eksempel er Y indikatoren på å slutte med ansatte. Påvirkningsfaktoren er lønn (x).

Excel har innebygde funksjoner som kan hjelpe deg med å beregne parametrene til en lineær regresjonsmodell. Men tillegget "Analysis Package" vil gjøre dette raskere.

Vi aktiverer et kraftig analyseverktøy:

Når det er aktivert, vil tillegget være tilgjengelig i fanen Data.

La oss nå gjøre selve regresjonsanalysen.



Først av alt tar vi hensyn til R-kvadrat og koeffisienter.

R-kvadrat er bestemmelseskoeffisienten. I vårt eksempel - 0,755, eller 75,5%. Dette betyr at de beregnede parameterne til modellen forklarer 75,5 % av sammenhengen mellom de studerte parameterne. Jo høyere bestemmelseskoeffisient, jo bedre modell. Bra - over 0,8. Dårlig – mindre enn 0,5 (en slik analyse kan neppe anses som rimelig). I vårt eksempel - "ikke dårlig".

Koeffisienten 64.1428 viser hva Y vil være hvis alle variabler i modellen som vurderes er lik 0. Det vil si at verdien av den analyserte parameteren også påvirkes av andre faktorer som ikke er beskrevet i modellen.

Koeffisienten -0,16285 viser vekten av variabel X på Y. Det vil si at gjennomsnittlig månedslønn innenfor denne modellen påvirker antall sluttere med en vekt på -0,16285 (dette er en liten grad av påvirkning). "-"-tegnet indikerer dårlig innflytelse: jo høyere lønn, jo færre slutter. Som er rettferdig.



Korrelasjonsanalyse i Excel

Korrelasjonsanalyse hjelper til med å avgjøre om det er en sammenheng mellom indikatorer i ett eller to utvalg. For eksempel mellom driftstiden til en maskin og kostnadene for reparasjoner, prisen på utstyret og varigheten av driften, høyden og vekten til barn osv.

Hvis det er en sammenheng, fører en økning i en parameter til en økning (positiv korrelasjon) eller en reduksjon (negativ) av den andre. Korrelasjonsanalyse hjelper analytikeren med å avgjøre om verdien av en indikator kan brukes til å forutsi mulig verdi av en annen.

Korrelasjonskoeffisienten er angitt med r. Varierer fra +1 til -1. Klassifiseringen av korrelasjoner for ulike områder vil være forskjellig. Når koeffisienten er 0, er det ingen lineær sammenheng mellom prøvene.

La oss se på hvordan du finner korrelasjonskoeffisienten ved hjelp av Excel.

For å finne parede koeffisienter brukes CORREL-funksjonen.

Mål: Finn ut om det er en sammenheng mellom driftstiden til en dreiebenk og kostnadene for vedlikehold.

Plasser markøren i en hvilken som helst celle og trykk på fx-knappen.

  1. I kategorien "Statistisk" velger du CORREL-funksjonen.
  2. Argument "Array 1" - det første verdiområdet - maskindriftstid: A2:A14.
  3. Argument "Array 2" - andre verdiområde - reparasjonskostnad: B2:B14. Klikk OK.

For å bestemme typen tilkobling, må du se på det absolutte tallet på koeffisienten (hvert aktivitetsfelt har sin egen skala).

For korrelasjonsanalyse av flere parametere (mer enn 2) er det mer praktisk å bruke "Data Analysis" (tillegget "Analysis Package"). Du må velge korrelasjon fra listen og angi matrisen. Alle.

De resulterende koeffisientene vil vises i korrelasjonsmatrisen. Som dette:

Korrelasjons- og regresjonsanalyse

I praksis brukes disse to teknikkene ofte sammen.

Eksempel:


Nå har regresjonsanalysedataene blitt synlige.

I løpet av studiene møter studentene veldig ofte en rekke ligninger. En av dem - regresjonsligningen - er omtalt i denne artikkelen. Denne typen ligninger brukes spesifikt for å beskrive egenskapene til forholdet mellom matematiske parametere. Denne typen likheter brukes i statistikk og økonometri.

Definisjon av regresjon

I matematikk betyr regresjon en viss mengde som beskriver avhengigheten av gjennomsnittsverdien til et sett med data på verdiene til en annen mengde. Regresjonsligningen viser, som funksjon av en bestemt egenskap, gjennomsnittsverdien til en annen egenskap. Regresjonsfunksjonen har formen enkel ligning y = x, der y fungerer som en avhengig variabel, og x som en uavhengig variabel (funksjonsfaktor). Faktisk er regresjon uttrykt som y = f (x).

Hva er typene forhold mellom variabler?

Generelt er det to motstridende typer sammenhenger: korrelasjon og regresjon.

Den første er preget av likheten mellom betingede variabler. I i dette tilfellet Det er ikke kjent med sikkerhet hvilken variabel som avhenger av den andre.

Hvis det ikke er likhet mellom variablene og betingelsene sier hvilken variabel som er forklarende og hvilken som er avhengig, så kan vi snakke om tilstedeværelsen av en sammenheng av den andre typen. For å konstruere en lineær regresjonsligning vil det være nødvendig å finne ut hvilken type sammenheng som observeres.

Typer regresjoner

I dag er det 7 forskjellige typer regresjon: hyperbolsk, lineær, multippel, ikke-lineær, parvis, invers, logaritmisk lineær.

Hyperbolsk, lineær og logaritmisk

Den lineære regresjonsligningen brukes i statistikk for å tydelig forklare parametrene til ligningen. Det ser ut som y = c+t*x+E. En hyperbolsk ligning har form av en regulær hyperbel y = c + m / x + E. En logaritmisk lineær ligning uttrykker forholdet ved hjelp av en logaritmisk funksjon: In y = In c + m * In x + In E.

Multippel og ikke-lineær

To til komplekse typer Regresjon er multippel og ikke-lineær. Multippel regresjonsligningen uttrykkes ved funksjonen y = f(x 1, x 2 ... x c) + E. I denne situasjonen fungerer y som en avhengig variabel, og x fungerer som en forklarende variabel. E-variabelen er stokastisk; den inkluderer påvirkning av andre faktorer i ligningen. Den ikke-lineære regresjonsligningen er litt kontroversiell. På den ene siden, i forhold til indikatorene tatt i betraktning, er den ikke lineær, men på den andre siden, i rollen som evaluering av indikatorer, er den lineær.

Inverse og parede typer regresjoner

En invers er en type funksjon som må konverteres til en lineær form. I det mest tradisjonelle applikasjonsprogrammer den har form av en funksjon y = 1/c + m*x+E. En parvis regresjonsligning viser forholdet mellom dataene som en funksjon av y = f (x) + E. Akkurat som i andre ligninger er y avhengig av x, og E er en stokastisk parameter.

Begrepet korrelasjon

Dette er en indikator som viser eksistensen av en sammenheng mellom to fenomener eller prosesser. Styrken til sammenhengen uttrykkes som en korrelasjonskoeffisient. Verdien svinger innenfor intervallet [-1;+1]. En negativ indikator indikerer tilstedeværelsen tilbakemelding, positiv - om en rett linje. Hvis koeffisienten tar en verdi lik 0, er det ingen sammenheng. Jo nærmere verdien er 1, jo sterkere er forholdet mellom parameterne; jo nærmere 0, jo svakere er det.

Metoder

Korrelasjonsparametriske metoder kan vurdere relasjonens styrke. De brukes på grunnlag av distribusjonsestimering for å studere parametere som følger loven om normalfordeling.

Parametrene til den lineære regresjonsligningen er nødvendige for å identifisere typen avhengighet, funksjonen til regresjonsligningen og evaluere indikatorene for den valgte relasjonsformelen. Korrelasjonsfeltet brukes som ene. For å gjøre dette må alle eksisterende data avbildes grafisk. Alle kjente data skal plottes i et rektangulært todimensjonalt koordinatsystem. Slik dannes et korrelasjonsfelt. Verdiene til den beskrivende faktoren er markert langs abscisseaksen, mens verdiene til den avhengige faktoren er markert langs ordinataksen. Hvis det er en funksjonell sammenheng mellom parameterne, er de stilt opp i form av en linje.

Hvis korrelasjonskoeffisienten til slike data er mindre enn 30%, kan vi snakke om et nesten fullstendig fravær av forbindelse. Hvis det er mellom 30% og 70%, indikerer dette tilstedeværelsen av middels tette forbindelser. En 100 % indikator er bevis på en funksjonell forbindelse.

En ikke-lineær regresjonsligning, akkurat som en lineær, må suppleres med en korrelasjonsindeks (R).

Korrelasjon for multippel regresjon

Bestemmelseskoeffisienten er en indikator på kvadratet av multippelkorrelasjon. Han snakker om det nære forholdet mellom det presenterte settet med indikatorer og karakteristikken som studeres. Det kan også snakke om arten av påvirkningen av parametere på resultatet. Multippel regresjonsligningen estimeres ved å bruke denne indikatoren.

For å beregne den multiple korrelasjonsindikatoren, er det nødvendig å beregne indeksen.

Minste kvadratiske metode

Denne metoden er en måte å estimere regresjonsfaktorer på. Dens essens er å minimere summen av kvadrerte avvik oppnådd som et resultat av faktorens avhengighet av funksjonen.

En parvis lineær regresjonsligning kan estimeres ved å bruke en slik metode. Denne typen ligninger brukes når et paret lineært forhold oppdages mellom indikatorer.

Ligningsparametere

Hver parameter i den lineære regresjonsfunksjonen har en spesifikk betydning. Den sammenkoblede lineære regresjonsligningen inneholder to parametere: c og m. Parameteren m demonstrerer den gjennomsnittlige endringen i den endelige indikatoren til funksjonen y, forutsatt at variabelen x minker (øker) med én konvensjonell enhet. Hvis variabelen x er null, er funksjonen lik parameteren c. Hvis variabelen x ikke er null, har ikke faktoren c økonomisk betydning. Den eneste påvirkningen på funksjonen er tegnet foran faktoren c. Hvis det er et minus, kan vi si at endringen i resultatet er langsom sammenlignet med faktoren. Hvis det er et pluss, indikerer dette en akselerert endring i resultatet.

Hver parameter som endrer verdien av regresjonsligningen kan uttrykkes gjennom en ligning. For eksempel har faktor c formen c = y - mx.

Grupperte data

Det er oppgavebetingelser der all informasjon er gruppert etter attributt x, men for en viss gruppe er de tilsvarende gjennomsnittsverdiene til den avhengige indikatoren indikert. I dette tilfellet karakteriserer gjennomsnittsverdiene hvordan indikatoren avhengig av x endres. Dermed hjelper den grupperte informasjonen til å finne regresjonsligningen. Den brukes som en analyse av sammenhenger. Imidlertid har denne metoden sine ulemper. Dessverre er gjennomsnittsindikatorer ofte gjenstand for eksterne svingninger. Disse svingningene gjenspeiler ikke mønsteret i forholdet; de maskerer bare "støyen". Gjennomsnitt viser forholdsmønstre mye verre enn en lineær regresjonsligning. De kan imidlertid brukes som grunnlag for å finne en ligning. Ved å multiplisere tallet på en individuell populasjon med det tilsvarende gjennomsnittet kan man få summen y innenfor gruppen. Deretter må du legge sammen alle mottatte beløp og finne den endelige indikatoren y. Det er litt vanskeligere å gjøre beregninger med sumindikatoren xy. Hvis intervallene er små, kan vi betinget ta x-indikatoren for alle enheter (innenfor gruppen) til å være den samme. Du bør gange den med summen av y for å finne ut summen av produktene av x og y. Deretter legges alle mengdene sammen og den totale mengden xy oppnås.

Flere parvis regresjonsligning: vurdering av betydningen av et forhold

Som diskutert tidligere har multippel regresjon en funksjon av formen y = f (x 1,x 2,…,x m)+E. Oftest brukes en slik ligning for å løse problemet med tilbud og etterspørsel etter et produkt, renteinntekter på tilbakekjøpte aksjer, og for å studere årsakene til og typen av produksjonskostnadsfunksjonen. Den brukes også aktivt i en lang rekke makroøkonomiske studier og beregninger, men på mikroøkonomisk nivå brukes denne ligningen litt sjeldnere.

Hovedoppgaven til multippel regresjon er å bygge en modell av data som inneholder en enorm mengde informasjon for ytterligere å bestemme hvilken innflytelse hver av faktorene har individuelt og i deres generell befolkning på indikatoren som må modelleres og dens koeffisienter. Regresjonsligningen kan anta en lang rekke verdier. I dette tilfellet, for å vurdere forholdet, brukes vanligvis to typer funksjoner: lineær og ikke-lineær.

Den lineære funksjonen er avbildet i form av følgende forhold: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. I dette tilfellet regnes a2, a m som "rene" regresjonskoeffisienter. De er nødvendige for å karakterisere den gjennomsnittlige endringen i parameter y med en endring (reduksjon eller økning) i hver tilsvarende parameter x med en enhet, med betingelsen om stabile verdier for andre indikatorer.

Ikke-lineære ligninger har for eksempel form av en potensfunksjon y=ax 1 b1 x 2 b2 ...x m bm. I dette tilfellet kalles indikatorene b 1, b 2 ..... b m elastisitetskoeffisienter, de viser hvordan resultatet vil endre seg (med hvor mye%) med en økning (reduksjon) i den tilsvarende indikatoren x med 1% og med en stabil indikator på andre faktorer.

Hvilke faktorer må tas i betraktning når man konstruerer multippel regresjon

For å kunne bygge multippel regresjon på riktig måte, er det nødvendig å finne ut hvilke faktorer som bør vies spesiell oppmerksomhet.

Det er nødvendig å ha en viss forståelse av arten av sammenhengene mellom økonomiske faktorer og det som modelleres. Faktorer som må inkluderes må oppfylle følgende kriterier:

  • Må være gjenstand for kvantitativ måling. For å bruke en faktor som beskriver kvaliteten til et objekt, bør det uansett gis en kvantitativ form.
  • Det skal ikke være noen interkorrelasjon av faktorer, eller funksjonelle sammenhenger. Slike handlinger fører oftest til irreversible konsekvenser - systemet med vanlige ligninger blir ubetinget, og dette medfører upålitelighet og uklare estimater.
  • Når det gjelder en enorm korrelasjonsindikator, er det ingen måte å finne ut den isolerte påvirkningen av faktorer på det endelige resultatet av indikatoren, derfor blir koeffisientene utolkbare.

Byggemetoder

Det finnes et stort antall metoder og metoder som forklarer hvordan du kan velge faktorer for en ligning. Imidlertid er alle disse metodene basert på valg av koeffisienter ved hjelp av en korrelasjonsindikator. Blant dem er:

  • Elimineringsmetode.
  • Byttemetode.
  • Trinnvis regresjonsanalyse.

Den første metoden innebærer å filtrere ut alle koeffisienter fra det totale settet. Den andre metoden innebærer å introdusere mange tilleggsfaktorer. Vel, den tredje er eliminering av faktorer som tidligere ble brukt for ligningen. Hver av disse metodene har rett til å eksistere. De har sine fordeler og ulemper, men de kan alle løse problemet med å eliminere unødvendige indikatorer på sin egen måte. Som regel er resultatene oppnådd ved hver enkelt metode ganske nærme.

Multivariate analysemetoder

Slike metoder for å bestemme faktorer er basert på vurdering av individuelle kombinasjoner av sammenhengende egenskaper. Disse inkluderer diskriminantanalyse, formgjenkjenning, hovedkomponentanalyse og klyngeanalyse. I tillegg er det også faktoranalyse, men det dukket opp på grunn av utviklingen av komponentmetoden. Alle gjelder under visse omstendigheter, underlagt visse betingelser og faktorer.

Regresjonsanalyse er en metode for å etablere et analytisk uttrykk for den stokastiske avhengigheten mellom egenskapene som studeres. Regresjonsligningen viser hvordan gjennomsnittet endres når du endrer noen av x Jeg , og har formen:

Hvor y - avhengig variabel (den er alltid den samme);

X Jeg - uavhengige variabler (faktorer) (det kan være flere av dem).

Hvis det kun er én uavhengig variabel, er dette en enkel regresjonsanalyse. Hvis det er flere av dem ( P 2), da kalles en slik analyse multifaktoriell.

Regresjonsanalyse løser to hovedproblemer:

    å konstruere en regresjonsligning, dvs. finne type sammenheng mellom resultatindikatoren og uavhengige faktorer x 1 , x 2 , …, x n .

    vurdering av betydningen av den resulterende ligningen, dvs. bestemme hvor mye utvalgte faktoregenskaper forklarer variasjonen til en egenskap u.

Regresjonsanalyse brukes hovedsakelig til planlegging, samt for å utvikle et regelverk.

I motsetning til korrelasjonsanalyse, som kun svarer på spørsmålet om det er en sammenheng mellom de analyserte egenskapene, gir regresjonsanalyse også sitt formaliserte uttrykk. I tillegg, hvis korrelasjonsanalyse studerer noen sammenheng mellom faktorer, så studerer regresjonsanalyse ensidig avhengighet, dvs. et forhold som viser hvordan en endring i faktorkarakteristikker påvirker den effektive karakteristikken.

Regresjonsanalyse er en av de mest utviklede metodene for matematisk statistikk. For å implementere regresjonsanalyse er det strengt tatt nødvendig å oppfylle en rekke spesielle krav (spesielt, x l ,x 2 ,...,x n ;y må være uavhengige, normalfordelte stokastiske variabler med konstante varianser). I det virkelige liv streng overholdelse av kravene til regresjon og korrelasjonsanalyse er svært sjelden, men begge disse metodene er svært vanlige i økonomisk forskning. Avhengigheter i økonomi kan ikke bare være direkte, men også inverse og ikke-lineære. En regresjonsmodell kan bygges i nærvær av enhver avhengighet, men i multivariat analyse brukes bare lineære modeller av formen:

Regresjonsligningen er vanligvis konstruert ved hjelp av metoden minste kvadrater, hvis essens er å minimere summen av kvadrerte avvik av de faktiske verdiene til den resulterende karakteristikken fra dens beregnede verdier, dvs.:

Hvor T - antall observasjoner;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - beregnet verdi av resultatfaktoren.

Det anbefales å bestemme regresjonskoeffisienter ved hjelp av analytiske pakker for en personlig datamaskin eller en spesiell finansiell kalkulator. I det enkleste tilfellet, regresjonskoeffisientene til en univariat lineær ligning regresjoner av formen y = a + bx kan bli funnet ved å bruke formlene:

Klyngeanalyse

Klyngeanalyse er en av metodene for flerdimensjonal analyse beregnet på å gruppere (klynge) en populasjon hvis elementer er preget av mange egenskaper. Verdiene til hver funksjon tjener som koordinatene til hver enhet av befolkningen som studeres i det flerdimensjonale rommet av funksjoner. Hver observasjon, preget av verdiene til flere indikatorer, kan representeres som et punkt i rommet til disse indikatorene, hvis verdier anses som koordinater i et flerdimensjonalt rom. Avstand mellom punktene R Og q Med k koordinater er definert som:

Hovedkriteriet for clustering er at forskjellene mellom klynger skal være mer signifikante enn mellom observasjoner tilordnet samme klynge, dvs. i et flerdimensjonalt rom må følgende ulikhet observeres:

Hvor r 1, 2 - avstand mellom klyngene 1 og 2.

Akkurat som prosedyrer for regresjonsanalyse, er klyngingsprosedyren ganske arbeidskrevende; det anbefales å utføre den på en datamaskin.

Hovedformålet med regresjonsanalyse består i å bestemme den analytiske kommunikasjonsformen der endringen i den effektive karakteristikken skyldes påvirkning av en eller flere faktoregenskaper, og settet av alle andre faktorer som også påvirker den effektive karakteristikken tas som konstante og gjennomsnittlige verdier.
Problemer med regresjonsanalyse:
a) Etablering av avhengighetsform. Når det gjelder arten og formen på forholdet mellom fenomener, skilles det mellom positiv lineær og ikke-lineær og negativ lineær og ikke-lineær regresjon.
b) Bestemme regresjonsfunksjonen i form av en matematisk ligning av en eller annen type og fastslå påvirkningen av forklaringsvariabler på den avhengige variabelen.
c) Estimering av ukjente verdier for den avhengige variabelen. Ved å bruke regresjonsfunksjonen kan du reprodusere verdiene til den avhengige variabelen innenfor intervallet av spesifiserte verdier til forklaringsvariablene (dvs. løse interpolasjonsproblemet) eller evaluere prosessens forløp utenfor det angitte intervallet (dvs. løse ekstrapoleringsproblemet). Resultatet er et estimat av verdien av den avhengige variabelen.

Paret regresjon er en ligning for forholdet mellom to variabler y og x: y=f(x), hvor y er den avhengige variabelen (resultatattributt); x er en uavhengig forklaringsvariabel (funksjonsfaktor).

Det er lineære og ikke-lineære regresjoner.
Lineær regresjon: y = a + bx + ε
Ikke-lineære regresjoner er delt inn i to klasser: regresjoner som er ikke-lineære med hensyn til de forklaringsvariablene som er inkludert i analysen, men lineære med hensyn til de estimerte parametrene, og regresjoner som er ikke-lineære med hensyn til de estimerte parametrene.
Regresjoner som er ikke-lineære i forklarende variabler:

Regresjoner som er ikke-lineære med hensyn til parametrene som estimeres:

  • potens y=a x b ε
  • eksponentiell y=a b x ε
  • eksponentiell y=e a+b x ε
Å konstruere en regresjonsligning kommer ned til å estimere parameterne. For å estimere parametrene for regresjoner lineært i parametere, brukes minste kvadraters metode (OLS). Minste kvadraters metode gjør det mulig å oppnå slike parameterestimater der summen av kvadrerte avvik av de faktiske verdiene til den resulterende karakteristikken y fra den teoretiske y x er minimal, dvs.
.
For lineære og ikke-lineære ligninger som kan reduseres til lineære, løses følgende system for a og b:

Du kan bruke ferdige formler som følger av dette systemet:

Nærheten til sammenhengen mellom fenomenene som studeres vurderes av den lineære parkorrelasjonskoeffisienten r xy for lineær regresjon (-1≤r xy ≤1):

og korrelasjonsindeks p xy - for ikke-lineær regresjon (0≤p xy ≤1):

Kvaliteten på den konstruerte modellen vil bli vurdert av koeffisienten (indeksen) for bestemmelse, samt gjennomsnittlig tilnærmingsfeil.
Gjennomsnittlig tilnærmingsfeil - gjennomsnittlig avvik av beregnede verdier fra faktiske:
.
Den tillatte grensen for A-verdier er ikke mer enn 8-10%.
Den gjennomsnittlige elastisitetskoeffisienten E viser med hvor mange prosent i gjennomsnitt det totale resultatet vil endre seg fra sin gjennomsnittsstørrelse når faktor x endres med 1 % fra gjennomsnittsverdien:
.

Hensikten med variansanalyse er å analysere variansen til den avhengige variabelen:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
hvor ∑(y-y)² er den totale summen av kvadrerte avvik;
∑(y x -y)² - summen av kvadrerte avvik på grunn av regresjon ("forklart" eller "faktoriell");
∑(y-y x)² - restsum av kvadrerte avvik.
Andelen av varians forklart av regresjon i den totale variansen til den resulterende karakteristikken y er karakterisert ved koeffisienten (indeksen) for bestemmelse R2:

Bestemmelseskoeffisienten er kvadratet av koeffisienten eller korrelasjonsindeksen.

F-testen - vurdering av kvaliteten på regresjonsligningen - består i å teste hypotesen Nei om den statistiske insignifikansen til regresjonsligningen og indikatoren på sammenhengens nærhet. For å gjøre dette, blir det gjort en sammenligning mellom det faktiske F-faktumet og de kritiske (tabellformede) F-tabellverdiene til Fisher F-kriteriet. F faktum bestemmes fra forholdet mellom verdiene av faktoren og gjenværende avvik, designet for én grad av frihet:
,
hvor n er antall befolkningsenheter; m er antall parametere for variablene x.
F-tabellen er den maksimalt mulige verdien av kriteriet under påvirkning av tilfeldige faktorer ved gitte frihetsgrader og signifikansnivå a. Signifikansnivået a er sannsynligheten for å forkaste den korrekte hypotesen, forutsatt at den er sann. Vanligvis tas a lik 0,05 eller 0,01.
Hvis F-tabellen< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F faktum, da forkastes ikke hypotesen H o, og den statistiske insignifikansen og upåliteligheten til regresjonsligningen blir anerkjent.
For å vurdere den statistiske signifikansen av regresjon og korrelasjonskoeffisienter, beregnes Students t-test og konfidensintervaller for hver indikator. Det fremsettes en hypotese om indikatorenes tilfeldighet, dvs. om deres ubetydelige forskjell fra null. Å vurdere betydningen av regresjon og korrelasjonskoeffisienter ved å bruke Students t-test utføres ved å sammenligne verdiene deres med størrelsen på den tilfeldige feilen:
; ; .
Tilfeldige feil i de lineære regresjonsparametrene og korrelasjonskoeffisienten bestemmes av formlene:



Ved å sammenligne de faktiske og kritiske (tabellformede) verdiene til t-statistikk - t-tabell og t-faktum - aksepterer eller avviser vi hypotesen H o.
Forholdet mellom Fisher F-testen og Student t-statistikken uttrykkes ved likheten

Hvis t tabell< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t er et faktum at hypotesen H o ikke forkastes og den tilfeldige karakteren av dannelsen av a, b eller r xy er anerkjent.
For å beregne konfidensintervallet, bestemmer vi maksimal feil D for hver indikator:
Δ a =t tabell m a , Δ b = t tabell m b .
Formlene for å beregne konfidensintervaller er som følger:
ya =aΔa; ya =a-Aa; γ a =a+Δa
yb = bAb; yb = b-Ab; γ b = b+Δ b
Hvis null faller innenfor konfidensintervallet, dvs. Hvis den nedre grensen er negativ og den øvre grensen er positiv, tas den estimerte parameteren til null, siden den ikke kan ta både positive og negative verdier samtidig.
Prognoseverdien y p bestemmes ved å erstatte den tilsvarende (prognose) verdien x p i regresjonsligningen y x =a+b·x. Den gjennomsnittlige standardfeilen for prognosen m y x beregnes:
,
Hvor
og et konfidensintervall for prognosen er konstruert:
y y x = y p Δ y p; yyxmin=yp-Δyp; γ y x max=y p +Δ y p
hvor Δ y x =t tabell m y x .

Eksempel løsning

Oppgave nr. 1. For syv territorier i Ural-regionen i 199X er verdiene til to kjennetegn kjent.
Tabell 1.

Påkrevd: 1. For å karakterisere avhengigheten til y av x, beregne parametrene til følgende funksjoner:
a) lineær;
b) kraft (du må først utføre prosedyren for linearisering av variablene ved å ta logaritmen til begge deler);
c) demonstrativ;
d) en likesidet hyperbel (du må også finne ut hvordan du forhåndslineariserer denne modellen).
2. Evaluer hver modell gjennom gjennomsnittsfeilen til tilnærming A og Fishers F-test.

Løsning (alternativ nr. 1)

For å beregne parametere a og b for lineær regresjon y=a+b·x (beregning kan gjøres ved hjelp av en kalkulator).
løse et system med normalligninger for EN Og b:
Ved å bruke de første dataene beregner vi ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x 2 y 2 y xå-å xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ons. betydning (Totalt/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s 232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Regresjonsligning: y = 76,88 - 0,35X. Med en økning i gjennomsnittlig dagslønn med 1 gni. andelen utgifter til kjøp av matvarer reduseres med i gjennomsnitt 0,35 prosentpoeng.
La oss beregne den lineære parkorrelasjonskoeffisienten:

Forbindelsen er moderat, omvendt.
La oss bestemme bestemmelseskoeffisienten: r² xy =(-0,35)=0,127
Variasjonen på 12,7 % i resultatet forklares med variasjonen i x-faktoren. Substituere inn i regresjonsligningen faktiske verdier X, la oss bestemme de teoretiske (beregnede) verdiene til y x . La oss finne verdien av gjennomsnittlig tilnærmingsfeil A:

I gjennomsnitt avviker beregnede verdier fra faktiske med 8,1 %.
La oss beregne F-kriteriet:

Den oppnådde verdien indikerer behovet for å akseptere hypotesen H 0 om den tilfeldige karakteren til den identifiserte avhengigheten og den statistiske insignifikansen til parametrene til ligningen og indikatoren på forbindelsens nærhet.
1b. Konstruksjonen av potensmodellen y=a·x b er innledet av prosedyren for linearisering av variabler. I eksemplet utføres linearisering ved å ta logaritmer på begge sider av ligningen:
lg y=lg a + b lg x
Y=C+b·Y
hvor Y=log(y), X=log(x), C=log(a).

For beregninger bruker vi dataene i tabellen. 1.3.
Tabell 1.3

YX YX Y2 X 2 y xå-å x(y-y x)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Gjennomsnittlig verdi1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ 20,0018 0,0023 XXXXXXX

La oss regne ut C og b:

C=Y -b·X = 1,7605+0,298·1,7370 = 2,278126
Vi får en lineær ligning: Y=2,278-0,298 X
Etter å ha utført potenseringen får vi: y=10 2,278 ·x -0,298
Erstatter faktiske verdier i denne ligningen X, vi får teoretiske verdier av resultatet. Basert på dem vil vi beregne følgende indikatorer: tilkoblingens tetthet - korrelasjonsindeks p xy og gjennomsnittlig tilnærmingsfeil A.

Egenskapene til maktlovmodellen indikerer at den beskriver forholdet noe bedre enn den lineære funksjonen.

1c. Konstruksjonen av ligningen til eksponentialkurven y=a·b x innledes av prosedyren for linearisering av variablene ved å ta logaritmen til begge sider av ligningen:
log y=log a + x log b
Y=C+B x
For beregninger bruker vi tabelldataene.

Yx Yx Y2 x 2y xå-å x(y-y x)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ons. zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ 20,0018 34,339 XXXXXXX

Verdier av regresjonsparametere A og I utgjorde:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Den oppnådde lineære ligningen er: Y=1,887-0,0023x. La oss potensere den resulterende ligningen og skrive den i vanlig form:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
La oss vurdere nærheten til forbindelsen gjennom korrelasjonsindeksen p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Total405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Gjennomsnittlig verdi57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ 232,9476 0,000005 XX

Regresjonsanalyse er statistisk metode forskning som lar deg vise avhengigheten til en bestemt parameter på en eller flere uavhengige variabler. I tiden før datamaskinen var bruken ganske vanskelig, spesielt når det gjaldt store datamengder. I dag, etter å ha lært hvordan du bygger regresjon i Excel, kan du løse komplekse statistiske problemer på bare et par minutter. Nedenfor er spesifikke eksempler fra økonomifaget.

Typer regresjon

Dette konseptet i seg selv ble introdusert i matematikk i 1886. Regresjon skjer:

  • lineær;
  • parabolsk;
  • sedate;
  • eksponentiell;
  • hyperbolsk;
  • demonstrativ;
  • logaritmisk.

Eksempel 1

La oss vurdere problemet med å bestemme avhengigheten av antall teammedlemmer som slutter på gjennomsnittslønnen hos 6 industribedrifter.

Oppgave. Ved seks virksomheter ble gjennomsnittlig månedslønn og antall ansatte som sluttet frivillig analysert. I tabellform har vi:

Antall personer som slutter

Lønn

30 000 rubler

35 000 rubler

40 000 rubler

45 000 rubler

50 000 rubler

55 000 rubler

60 000 rubler

For oppgaven med å bestemme avhengigheten av antall sluttarbeidere av gjennomsnittslønnen ved 6 bedrifter, har regresjonsmodellen formen av ligningen Y = a 0 + a 1 x 1 +...+a k x k, hvor x i er påvirkende variabler, a i er regresjonskoeffisientene, og k er antall faktorer.

For dette problemet er Y indikatoren på å slutte med ansatte, og påvirkningsfaktoren er lønn, som vi betegner med X.

Bruke egenskapene til Excel-regnearkprosessoren

Regresjonsanalyse i Excel må innledes ved å bruke innebygde funksjoner på eksisterende tabelldata. For disse formålene er det imidlertid bedre å bruke det veldig nyttige tillegget "Analysis Pack". For å aktivere den trenger du:

  • fra "Fil"-fanen, gå til "Alternativer"-delen;
  • i vinduet som åpnes, velg linjen "Tillegg";
  • klikk på "Go"-knappen nedenfor, til høyre for "Management"-linjen;
  • merk av i boksen ved siden av navnet "Analysepakke" og bekreft handlingene dine ved å klikke "Ok".

Hvis alt er gjort riktig, vil den nødvendige knappen vises på høyre side av "Data"-fanen, som ligger over Excel-regnearket.

i Excel

Nå som vi har alle nødvendige virtuelle verktøy for hånden for å utføre økonometriske beregninger, kan vi begynne å løse problemet vårt. For dette:

  • Klikk på "Dataanalyse"-knappen;
  • i vinduet som åpnes, klikk på "Regresjon" -knappen;
  • i fanen som vises, skriv inn verdiområdet for Y (antall som slutter) og for X (lønnen deres);
  • Vi bekrefter handlingene våre ved å trykke på "Ok"-knappen.

Som et resultat vil programmet automatisk fylle et nytt regneark med regresjonsanalysedata. Merk! Excel lar deg manuelt angi plasseringen du foretrekker for dette formålet. For eksempel kan det være det samme arket der Y- og X-verdiene er plassert, eller til og med En ny bok, spesielt utviklet for lagring av slike data.

Analyse av regresjonsresultater for R-kvadrat

I Excel har dataene innhentet under behandlingen av dataene i eksemplet under vurdering formen:

Først av alt bør du ta hensyn til R-kvadratverdien. Den representerer bestemmelseskoeffisienten. I dette eksemplet er R-kvadrat = 0,755 (75,5 %), dvs. de beregnede parametrene til modellen forklarer forholdet mellom parametrene under vurdering med 75,5 %. Jo høyere verdi av bestemmelseskoeffisienten er, jo mer egnet er den valgte modellen for en spesifikk oppgave. Det anses å korrekt beskrive den virkelige situasjonen når R-kvadratverdien er over 0,8. Hvis R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Oddsanalyse

Tallet 64.1428 viser hva verdien av Y vil være hvis alle variablene xi i modellen vi vurderer tilbakestilles til null. Det kan med andre ord hevdes at verdien av den analyserte parameteren også påvirkes av andre faktorer som ikke er beskrevet i en spesifikk modell.

Den neste koeffisienten -0,16285, som ligger i celle B18, viser vekten av påvirkningen av variabel X på Y. Dette betyr at gjennomsnittlig månedslønn til ansatte innenfor den aktuelle modellen påvirker antall sluttere med en vekt på -0,16285, dvs. graden av dens innflytelse er helt liten. "-"-tegnet indikerer at koeffisienten er negativ. Dette er åpenbart, siden alle vet at jo høyere lønn ved bedriften, desto færre uttrykker ønske om å si opp arbeidsavtalen eller slutte.

Multippel regresjon

Dette begrepet refererer til en relasjonsligning med flere uavhengige variabler av formen:

y=f(x 1 +x 2 +…x m) + ε, hvor y er den resulterende karakteristikken (avhengig variabel), og x 1, x 2, …x m er faktorkarakteristikker (uavhengige variabler).

Parameterestimat

For multippel regresjon (MR) utføres den ved hjelp av minste kvadraters metode (OLS). For lineære ligninger av formen Y = a + b 1 x 1 +…+b m x m + ε konstruerer vi et system med normale ligninger (se nedenfor)

For å forstå prinsippet for metoden, vurder et tofaktortilfelle. Da har vi en situasjon beskrevet av formelen

Herfra får vi:

hvor σ er variansen til den tilsvarende egenskapen som reflekteres i indeksen.

OLS er anvendelig for MR-ligningen på en standardisert skala. I dette tilfellet får vi ligningen:

der t y, t x 1, … t xm er standardiserte variabler, for hvilke gjennomsnittsverdiene er lik 0; β i er de standardiserte regresjonskoeffisientene, og standardavviket er 1.

Vær oppmerksom på at alle β i i dette tilfellet er spesifisert som normalisert og sentralisert, derfor anses sammenligningen deres med hverandre som korrekt og akseptabel. I tillegg er det vanlig å sile ut faktorer ved å forkaste de med de laveste βi-verdiene.

Problem ved bruk av lineær regresjonsligning

Anta at vi har en tabell over prisdynamikk for et spesifikt produkt N i løpet av de siste 8 månedene. Det er nødvendig å ta en beslutning om tilrådligheten av å kjøpe et parti av det til en pris av 1850 rubler / t.

månedsnummer

måneds navn

produktpris N

1750 rubler per tonn

1755 rubler per tonn

1767 rubler per tonn

1760 rubler per tonn

1770 rubler per tonn

1790 rubler per tonn

1810 rubler per tonn

1840 rubler per tonn

For å løse dette problemet i Excel-regnearkprosessoren, må du bruke verktøyet "Dataanalyse", som allerede er kjent fra eksemplet presentert ovenfor. Deretter velger du "Regresjon"-delen og setter parametrene. Det må huskes at i feltet "Input interval Y" må et verdiområde angis for den avhengige variabelen (i dette tilfellet priser for varer i bestemte måneder av året), og i "Input interval X" - for den uavhengige variabelen (månedsnummer). Bekreft handlingen ved å klikke "Ok". På et nytt ark (hvis det er angitt) henter vi data for regresjon.

Ved hjelp av dem konstruerer vi en lineær ligning av formen y=ax+b, der parameterne a og b er koeffisientene til linjen med navnet på månedsnummeret og koeffisientene og linjene «Y-skjæringspunktet» fra arket med resultatene av regresjonsanalysen. Dermed er den lineære regresjonsligningen (LR) for oppgave 3 skrevet som:

Produktpris N = 11.714* månedsnummer + 1727.54.

eller i algebraisk notasjon

y = 11,714 x + 1727,54

Analyse av resultater

For å avgjøre om den resulterende lineære regresjonsligningen er tilstrekkelig, brukes koeffisientene for multippelkorrelasjon (MCC) og bestemmelse, samt Fisher-testen og Student t-testen. I Excel-regnearket med regresjonsresultater kalles de henholdsvis multiple R, R-squared, F-statistic og t-statistics.

KMC R gjør det mulig å vurdere hvor nært det sannsynlige forholdet mellom de uavhengige og avhengige variablene er. Dens høye verdi indikerer en ganske sterk sammenheng mellom variablene "Antall måned" og "Pris på produkt N i rubler per 1 tonn". Naturen til dette forholdet er imidlertid fortsatt ukjent.

Kvadraten av bestemmelseskoeffisienten R2 (RI) er en numerisk karakteristikk av andelen av den totale spredningen og viser spredningen av hvilken del av forsøksdataene, dvs. verdiene til den avhengige variabelen tilsvarer den lineære regresjonsligningen. I problemet under vurdering er denne verdien lik 84,8%, dvs. statistiske data er beskrevet med en høy grad av nøyaktighet av den resulterende SD.

F-statistikk, også kalt Fishers test, brukes til å evaluere betydningen av et lineært forhold, ved å tilbakevise eller bekrefte hypotesen om dens eksistens.

(Students test) hjelper til med å evaluere betydningen av koeffisienten med en ukjent eller fri term for den lineære sammenhengen. Hvis verdien av t-testen > tcr, så forkastes hypotesen om ubetydeligheten av frileddet til den lineære ligningen.

I oppgaven under vurdering for den frie termen, ved bruk av Excel-verktøy, ble det oppnådd at t = 169.20903, og p = 2.89E-12, det vil si at vi har null sannsynlighet for at den korrekte hypotesen om ubetydeligheten til frileddet vil bli forkastet . For koeffisienten for den ukjente t=5,79405, og p=0,001158. Sannsynligheten for at den korrekte hypotesen om insignifikansen av koeffisienten for en ukjent vil bli forkastet er med andre ord 0,12 %.

Dermed kan det hevdes at den resulterende lineære regresjonsligningen er tilstrekkelig.

Problemet med muligheten for å kjøpe en aksjeblokk

Multippel regresjon i Excel utføres ved hjelp av det samme dataanalyseverktøyet. La oss vurdere et spesifikt applikasjonsproblem.

Ledelsen i NNN-selskapet må ta stilling til om det er tilrådelig å kjøpe en 20% eierandel i MMM JSC. Kostnaden for pakken (SP) er 70 millioner amerikanske dollar. NNN-spesialister har samlet inn data om lignende transaksjoner. Det ble besluttet å evaluere verdien av aksjeblokken i henhold til slike parametere, uttrykt i millioner av amerikanske dollar, som:

  • leverandørgjeld (VK);
  • årlig omsetningsvolum (VO);
  • kundefordringer (VD);
  • kostnad for anleggsmidler (COF).

I tillegg brukes parameteren for bedriftens lønnsrestanser (V3 P) i tusenvis av amerikanske dollar.

Løsning ved hjelp av Excel-regnearkprosessor

Først av alt må du lage en tabell med kildedata. Det ser slik ut:

  • kall opp "Data Analysis"-vinduet;
  • velg "Regresjon"-delen;
  • I boksen "Input interval Y" skriver du inn verdiområdet til de avhengige variablene fra kolonne G;
  • Klikk på ikonet med en rød pil til høyre for "Input interval X"-vinduet og marker utvalget av alle verdier fra kolonnene B, C, D, F på arket.

Merk elementet "Nytt regneark" og klikk "OK".

Skaff en regresjonsanalyse for et gitt problem.

Studie av resultater og konklusjoner

Vi "samler inn" fra de avrundede dataene presentert ovenfor på tabellarket Excel-prosessor, regresjonsligning:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

I en mer kjent matematisk form kan det skrives som:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Data for MMM JSC er presentert i tabellen:

Setter vi dem inn i regresjonsligningen, får vi et tall på 64,72 millioner amerikanske dollar. Dette betyr at aksjene til MMM JSC ikke er verdt å kjøpe, siden verdien på 70 millioner amerikanske dollar er ganske oppblåst.

Som du kan se, gjorde bruken av Excel-regnearket og regresjonsligningen det mulig å ta en informert beslutning om gjennomførbarheten av en veldig spesifikk transaksjon.

Nå vet du hva regresjon er. Excel-eksemplene diskutert ovenfor vil hjelpe deg med å bestemme praktiske problemer fra faget økonometri.

Del med venner eller spar selv:

Laster inn...