Equazione di regressione. Equazione di regressione multipla. Analisi di correlazione e regressione in Excel: istruzioni di esecuzione Quali sono i requisiti per un modello di analisi di regressione?

L'analisi di regressione e di correlazione sono metodi di ricerca statistica. Questi sono i modi più comuni per mostrare la dipendenza di un parametro da una o più variabili indipendenti.

Di seguito, utilizzando specifici esempi pratici, prenderemo in considerazione queste due analisi molto apprezzate dagli economisti. Daremo anche un esempio di come ottenere risultati combinandoli.

Analisi di regressione in Excel

Mostra l'influenza di alcuni valori (indipendenti, indipendenti) sulla variabile dipendente. Ad esempio, in che modo il numero della popolazione economicamente attiva dipende dal numero di imprese, dai salari e da altri parametri. Oppure: come influiscono gli investimenti esteri, i prezzi dell’energia, ecc. sul livello del PIL.

Il risultato dell'analisi consente di evidenziare le priorità. E sulla base dei fattori principali, prevedere, pianificare lo sviluppo delle aree prioritarie e prendere decisioni di gestione.

La regressione avviene:

lineare (y = a + bx);
parabolico (y = a + bx + cx 2);
esponenziale (y = a * exp(bx));
potenza (y = a*x^b);
iperbolico (y = b/x + a);
logaritmico (y = b * 1n(x) + a);
esponenziale (y = a * b^x).

Diamo un'occhiata a un esempio di creazione di un modello di regressione in Excel e interpretazione dei risultati. Prendiamo il tipo di regressione lineare.

Compito. In 6 imprese sono stati analizzati il salario medio mensile e il numero di dipendenti in uscita. È necessario determinare la dipendenza del numero di dipendenti in uscita dallo stipendio medio.

Il modello di regressione lineare si presenta così:

Y = a 0 + a 1 x 1 +…+a k x k.

Dove a sono coefficienti di regressione, x sono variabili che influenzano, k è il numero di fattori.

Nel nostro esempio, Y è l'indicatore delle dimissioni dei dipendenti. Il fattore che influenza è il salario (x).

Excel dispone di funzioni integrate che possono aiutarti a calcolare i parametri di un modello di regressione lineare. Ma il componente aggiuntivo "Pacchetto analisi" lo farà più velocemente.

Attiviamo un potente strumento analitico:

Una volta attivato, il componente aggiuntivo sarà disponibile nella scheda Dati.

Ora eseguiamo l'analisi di regressione vera e propria.

Prima di tutto prestiamo attenzione all'R quadrato e ai coefficienti.

R quadrato è il coefficiente di determinazione. Nel nostro esempio – 0,755, ovvero 75,5%. Ciò significa che i parametri calcolati del modello spiegano il 75,5% della relazione tra i parametri studiati. Più alto è il coefficiente di determinazione, migliore è il modello. Buono - superiore a 0,8. Cattivo – inferiore a 0,5 (tale analisi difficilmente può essere considerata ragionevole). Nel nostro esempio – “non male”.

Il coefficiente 64.1428 mostra quale sarà Y se tutte le variabili nel modello in esame sono uguali a 0. Cioè, il valore del parametro analizzato è influenzato anche da altri fattori non descritti nel modello.

Il coefficiente -0,16285 mostra il peso della variabile X su Y. Cioè, lo stipendio mensile medio all'interno di questo modello influenza il numero di coloro che lasciano il lavoro con un peso di -0,16285 (si tratta di un piccolo grado di influenza). Il segno "-" indica cattiva influenza: più alto è lo stipendio, meno persone si licenziano. Il che è giusto.

Analisi di correlazione in Excel

L'analisi di correlazione aiuta a determinare se esiste una relazione tra gli indicatori in uno o due campioni. Ad esempio, tra il tempo di funzionamento di una macchina e il costo delle riparazioni, il prezzo dell'attrezzatura e la durata di funzionamento, l'altezza e il peso dei bambini, ecc.

Se esiste una connessione, l'aumento di un parametro porta ad un aumento (correlazione positiva) o una diminuzione (negativa) dell'altro. L'analisi di correlazione aiuta l'analista a determinare se il valore di un indicatore può essere utilizzato per prevedere il possibile valore di un altro.

Il coefficiente di correlazione è indicato con r. Varia da +1 a -1. La classificazione delle correlazioni per le diverse aree sarà diversa. Quando il coefficiente è 0, non esiste una relazione lineare tra i campioni.

Diamo un'occhiata a come trovare il coefficiente di correlazione utilizzando Excel.

Per trovare coefficienti accoppiati, viene utilizzata la funzione CORRELAZIONE.

Obiettivo: determinare se esiste una relazione tra il tempo di funzionamento di un tornio e il costo della sua manutenzione.

Posiziona il cursore in qualsiasi cella e premi il pulsante fx.

Nella categoria “Statistica”, seleziona la funzione CORRELAZIONE.
Argomento “Array 1” - il primo intervallo di valori – tempo di funzionamento della macchina: A2:A14.
Argomento “Array 2” - secondo intervallo di valori – costo di riparazione: B2:B14. Fare clic su OK.

Per determinare il tipo di connessione, è necessario considerare il numero assoluto del coefficiente (ogni campo di attività ha la propria scala).

Per l'analisi di correlazione di più parametri (più di 2), è più conveniente utilizzare “Analisi dei dati” (il componente aggiuntivo “Pacchetto di analisi”). È necessario selezionare la correlazione dall'elenco e designare l'array. Tutto.

I coefficienti risultanti verranno visualizzati nella matrice di correlazione. Come questo:

Analisi di correlazione e regressione

In pratica, queste due tecniche vengono spesso utilizzate insieme.

Esempio:

Ora i dati dell'analisi di regressione sono diventati visibili.

Durante i loro studi, gli studenti incontrano molto spesso una varietà di equazioni. Uno di questi, l'equazione di regressione, è discusso in questo articolo. Questo tipo di equazione viene utilizzato specificamente per descrivere le caratteristiche della relazione tra parametri matematici. Questo tipo le uguaglianze sono utilizzate in statistica ed econometria.

Definizione di regressione

In matematica, per regressione si intende una certa quantità che descrive la dipendenza del valore medio di un insieme di dati dai valori di un'altra quantità. L'equazione di regressione mostra, in funzione di una particolare caratteristica, il valore medio di un'altra caratteristica. La funzione di regressione ha la forma semplice equazione y = x, in cui y agisce come variabile dipendente e x come variabile indipendente (fattore di caratteristica). Infatti, la regressione è espressa come y = f (x).

Quali sono i tipi di relazioni tra le variabili?

In generale, esistono due tipi opposti di relazioni: correlazione e regressione.

Il primo è caratterizzato dall'uguaglianza delle variabili condizionali. IN in questo caso Non si sa con certezza quale variabile dipenda dall'altra.

Se non c'è uguaglianza tra le variabili e le condizioni dicono quale variabile è esplicativa e quale dipendente, allora si può parlare della presenza di una connessione del secondo tipo. Per costruire un'equazione di regressione lineare, sarà necessario scoprire quale tipo di relazione si osserva.

Tipi di regressioni

Oggi esistono 7 diversi tipi di regressione: iperbolica, lineare, multipla, non lineare, a coppie, inversa, logaritmicamente lineare.

Iperbolica, lineare e logaritmica

L'equazione di regressione lineare viene utilizzata nelle statistiche per spiegare chiaramente i parametri dell'equazione. Sembra che y = c+t*x+E. Un'equazione iperbolica ha la forma di un'iperbole regolare y = c + m / x + E. Un'equazione logaritmicamente lineare esprime la relazione utilizzando una funzione logaritmica: In y = In c + m * In x + In E.

Molteplici e non lineari

Ancora due tipi complessi La regressione è multipla e non lineare. L'equazione di regressione multipla è espressa dalla funzione y = f(x 1, x 2 ... x c) + E. In questa situazione, y agisce come variabile dipendente e x agisce come variabile esplicativa. La variabile E è stocastica; include l'influenza di altri fattori nell'equazione. L’equazione di regressione non lineare è un po’ controversa. Da un lato, rispetto agli indicatori presi in considerazione, non è lineare, ma dall'altro, nel ruolo di valutazione degli indicatori, è lineare.

Tipi di regressione inversa e accoppiata

Un inverso è un tipo di funzione che deve essere convertito in una forma lineare. Nel modo più tradizionale programmi applicativi ha la forma di una funzione y = 1/c + m*x+E. Un'equazione di regressione a coppie mostra la relazione tra i dati in funzione di y = f (x) + E. Proprio come in altre equazioni, y dipende da x ed E è un parametro stocastico.

Concetto di correlazione

Questo è un indicatore che dimostra l'esistenza di una relazione tra due fenomeni o processi. La forza della relazione è espressa come coefficiente di correlazione. Il suo valore oscilla all'interno dell'intervallo [-1;+1]. Un indicatore negativo indica la presenza feedback, positivo - su una linea retta. Se il coefficiente assume un valore pari a 0, non esiste alcuna relazione. Più il valore è vicino a 1, più forte è la relazione tra i parametri; più vicino a 0, più debole è.

Metodi

I metodi parametrici di correlazione possono valutare la forza della relazione. Vengono utilizzati sulla base della stima della distribuzione per studiare parametri che obbediscono alla legge della distribuzione normale.

I parametri dell'equazione di regressione lineare sono necessari per identificare il tipo di dipendenza, la funzione dell'equazione di regressione e valutare gli indicatori della formula di relazione selezionata. Il campo di correlazione viene utilizzato come metodo di identificazione della connessione. Per fare ciò, tutti i dati esistenti devono essere rappresentati graficamente. Tutti i dati conosciuti devono essere tracciati in un sistema di coordinate bidimensionale rettangolare. Ecco come si forma un campo di correlazione. Lungo l’asse delle ascisse sono segnati i valori del fattore descrittivo, lungo l’asse delle ordinate sono segnati i valori del fattore dipendente. Se esiste una relazione funzionale tra i parametri, questi vengono allineati sotto forma di una linea.

Se il coefficiente di correlazione di tali dati è inferiore al 30%, si può parlare di una quasi totale assenza di connessione. Se è compreso tra il 30% e il 70% allora indica la presenza di connessioni medio-vicine. Un indicatore del 100% è la prova di una connessione funzionale.

Un'equazione di regressione non lineare, proprio come una lineare, deve essere integrata con un indice di correlazione (R).

Correlazione per la regressione multipla

Il coefficiente di determinazione è un indicatore del quadrato della correlazione multipla. Parla della stretta relazione tra l'insieme di indicatori presentato e la caratteristica studiata. Può anche parlare della natura dell'influenza dei parametri sul risultato. L'equazione di regressione multipla viene stimata utilizzando questo indicatore.

Per calcolare l'indicatore di correlazione multipla è necessario calcolare il suo indice.

Metodo dei minimi quadrati

Questo metodo è un modo per stimare i fattori di regressione. La sua essenza è ridurre al minimo la somma delle deviazioni quadrate ottenute come risultato della dipendenza del fattore dalla funzione.

Un'equazione di regressione lineare a coppie può essere stimata utilizzando tale metodo. Questo tipo di equazioni viene utilizzato quando viene rilevata una relazione lineare accoppiata tra gli indicatori.

Parametri dell'equazione

Ogni parametro della funzione di regressione lineare ha un significato specifico. L'equazione di regressione lineare accoppiata contiene due parametri: c e m. Il parametro m dimostra la variazione media dell'indicatore finale della funzione y, a condizione che la variabile x diminuisca (aumenti) di un'unità convenzionale. Se la variabile x è zero, la funzione è uguale al parametro c. Se la variabile x non è zero, il fattore c non ha significato economico. L'unica influenza sulla funzione è il segno davanti al fattore c. Se c'è un segno negativo, allora possiamo dire che il cambiamento nel risultato è lento rispetto al fattore. Se c'è un vantaggio, ciò indica un cambiamento accelerato nel risultato.

Ogni parametro che modifica il valore dell'equazione di regressione può essere espresso tramite un'equazione. Ad esempio, il fattore c ha la forma c = y - mx.

Dati raggruppati

Esistono condizioni di attività in cui tutte le informazioni sono raggruppate per attributo x, ma per un determinato gruppo vengono indicati i valori medi corrispondenti dell'indicatore dipendente. In questo caso, i valori medi caratterizzano il modo in cui cambia l'indicatore in base a x. Pertanto, le informazioni raggruppate aiutano a trovare l'equazione di regressione. Viene utilizzato come analisi delle relazioni. Tuttavia, questo metodo ha i suoi svantaggi. Sfortunatamente, gli indicatori medi sono spesso soggetti a fluttuazioni esterne. Queste fluttuazioni non riflettono lo schema della relazione; ne mascherano semplicemente il “rumore”. Le medie mostrano modelli di relazione molto peggiori di un’equazione di regressione lineare. Tuttavia, possono essere utilizzati come base per trovare un'equazione. Moltiplicando il numero di una singola popolazione per la media corrispondente, si può ottenere la somma y all'interno del gruppo. Successivamente, è necessario sommare tutti gli importi ricevuti e trovare l'indicatore finale y. È un po’ più difficile fare calcoli con l’indicatore somma xy. Se gli intervalli sono piccoli, possiamo condizionatamente assumere che l'indicatore x per tutte le unità (all'interno del gruppo) sia lo stesso. Dovresti moltiplicarlo per la somma di y per trovare la somma dei prodotti di x e y. Successivamente, tutti gli importi vengono sommati e si ottiene l'importo totale xy.

Equazione di regressione multipla a coppie: valutare l'importanza di una relazione

Come discusso in precedenza, la regressione multipla ha una funzione della forma y = f (x 1,x 2,…,x m)+E. Molto spesso, tale equazione viene utilizzata per risolvere il problema della domanda e dell'offerta di un prodotto, degli interessi attivi sulle azioni riacquistate e per studiare le cause e il tipo della funzione dei costi di produzione. Viene anche utilizzata attivamente in un’ampia varietà di studi e calcoli macroeconomici, ma a livello microeconomico questa equazione viene utilizzata un po’ meno frequentemente.

Il compito principale della regressione multipla è costruire un modello di dati contenente un'enorme quantità di informazioni al fine di determinare ulteriormente quale influenza ha ciascuno dei fattori individualmente e nel loro insieme. popolazione generale sull’indicatore da modellizzare e sui suoi coefficienti. L'equazione di regressione può assumere un'ampia varietà di valori. In questo caso, per valutare la relazione, vengono solitamente utilizzati due tipi di funzioni: lineari e non lineari.

La funzione lineare è rappresentata come la seguente relazione: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. In questo caso a2, a m sono considerati coefficienti di regressione “puri”. Sono necessari per caratterizzare la variazione media del parametro y con una variazione (diminuzione o aumento) di ciascun parametro corrispondente x di un'unità, con la condizione di valori stabili di altri indicatori.

Le equazioni non lineari hanno, ad esempio, la forma di una funzione di potenza y=ax 1 b1 x 2 b2 ...x m bm. In questo caso, gli indicatori b 1, b 2 ..... b m sono chiamati coefficienti di elasticità, dimostrano come il risultato cambierà (di quanto%) con un aumento (diminuzione) dell'indicatore corrispondente x dell'1% e con un indicatore stabile di altri fattori.

Quali fattori devono essere presi in considerazione quando si costruisce una regressione multipla

Per costruire correttamente una regressione multipla, è necessario scoprire a quali fattori prestare particolare attenzione.

È necessario avere una certa comprensione della natura delle relazioni tra i fattori economici e ciò che viene modellato. I fattori che dovranno essere inclusi devono soddisfare i seguenti criteri:

Deve essere soggetto a misurazione quantitativa. Per poter utilizzare un fattore che descriva la qualità di un oggetto, occorre in ogni caso dargli una forma quantitativa.
Non dovrebbe esserci alcuna intercorrelazione di fattori o relazione funzionale. Tali azioni molto spesso portano a conseguenze irreversibili: il sistema di equazioni ordinarie diventa incondizionato e ciò comporta la sua inaffidabilità e stime poco chiare.
Nel caso di un indicatore di correlazione enorme, non è possibile scoprire l'influenza isolata dei fattori sul risultato finale dell'indicatore, pertanto i coefficienti diventano non interpretabili.

Metodi di costruzione

Esistono numerosi metodi e metodi che spiegano come selezionare i fattori per un'equazione. Tuttavia, tutti questi metodi si basano sulla selezione di coefficienti utilizzando un indicatore di correlazione. Tra questi ci sono:

Metodo di eliminazione.
Metodo di commutazione.
Analisi di regressione graduale.

Il primo metodo prevede il filtraggio di tutti i coefficienti dall'insieme totale. Il secondo metodo prevede l’introduzione di molti fattori aggiuntivi. Bene, il terzo è l'eliminazione dei fattori precedentemente utilizzati per l'equazione. Ciascuno di questi metodi ha il diritto di esistere. Hanno i loro pro e contro, ma tutti possono risolvere il problema dell'eliminazione degli indicatori non necessari a modo loro. Di norma, i risultati ottenuti con ogni singolo metodo sono abbastanza vicini.

Metodi di analisi multivariata

Tali metodi per determinare i fattori si basano sulla considerazione di combinazioni individuali di caratteristiche correlate. Questi includono l'analisi discriminante, il riconoscimento della forma, l'analisi delle componenti principali e l'analisi dei cluster. Inoltre, esiste anche l'analisi fattoriale, ma è apparsa a causa dello sviluppo del metodo dei componenti. Tutti si applicano in determinate circostanze, soggette a determinate condizioni e fattori.

L'analisi di regressione è un metodo per stabilire un'espressione analitica per la dipendenza stocastica tra le caratteristiche studiate. L'equazione di regressione mostra come cambia la media A quando si modifica uno di X io , ed ha la forma:

Dove sì - variabile dipendente (è sempre la stessa);

X io - variabili indipendenti (fattori) (potrebbero essercene diversi).

Se esiste una sola variabile indipendente, questa è una semplice analisi di regressione. Se ce ne sono diversi ( P 2), allora tale analisi è detta multifattoriale.

L’analisi di regressione risolve due problemi principali:

costruire un'equazione di regressione, cioè individuare il tipo di relazione tra l’indicatore di risultato e i fattori indipendenti X 1 , X 2 , …, X N .

valutazione del significato dell'equazione risultante, vale a dire determinare in che misura le caratteristiche del fattore selezionato spiegano la variazione di un tratto tu.

L’analisi di regressione viene utilizzata principalmente per la pianificazione, nonché per lo sviluppo di un quadro normativo.

A differenza dell'analisi di correlazione, che risponde solo alla domanda se esiste una relazione tra le caratteristiche analizzate, l'analisi di regressione ne fornisce anche l'espressione formalizzata. Inoltre, se l'analisi di correlazione studia qualsiasi relazione tra fattori, l'analisi di regressione studia la dipendenza unilaterale, ad es. una relazione che mostra come un cambiamento nelle caratteristiche del fattore influenza la caratteristica effettiva.

L'analisi di regressione è uno dei metodi più sviluppati della statistica matematica. A rigor di termini, per implementare l’analisi di regressione è necessario soddisfare una serie di requisiti speciali (in particolare, X l ,X 2 ,...,X N ;sì devono essere variabili casuali indipendenti, normalmente distribuite e con varianze costanti). IN vita reale il rigoroso rispetto dei requisiti dell'analisi di regressione e di correlazione è molto raro, ma entrambi questi metodi sono molto comuni nella ricerca economica. Le dipendenze in economia possono essere non solo dirette, ma anche inverse e non lineari. Un modello di regressione può essere costruito in presenza di qualsiasi dipendenza, tuttavia, nell'analisi multivariata vengono utilizzati solo modelli lineari della forma:

L'equazione di regressione viene solitamente costruita utilizzando il metodo minimi quadrati, la cui essenza è ridurre al minimo la somma dei quadrati delle deviazioni dei valori effettivi della caratteristica risultante dai suoi valori calcolati, ovvero:

Dove T - numero di osservazioni;

J =a+b 1 X 1 J +b 2 X 2 J + ... + b N X N J - valore calcolato del fattore di risultato.

Si consiglia di determinare i coefficienti di regressione utilizzando pacchetti analitici per un personal computer o uno speciale calcolatore finanziario. Nel caso più semplice, i coefficienti di regressione di un'univariata equazione lineare regressioni della forma y = a + bx può essere trovato utilizzando le formule:

Analisi di gruppo

L'analisi dei cluster è uno dei metodi di analisi multidimensionale destinati a raggruppare (clustering) una popolazione i cui elementi sono caratterizzati da molte caratteristiche. I valori di ciascuna caratteristica servono come coordinate di ciascuna unità della popolazione studiata nello spazio multidimensionale delle caratteristiche. Ogni osservazione, caratterizzata dai valori di più indicatori, può essere rappresentata come un punto nello spazio di tali indicatori, i cui valori sono considerati come coordinate in uno spazio multidimensionale. Distanza tra punti R E Q Con K le coordinate sono definite come:

Il criterio principale per il clustering è che le differenze tra i cluster dovrebbero essere più significative che tra le osservazioni assegnate allo stesso cluster, vale a dire in uno spazio multidimensionale si deve osservare la seguente disuguaglianza:

Dove R 1, 2 - distanza tra i cluster 1 e 2.

Proprio come le procedure di analisi di regressione, la procedura di clustering è piuttosto laboriosa; è consigliabile eseguirla su un computer.

Lo scopo principale dell'analisi di regressione consiste nel determinare la forma analitica di comunicazione in cui il cambiamento della caratteristica effettiva è dovuto all'influenza di una o più caratteristiche del fattore, e l'insieme di tutti gli altri fattori che influenzano anche la caratteristica effettiva sono presi come valori costanti e medi.
Problemi di analisi di regressione:
a) Stabilire la forma di dipendenza. Per quanto riguarda la natura e la forma della relazione tra i fenomeni, viene fatta una distinzione tra regressione lineare e non lineare positiva e regressione lineare e non lineare negativa.
b) Determinazione della funzione di regressione sotto forma di un'equazione matematica di un tipo o dell'altro e determinazione dell'influenza delle variabili esplicative sulla variabile dipendente.
c) Stima dei valori incogniti della variabile dipendente. Utilizzando la funzione di regressione, è possibile riprodurre i valori della variabile dipendente entro l'intervallo dei valori specificati delle variabili esplicative (ovvero risolvere il problema dell'interpolazione) o valutare il corso del processo al di fuori dell'intervallo specificato (ovvero risolvere il problema dell'estrapolazione). Il risultato è una stima del valore della variabile dipendente.

La regressione a coppie è un'equazione per la relazione tra due variabili yex: y=f(x), dove y è la variabile dipendente (attributo risultante); x è una variabile esplicativa indipendente (fattore di caratteristica).

Esistono regressioni lineari e non lineari.
Regressione lineare: y = a + bx + ε
Le regressioni non lineari si dividono in due classi: regressioni non lineari rispetto alle variabili esplicative incluse nell'analisi, ma lineari rispetto ai parametri stimati, e regressioni non lineari rispetto ai parametri stimati.
Regressioni non lineari nelle variabili esplicative:

Regressioni non lineari rispetto ai parametri da stimare:

potenza y=a x b ε
esponenziale y=a b x ε
esponenziale y=e a+b x ε

Costruire un'equazione di regressione si riduce alla stima dei suoi parametri. Per stimare i parametri delle regressioni lineari in parametri, viene utilizzato il metodo dei minimi quadrati (OLS). Il metodo dei minimi quadrati consente di ottenere stime di parametri in cui la somma delle deviazioni al quadrato dei valori effettivi della caratteristica risultante y dal teorico y x è minima, vale a dire

.
Per le equazioni lineari e non lineari riducibili a lineari, il seguente sistema è risolto per a e b:

Puoi utilizzare formule già pronte che seguono da questo sistema:

La vicinanza della connessione tra i fenomeni studiati è valutata dal coefficiente di correlazione della coppia lineare r xy per la regressione lineare (-1≤r xy ≤1):

e indice di correlazione p xy - per regressione non lineare (0≤p xy ≤1):

La qualità del modello costruito sarà valutata dal coefficiente (indice) di determinazione, nonché dall'errore medio di approssimazione.
Errore di approssimazione medio - deviazione media dei valori calcolati da quelli effettivi:

.
Il limite consentito dei valori A non è superiore all'8-10%.
Il coefficiente di elasticità medio E mostra di quale percentuale in media il risultato totale cambierà rispetto al suo taglia media quando il fattore x cambia dell'1% rispetto al suo valore medio:
.

Lo scopo dell'analisi della varianza è analizzare la varianza della variabile dipendente:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
dove ∑(y-y)² è la somma totale delle deviazioni quadrate;
∑(y x -y)² - la somma dei quadrati delle deviazioni dovute alla regressione (“spiegata” o “fattoriale”);
∑(y-y x)² - somma residua delle deviazioni quadrate.
La quota di varianza spiegata dalla regressione nella varianza totale della caratteristica risultante y è caratterizzata dal coefficiente (indice) di determinazione R2:

Il coefficiente di determinazione è il quadrato del coefficiente o indice di correlazione.

Il test F - valutare la qualità dell'equazione di regressione - consiste nel testare l'ipotesi No sull'insignificanza statistica dell'equazione di regressione e l'indicatore della vicinanza della relazione. A tale scopo viene effettuato un confronto tra il fatto F effettivo e i valori critici della tabella F (tabellare) del criterio F di Fisher. Il fatto F è determinato dal rapporto tra i valori del fattore e varianze residue, progettato per un grado di libertà:
,
dove n è il numero di unità di popolazione; m è il numero di parametri per le variabili x.
La tabella F è il valore massimo possibile del criterio sotto l'influenza di fattori casuali a determinati gradi di libertà e livello di significatività a. Il livello di significatività a è la probabilità di rifiutare l'ipotesi corretta, a condizione che sia vera. Di solito a viene considerato pari a 0,05 o 0,01.
Se la tabella F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F fatto, allora l'ipotesi H o non viene rifiutata e viene riconosciuta l'insignificanza statistica e l'inaffidabilità dell'equazione di regressione.
Per valutare la significatività statistica dei coefficienti di regressione e di correlazione, vengono calcolati il test t di Student e gli intervalli di confidenza per ciascun indicatore. Viene avanzata un'ipotesi sulla natura casuale degli indicatori, ad es. sulla loro insignificante differenza da zero. La valutazione del significato dei coefficienti di regressione e di correlazione utilizzando il test t di Student viene effettuata confrontando i loro valori con l'entità dell'errore casuale:
; ; .
Gli errori casuali dei parametri di regressione lineare e il coefficiente di correlazione sono determinati dalle formule:

Confrontando i valori effettivi e critici (tabellari) delle statistiche t - t tabella e t fatto - accettiamo o rifiutiamo l'ipotesi H o.
La relazione tra il test F di Fisher e la statistica t di Student è espressa dall'uguaglianza

Se t tavolo< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >È un dato di fatto che non si rifiuta l'ipotesi H o e si riconosce la natura casuale della formazione di a, b o r xy.
Per calcolare l'intervallo di confidenza, determiniamo l'errore massimo D per ciascun indicatore:
Δ un =t tabella m un , Δ b =t tabella m b .
Le formule per il calcolo degli intervalli di confidenza sono le seguenti:
γ a = aΔ a ; γ a = a-Δ a ; γa =a+Δa
γb =bΔb; γ b =b-Δ b ; γb =b+Δb
Se zero rientra nell'intervallo di confidenza, ad es. Se il limite inferiore è negativo e il limite superiore è positivo, il parametro stimato viene considerato pari a zero, poiché non può assumere contemporaneamente valori positivi e negativi.
Il valore previsto y p viene determinato sostituendo il corrispondente valore (previsto) x p nell'equazione di regressione y x =a+b·x. Si calcola l'errore standard medio della previsione m y x:
,
Dove
e viene costruito un intervallo di confidenza per la previsione:
γ y x = y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p + Δ y p
dove Δ y x =t tabella m y x .

Soluzione di esempio

Compito n. 1. Per sette territori della regione degli Urali nel 199X sono noti i valori di due caratteristiche.
Tabella 1.

Necessario: 1. Per caratterizzare la dipendenza di y da x, calcolare i parametri delle seguenti funzioni:
a) lineare;
b) potenza (è necessario prima eseguire la procedura di linearizzazione delle variabili prendendo il logaritmo di entrambe le parti);
c) dimostrativo;
d) un'iperbole equilatera (devi anche capire come pre-linearizzare questo modello).
2. Valutare ciascun modello attraverso l'errore medio dell'approssimazione A e il test F di Fisher.

Soluzione (Opzione n. 1)

Per calcolare i parametri aeb della regressione lineare y=a+b·x (il calcolo può essere effettuato utilizzando una calcolatrice).
risolvere un sistema di equazioni normali per UN E B:

Utilizzando i dati iniziali, calcoliamo ∑y, ∑x, ∑y x, ∑x², ∑y²:

	sì	X	yx	x2	sì 2	e x	y-y x	Un io
l	68,8	45,1	3102,88	2034,01	4733,44	61,3	7,5	10,9
2	61,2	59,0	3610,80	3481,00	3745,44	56,5	4,7	7,7
3	59,9	57,2	3426,28	3271,84	3588,01	57,1	2,8	4,7
4	56,7	61,8	3504,06	3819,24	3214,89	55,5	1,2	2,1
5	55,0	58,8	3234,00	3457,44	3025,00	56,5	-1,5	2,7
6	54,3	47,2	2562,96	2227,84	2948,49	60,5	-6,2	11,4
7	49,3	55,2	2721,36	3047,04	2430,49	57,8	-8,5	17,2
Totale	405,2	384,3	22162,34	21338,41	23685,76	405,2	0,0	56,7
Mercoledì Senso (Totale/n)	57,89 sì	54,90 X	3166,05 xy	3048,34 x²	3383,68 y²	X	X	8,1
S	5,74	5,86	X	X	X	X	X	X
S 2	32,92	34,34	X	X	X	X	X	X

a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Equazione di regressione: y = 76,88 - 0,35X. Con un aumento della paga giornaliera media di 1 rublo. la quota di spesa per l'acquisto di prodotti alimentari diminuisce in media di 0,35 punti percentuali.
Calcoliamo il coefficiente di correlazione della coppia lineare:

La connessione è moderata, inversa.
Determiniamo il coefficiente di determinazione: r² xy =(-0,35)=0,127
La variazione del 12,7% nel risultato è spiegata dalla variazione del fattore x. Sostituendo nell'equazione di regressione valori reali X, determiniamo i valori teorici (calcolati) di y x . Troviamo il valore dell’errore medio di approssimazione A:

In media, i valori calcolati si discostano da quelli effettivi dell’8,1%.
Calcoliamo il criterio F:

Il valore ottenuto indica la necessità di accettare l'ipotesi H 0 sulla natura casuale della dipendenza identificata e sull'insignificanza statistica dei parametri dell'equazione e dell'indicatore della vicinanza della connessione.
1b. La costruzione del modello di potenza y=a·x b è preceduta dalla procedura di linearizzazione delle variabili. Nell'esempio, la linearizzazione viene eseguita prendendo i logaritmi di entrambi i membri dell'equazione:
lg y=lg a + b lg x
Y=C+b·Y
dove Y=log(y), X=log(x), C=log(a).

Per i calcoli utilizziamo i dati nella tabella. 1.3.
Tabella 1.3

	Y	X	YX	Y2	X2	e x	y-y x	(y-y x)²	Un io
1	1,8376	1,6542	3,0398	3,3768	2,7364	61,0	7,8	60,8	11,3
2	1,7868	1,7709	3,1642	3,1927	3,1361	56,3	4,9	24,0	8,0
3	1,7774	1,7574	3,1236	3,1592	3,0885	56,8	3,1	9,6	5,2
4	1,7536	1,7910	3,1407	3,0751	3,2077	55,5	1,2	1,4	2,1
5	1,7404	1,7694	3,0795	3,0290	3,1308	56,3	-1,3	1,7	2,4
6	1,7348	1,6739	2,9039	3,0095	2,8019	60,2	-5,9	34,8	10,9
7	1,6928	1,7419	2,9487	2,8656	3,0342	57,4	-8,1	65,6	16,4
Totale	12,3234	12,1587	21,4003	21,7078	21,1355	403,5	1,7	197,9	56,3
Valore medio	1,7605	1,7370	3,0572	3,1011	3,0194	X	X	28,27	8,0
σ	0,0425	0,0484	X	X	X	X	X	X	X
σ2	0,0018	0,0023	X	X	X	X	X	X	X

Calcoliamo C e b:

C=Y -b·X = 1,7605+0,298·1,7370 = 2,278126
Otteniamo un'equazione lineare: Y=2,278-0,298 X
Effettuato il suo potenziamento otteniamo: y=10 2.278 ·x -0.298
Sostituendo i valori effettivi in questa equazione X, otteniamo valori teorici del risultato. Sulla base di essi, calcoleremo i seguenti indicatori: tenuta della connessione - indice di correlazione p xy ed errore medio di approssimazione A.

Le caratteristiche del modello della legge di potenza indicano che esso descrive la relazione in qualche modo meglio della funzione lineare.

1c. La costruzione dell'equazione della curva esponenziale y=a·b x è preceduta dalla procedura di linearizzazione delle variabili prendendo il logaritmo di entrambi i membri dell'equazione:
log y=log a + x log b
Y=C+Bx
Per i calcoli utilizziamo i dati della tabella.

	Y	X	Sì	Y2	x2	e x	y-y x	(y-y x)²	Un io
1	1,8376	45,1	82,8758	3,3768	2034,01	60,7	8,1	65,61	11,8
2	1,7868	59,0	105,4212	3,1927	3481,00	56,4	4,8	23,04	7,8
3	1,7774	57,2	101,6673	3,1592	3271,84	56,9	3,0	9,00	5,0
4	1,7536	61,8	108,3725	3,0751	3819,24	55,5	1,2	1,44	2,1
5	1,7404	58,8	102,3355	3,0290	3457,44	56,4	-1,4	1,96	2,5
6	1,7348	47,2	81,8826	3,0095	2227,84	60,0	-5,7	32,49	10,5
7	1,6928	55,2	93,4426	2,8656	3047,04	57,5	-8,2	67,24	16,6
Totale	12,3234	384,3	675,9974	21,7078	21338,41	403,4	-1,8	200,78	56,3
Mercoledì zn.	1,7605	54,9	96,5711	3,1011	3048,34	X	X	28,68	8,0
σ	0,0425	5,86	X	X	X	X	X	X	X
σ2	0,0018	34,339	X	X	X	X	X	X	X

Valori dei parametri di regressione A e IN ammontava a:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
L'equazione lineare ottenuta è: Y=1.887-0.0023x. Potenziamo l'equazione risultante e scriviamola nella forma usuale:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Valutiamo l'intensità della connessione attraverso l'indice di correlazione p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Totale405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Valore medio57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

L'analisi di regressione lo è metodo statistico ricerca che permette di mostrare la dipendenza di un particolare parametro da una o più variabili indipendenti. Nell’era pre-informatica il suo utilizzo era piuttosto difficile, soprattutto quando si trattava di grandi volumi di dati. Oggi, avendo imparato a costruire una regressione in Excel, puoi risolvere complessi problemi statistici in appena un paio di minuti. Sotto ci sono esempi specifici dal campo dell'economia.

Tipi di regressione

Questo stesso concetto fu introdotto in matematica nel 1886. La regressione avviene:

lineare;
parabolico;
calmare;
esponenziale;
iperbolico;
dimostrativo;
logaritmico.

Esempio 1

Consideriamo il problema di determinare la dipendenza del numero di membri del team che si licenziano dallo stipendio medio in 6 imprese industriali.

Compito. In sei imprese sono stati analizzati il salario medio mensile e il numero di dipendenti che hanno lasciato volontariamente l'incarico. In forma tabellare abbiamo:


		Numero di persone che hanno smesso	Stipendio
			30.000 rubli
			35.000 rubli
			40.000 rubli
			45.000 rubli
			50.000 rubli
			55.000 rubli
			60.000 rubli

Per determinare la dipendenza del numero di lavoratori in uscita dallo stipendio medio in 6 imprese, il modello di regressione ha la forma dell'equazione Y = a 0 + a 1 x 1 +...+a k x k, dove x i sono i variabili che influenzano, a i sono i coefficienti di regressione e k è il numero di fattori.

Per questo problema, Y è l’indicatore delle dimissioni dei dipendenti e il fattore che influenza è lo stipendio, che indichiamo con X.

Utilizzando le funzionalità del processore di fogli di calcolo Excel

L'analisi di regressione in Excel deve essere preceduta dall'applicazione delle funzioni integrate ai dati tabulari esistenti. Tuttavia, per questi scopi è meglio utilizzare l'utilissimo componente aggiuntivo “Analysis Pack”. Per attivarlo è necessario:

dalla scheda “File” andare alla sezione “Opzioni”;
nella finestra che si apre, seleziona la riga “Componenti aggiuntivi”;
cliccare sul pulsante “Vai” situato in basso, a destra della riga “Gestione”;
seleziona la casella accanto al nome "Pacchetto di analisi" e conferma le tue azioni facendo clic su "Ok".

Se tutto è stato eseguito correttamente, il pulsante richiesto apparirà sul lato destro della scheda "Dati", situata sopra il foglio di lavoro Excel.

in Excel

Ora che abbiamo a portata di mano tutti gli strumenti virtuali necessari per effettuare calcoli econometrici, possiamo iniziare a risolvere il nostro problema. Per questo:

Fare clic sul pulsante “Analisi dei dati”;
nella finestra che si apre cliccare sul pulsante “Regressione”;
nella scheda che appare, inserisci l'intervallo di valori per Y (il numero di dipendenti che lasciano) e per X (i loro stipendi);
Confermiamo le nostre azioni premendo il pulsante "Ok".

Di conseguenza, il programma riempirà automaticamente un nuovo foglio di calcolo con i dati dell'analisi di regressione. Nota! Excel ti consente di impostare manualmente la posizione che preferisci per questo scopo. Ad esempio, potrebbe essere lo stesso foglio in cui si trovano i valori Y e X, o anche Un nuovo libro, appositamente progettato per archiviare tali dati.

Analisi dei risultati di regressione per R quadrato

In Excel, i dati ottenuti durante l'elaborazione dei dati nell'esempio in esame hanno la forma:

Prima di tutto, dovresti prestare attenzione al valore R quadrato. Rappresenta il coefficiente di determinazione. In questo esempio, R-quadrato = 0,755 (75,5%), cioè i parametri calcolati del modello spiegano la relazione tra i parametri considerati del 75,5%. Maggiore è il valore del coefficiente di determinazione, più adatto è il modello selezionato per un compito specifico. Si ritiene che descriva correttamente la situazione reale quando il valore R-quadrato è superiore a 0,8. Se R-quadrato<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisi delle probabilità

Il numero 64.1428 mostra quale sarà il valore di Y se tutte le variabili xi nel modello che stiamo considerando vengono azzerate. In altre parole, si può sostenere che il valore del parametro analizzato è influenzato anche da altri fattori non descritti in uno specifico modello.

Il successivo coefficiente -0,16285, situato nella cella B18, mostra il peso dell'influenza della variabile X su Y. Ciò significa che lo stipendio medio mensile dei dipendenti all'interno del modello in esame influisce sul numero di coloro che lasciano con un peso di -0,16285, cioè il grado della sua influenza è completamente piccolo. Il segno "-" indica che il coefficiente è negativo. Ciò è ovvio, poiché tutti sanno che quanto più alto è lo stipendio nell'impresa, tanto meno persone esprimono il desiderio di rescindere il contratto di lavoro o di dimettersi.

Regressione multipla

Questo termine si riferisce ad un'equazione di relazione con diverse variabili indipendenti della forma:

y=f(x 1 +x 2 +…x m) + ε, dove y è la caratteristica risultante (variabile dipendente), e x 1, x 2,…x m sono caratteristiche del fattore (variabili indipendenti).

Stima dei parametri

Per la regressione multipla (MR), viene eseguita utilizzando il metodo dei minimi quadrati (OLS). Per le equazioni lineari della forma Y = a + b 1 x 1 +…+b m x m + ε costruiamo un sistema di equazioni normali (vedi sotto)

Per comprendere il principio del metodo, consideriamo un caso a due fattori. Quindi abbiamo una situazione descritta dalla formula

Da qui otteniamo:

dove σ è la varianza della caratteristica corrispondente riflessa nell'indice.

OLS è applicabile all'equazione MR su scala standardizzata. In questo caso, otteniamo l'equazione:

in cui ty y, t x 1, … t xm sono variabili standardizzate, per le quali i valori medi sono pari a 0; β i sono i coefficienti di regressione standardizzati e la deviazione standard è 1.

Si noti che tutti i β i in questo caso sono specificati come normalizzati e centralizzati, pertanto il loro confronto tra loro è considerato corretto e accettabile. Inoltre, è consuetudine escludere i fattori scartando quelli con i valori βi più bassi.

Problema utilizzando l'equazione di regressione lineare

Supponiamo di avere una tabella della dinamica dei prezzi per un prodotto specifico N negli ultimi 8 mesi. È necessario prendere una decisione sull'opportunità di acquistarne un lotto al prezzo di 1850 rubli/t.


numero del mese	nome del mese	prezzo del prodotto n
		1750 rubli per tonnellata
		1755 rubli per tonnellata
		1767 rubli per tonnellata
		1760 rubli per tonnellata
		1770 rubli per tonnellata
		1790 rubli per tonnellata
		1810 rubli per tonnellata
		1840 rubli per tonnellata

Per risolvere questo problema nell'elaboratore di fogli di calcolo Excel, è necessario utilizzare lo strumento "Analisi dei dati", già noto dall'esempio presentato sopra. Successivamente, seleziona la sezione “Regressione” e imposta i parametri. Va ricordato che nel campo “Intervallo di input Y” è necessario inserire un intervallo di valori per la variabile dipendente (in questo caso, i prezzi delle merci in determinati mesi dell'anno), e nel campo “Intervallo di input X” - per la variabile indipendente (numero del mese). Confermare l'azione facendo clic su "Ok". Su un nuovo foglio (se indicato) otteniamo i dati per la regressione.

Usandoli, costruiamo un'equazione lineare della forma y=ax+b, dove i parametri aeb sono i coefficienti della linea con il nome del numero del mese e i coefficienti e le linee “Intersezione Y” dal foglio con i risultati dell’analisi di regressione. Pertanto, l'equazione di regressione lineare (LR) per l'attività 3 è scritta come:

Prezzo del prodotto N = 11.714* numero del mese + 1727.54.

o in notazione algebrica

y = 11,714 x + 1727,54

Analisi dei risultati

Per decidere se l'equazione di regressione lineare risultante è adeguata, vengono utilizzati i coefficienti di correlazione multipla (MCC) e la determinazione, nonché il test di Fisher e il test t di Student. Nel foglio di calcolo di Excel con i risultati della regressione, questi sono chiamati rispettivamente R multipli, R quadrato, statistica F e statistica t.

KMC R consente di valutare la vicinanza della relazione probabilistica tra le variabili indipendenti e dipendenti. Il suo valore elevato indica una connessione abbastanza forte tra le variabili “Numero del mese” e “Prezzo del prodotto N in rubli per 1 tonnellata”. Tuttavia, la natura di questa relazione rimane sconosciuta.

Il quadrato del coefficiente di determinazione R2 (RI) è una caratteristica numerica della proporzione della dispersione totale e mostra la dispersione di quale parte dei dati sperimentali, ad es. i valori della variabile dipendente corrispondono all'equazione di regressione lineare. Nel problema in esame questo valore è pari all'84,8%, ovvero i dati statistici sono descritti con un elevato grado di accuratezza dalla SD risultante.

Le statistiche F, chiamate anche test di Fisher, vengono utilizzate per valutare la significatività di una relazione lineare, confutando o confermando l'ipotesi della sua esistenza.

(Test dello studente) aiuta a valutare la significatività del coefficiente con termine sconosciuto o libero della relazione lineare. Se il valore del test t > tcr, l'ipotesi sull'insignificanza del termine libero dell'equazione lineare viene rifiutata.

Nel problema in esame per il termine libero, utilizzando gli strumenti di Excel, si è ottenuto che t = 169.20903 e p = 2.89E-12, cioè abbiamo zero probabilità che l'ipotesi corretta sull'insignificanza del termine libero venga rifiutata . Per il coefficiente per l'incognita t=5,79405 e p=0,001158. In altre parole, la probabilità che venga rifiutata l'ipotesi corretta sull'insignificanza del coefficiente per un'incognita è dello 0,12%.

Pertanto, si può sostenere che l’equazione di regressione lineare risultante è adeguata.

Il problema della fattibilità dell'acquisto di un pacchetto di azioni

La regressione multipla in Excel viene eseguita utilizzando lo stesso strumento di analisi dei dati. Consideriamo un problema applicativo specifico.

La direzione della società NNN deve decidere sull'opportunità di acquisire una partecipazione del 20% in MMM JSC. Il costo del pacchetto (SP) è di 70 milioni di dollari USA. Gli specialisti della NNN hanno raccolto dati su transazioni simili. Si è deciso di valutare il valore del pacchetto azionario secondo parametri espressi in milioni di dollari USA, come:

contabilità fornitori (VK);
volume di fatturato annuo (VO);
contabilità clienti (VD);
costo delle immobilizzazioni (COF).

Inoltre, viene utilizzato il parametro degli arretrati salariali dell'impresa (V3 P) in migliaia di dollari USA.

Soluzione che utilizza l'elaboratore di fogli di calcolo Excel

Prima di tutto, devi creare una tabella di dati di origine. Sembra questo:

richiamare la finestra “Analisi dei dati”;
selezionare la sezione “Regressione”;
Nella casella “Intervallo di input Y”, inserisci l'intervallo di valori delle variabili dipendenti dalla colonna G;
Fare clic sull'icona con una freccia rossa a destra della finestra "Intervallo di input X" ed evidenziare l'intervallo di tutti i valoridelle colonne B, C, D, F sul foglio.

Selezionare la voce "Nuovo foglio di lavoro" e fare clic su "Ok".

Ottenere un'analisi di regressione per un dato problema.

Studio dei risultati e conclusioni

“Raccogliamo” dai dati arrotondati presentati sopra sul foglio tabellare Processore Excel, equazione di regressione:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

In una forma matematica più familiare, può essere scritto come:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

I dati per MMM JSC sono presentati nella tabella:

Sostituendoli nell'equazione di regressione, otteniamo una cifra di 64,72 milioni di dollari USA. Ciò significa che non vale la pena acquistare le azioni della MMM JSC, poiché il loro valore di 70 milioni di dollari USA è piuttosto gonfiato.

Come puoi vedere, l’uso del foglio di calcolo Excel e dell’equazione di regressione ha permesso di prendere una decisione informata riguardo alla fattibilità di una transazione molto specifica.

Ora sai cos'è la regressione. Gli esempi di Excel discussi sopra ti aiuteranno a decidere problemi pratici dal campo dell’econometria.