Până acum, în aprecierea relației statistice, am pornit de la faptul că ambele variabile luate în considerare sunt egale. In practica studiu pilot uneori este important, totuși, să urmărim nu numai relația dintre două variabile una cu cealaltă, ci și modul în care una dintre variabile o afectează pe cealaltă.

Să presupunem că ne interesează dacă este posibil să prezicem nota unui student la un examen pe baza rezultatelor unui test susținut la jumătatea semestrului. Pentru a face acest lucru, vom colecta date care reflectă evaluările elevilor pe care le-au obținut munca de control iar la examen. Datele posibile de acest fel sunt prezentate în tabel. 7.3. Este logic să presupunem că un student care este mai bine pregătit pentru test și a primit o notă mai mare, ceteris paribus, are mai multe șanse să obțină o notă mai mare la examen. Într-adevăr, coeficientul de corelație între X (evaluare asupra lucrărilor de control) și Y (evaluarea la examen) pentru acest caz este destul de mare (0,55). Cu toate acestea, el nu indică deloc că nota la examen se datorează notei la test. În plus, nu ne spune deloc cât de mult ar trebui să se schimbe nota la examen cu o modificare corespunzătoare a rezultatului testului. Pentru a evalua cum ar trebui să se schimbe Y când se schimbă X, Să spunem, câte unul, trebuie să utilizați metoda regresiei liniare simple.

Tabelul 7.3

Notele unui grup de elevi conform Psihologie generala la munca de control (colocviu) si examen

asupra muncii de control X )

la examen ( Y )

Semnificația acestei metode este următoarea.

Dacă coeficientul de corelație dintre cele două serii de scoruri a fost egal cu unu, atunci punctajul de la examen ar repeta pur și simplu punctajul de la test. Să presupunem însă că unitățile de măsură folosite de profesor pentru controlul final și intermediar al cunoștințelor sunt diferite. De exemplu, este posibil să se evalueze nivelul de cunoștințe actuale la jumătatea semestrului după numărul de întrebări la care studentul a dat răspunsul corect. În acest caz, o simplă potrivire a scorurilor nu va fi efectuată. Dar, în orice caz, va fi un meci pentru cele 2-estime. Cu alte cuvinte, dacă coeficientul de corelație dintre două serii de date se dovedește a fi egal cu unul, trebuie să fie valabilă următoarea relație:

Dacă coeficientul de corelație se dovedește a fi diferit de unitate, atunci valoarea așteptată z Y, care poate fi notat ca și valoarea z X trebuie legat prin următoarea relație, obținută prin metodele calculului diferențial:

Prin înlocuirea valorilor G valorile initiale X Și Υ, obținem următoarea relație:

Acum este ușor să găsiți valoarea așteptată Υ:

(7.10)

Atunci ecuația (7.10) poate fi rescrisă după cum urmează:

Cote DAR Și ÎN în ecuația (7.11) este coeficienții de regresie liniară. Coeficient ÎN arată modificarea așteptată a variabilei dependente Y la modificarea variabilei independente X pentru o unitate. În metoda de regresie liniară simplă, se numește pantă. Pentru datele noastre (vezi Tabelul 7.3), panta este 0,57. Aceasta înseamnă că studenții care au obținut un punct mai mare la test au avut în medie cu 0,57 puncte mai mult decât ceilalți la examen. Coeficient DAR în ecuația (7.11) se numește constant. Arată ce valoare așteptată a variabilei dependente corespunde cu valoarea zero a variabilei independente. În ceea ce privește datele noastre, acest parametru nu conține nicio informație semantică. Și acesta este un fenomen destul de comun în cercetarea psihologică și pedagogică.

De remarcat faptul că în analiza de regresie, independent X si dependenta Y variabilele au nume speciale. Deci, variabila independentă este de obicei notă prin termen predictor, iar dependentul criteriu.

Modelul de regresie liniară este cel mai frecvent utilizat și mai studiat în econometrie. Și anume, sunt studiate proprietățile estimărilor parametrilor obținute prin diverse metode sub ipoteze despre caracteristicile probabilistice ale factorilor și erorile aleatorii ale modelului. Proprietățile limitative (asimptotice) ale estimărilor modelelor neliniare sunt, de asemenea, derivate pe baza aproximării acestora din urmă prin modele liniare. Trebuie remarcat faptul că din punct de vedere econometric, liniaritatea în parametri este mai importantă decât liniaritatea în factorii de model.

Model de regresie

unde sunt parametrii modelului, este eroarea aleatorie a modelului, se numește regresie liniară dacă funcția de regresie are forma

unde sunt parametrii de regresie (coeficienți), sunt regresorii (factorii de model), k este numărul de factori de model.

Coeficienții de regresie liniară arată rata de modificare a variabilei dependente pentru un anumit factor, cu alți factori fixați (într-un model liniar, această rată este constantă):

Parametrul pentru care nu există factori este adesea numit constant. În mod formal, aceasta este valoarea funcției la valoarea zero a tuturor factorilor. În scopuri analitice, este convenabil să ne gândim la o constantă ca la un parametru cu un „factor” egal cu 1 (sau o altă constantă arbitrară, deci acest „factor” este numit și constantă). În acest caz, dacă renumerăm factorii și parametrii modelului original având în vedere acest lucru (lăsând desemnarea numărului total de factori - k), atunci funcția de regresie liniară poate fi scrisă în următoarea formă, care în mod formal nu conțin o constantă:

unde este vectorul regresorilor, este vectorul coloană al parametrilor (coeficienților).

Modelul liniar poate fi fie cu o constantă, fie fără o constantă. Atunci, în această reprezentare, primul factor este fie egal cu unul, fie, respectiv, un factor obișnuit

Testul de semnificație a regresiei

Testul lui Fisher pentru un model de regresie reflectă cât de bine explică modelul varianța totală a variabilei dependente. Criteriul se calculează conform ecuației:

Unde R- coeficient de corelație;
f 1 și f 2 - numărul de grade de libertate.
Prima fracție din ecuație este egală cu raportul dintre varianța explicată și varianța neexplicată. Fiecare dintre aceste dispersii este împărțită la gradul său de libertate (a doua fracțiune din expresie). Numărul de grade de libertate ale varianței explicate f 1 este egal cu numărul de variabile explicative (de exemplu, pentru un model liniar al formei Y=A*X+B primim f 1=1). Numărul de grade de libertate ale varianței inexplicabile f 2 = N-k-1, unde N-numar de puncte experimentale, k-numărul de variabile explicative (de exemplu, pentru un model Y=A*X+B substitui k=1).
Inca un exemplu:
pentru un model liniar al formei Y=A 0 +A 1 *X 1 +A 2 *X 2 construit din 20 de puncte experimentale, obținem f 1 = 2 (două variabile X 1 și X 2), f 2 =20-2-1=17.
Pentru a verifica semnificația ecuației de regresie, valoarea calculată a criteriului Fisher este comparată cu tabelul luat pentru numărul de grade de libertate f 1 (varianta mai mare) si f 2 (varianță mai mică) la nivelul de semnificație ales (de obicei 0,05). Dacă testul lui Fisher calculat este mai mare decât cel tabelar, atunci varianța explicată este semnificativ mai mare decât cea neexplicată, iar modelul este semnificativ.

Coeficientul de corelație și F-criteriul, împreună cu parametrii modelului de regresie, de regulă, se calculează în algoritmi care implementează

În notele anterioare, accentul a fost adesea pus pe o singură variabilă numerică, cum ar fi randamentul fondului mutual, timpul de încărcare a paginii web sau consumul de băuturi răcoritoare. În aceasta și următoarele note, vom lua în considerare metode de predicție a valorilor unei variabile numerice în funcție de valorile uneia sau mai multor alte variabile numerice.

Materialul va fi ilustrat printr-un exemplu. Estimarea volumului vânzărilor într-un magazin de îmbrăcăminte. Lanțul de magazine de îmbrăcăminte cu discount Sunflowers se extinde constant de 25 de ani. Cu toate acestea, compania nu are în prezent o abordare sistematică pentru selectarea de noi puncte de vânzare. Locația în care compania intenționează să deschidă un nou magazin este determinată pe baza unor considerente subiective. Criteriile de selecție sunt condițiile de închiriere favorabile sau ideea managerului despre locația ideală a magazinului. Imaginează-ți că ești șeful Departamentului Proiecte Speciale și Planificare. Ați fost desemnat să dezvoltați plan strategic deschiderea de noi magazine. Acest plan ar trebui să conțină o prognoză a vânzărilor anuale în magazinele nou deschise. Considerați că vânzarea spațiului este direct legată de venituri și doriți să luați în considerare acest fapt în procesul de luare a deciziilor. Cum dezvoltați un model statistic care prezice vânzările anuale pe baza dimensiunii noii magazin?

De obicei, analiza de regresie este utilizată pentru a prezice valorile unei variabile. Scopul său este de a dezvolta un model statistic care prezice valorile variabilei dependente, sau răspunsul, din valorile a cel puțin unei variabile independente sau explicative. În această notă, vom lua în considerare o regresie liniară simplă - o metodă statistică care vă permite să preziceți valorile variabilei dependente Y prin valorile variabilei independente X. Următoarele note vor descrie modelul regresie multiplă, conceput pentru a prezice valorile variabilei independente Y prin valorile mai multor variabile dependente ( X 1 , X 2 , …, X k).

Descărcați nota în sau format, exemple în format

Tipuri de modele de regresie

Unde ρ 1 este coeficientul de autocorelare; dacă ρ 1 = 0 (fără autocorelare), D≈ 2; dacă ρ 1 ≈ 1 (autocorelație pozitivă), D≈ 0; dacă ρ 1 = -1 (autocorelație negativă), D ≈ 4.

În practică, aplicarea criteriului Durbin-Watson se bazează pe o comparație a valorii D cu valori teoretice critice d LȘi d U pentru un număr dat de observații n, numărul de variabile independente ale modelului k(pentru regresie liniară simplă k= 1) și nivelul de semnificație α. Dacă D< d L , se respinge ipoteza independenței abaterilor aleatoare (deci, există o autocorelație pozitivă); dacă D > d U, ipoteza nu este respinsă (adică nu există autocorelație); dacă d L< D < d U nu există suficiente motive pentru a lua o decizie. Când valoarea calculată D depășește 2, atunci d LȘi d U nu coeficientul în sine este comparat D, iar expresia (4 – D).

Pentru a calcula statisticile Durbin-Watson în Excel, ne întoarcem la tabelul de jos din Fig. paisprezece Retragerea soldului. Numătorul din expresia (10) este calculat folosind funcția = SUMMQDIFF(array1, array2) și numitorul = SUMMQ(array) (Fig. 16).

Orez. 16. Formule pentru calcularea statisticilor Durbin-Watson

În exemplul nostru D= 0,883. Întrebarea principală este: ce valoare a statisticii Durbin-Watson ar trebui considerată suficient de mică pentru a concluziona că există o autocorelație pozitivă? Este necesar să se coreleze valoarea lui D cu valorile critice ( d LȘi d U) în funcţie de numărul de observaţii nși nivelul de semnificație α (Fig. 17).

Orez. 17. Valorile critice ale statisticii Durbin-Watson (fragment de tabel)

Astfel, în problema volumului vânzărilor într-un magazin care livrează mărfuri la domiciliu, există o variabilă independentă ( k= 1), 15 observații ( n= 15) și nivelul de semnificație α = 0,05. Prin urmare, d L= 1,08 și dU= 1,36. În măsura în care D = 0,883 < d L= 1,08, există o autocorelare pozitivă între reziduuri, metoda celor mai mici pătrate nu poate fi aplicată.

Testarea ipotezelor despre panta și coeficientul de corelație

Regresia de mai sus a fost aplicată numai pentru prognoză. Pentru a determina coeficienții de regresie și pentru a prezice valoarea unei variabile Y pentru o anumită valoare variabilă X s-a folosit metoda celor mai mici pătrate. În plus, am luat în considerare eroarea standard a estimării și coeficientul de corelație mixtă. Dacă analiza reziduală confirmă că nu sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate, iar modelul de regresie liniară simplă este adecvat, pe baza datelor eșantionate, se poate argumenta că există o relație liniară între variabilele din populație.

Aplicațiet -criterii pentru panta. Verificând dacă panta populației β 1 este egală cu zero, se poate determina dacă există o relație semnificativă statistic între variabile XȘi Y. Dacă această ipoteză este respinsă, se poate argumenta că între variabile XȘi Y există o relație liniară. Ipotezele nule și alternative sunt formulate astfel: H 0: β 1 = 0 (fără relație liniară), H1: β 1 ≠ 0 (există o relație liniară). Prin definitie t-statistica este egală cu diferența dintre panta eșantionului și panta ipotetică a populației, împărțită la eroarea standard a estimării pantei:

(11) t = (b 1 β 1 ) / Sb 1

Unde b 1 este panta regresiei directe pe baza datelor eșantionului, β1 este panta ipotetică a populației generale directe, , și statistici de testare t Are t- distributie cu n - 2 grade de libertate.

Să verificăm dacă există o relație semnificativă statistic între dimensiunea magazinului și vânzările anuale la α = 0,05. t-criteriile sunt afișate împreună cu alți parametri atunci când se utilizează Pachet de analize(opțiune Regresia). Rezultatele complete ale pachetului de analiză sunt prezentate în Fig. 4, un fragment legat de t-statistica - în fig. optsprezece.

Orez. 18. Rezultatele aplicării t

Deoarece numărul de magazine n= 14 (vezi Fig. 3), valoare critică t-statisticile la un nivel de semnificație α = 0,05 pot fi găsite prin formula: t L=STUDENT.INV(0,025;12) = -2,1788 unde 0,025 este jumătate din nivelul de semnificație și 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

În măsura în care t-statistica = 10,64 > t U= 2,1788 (Fig. 19), ipoteză nulă H 0 este respins. Pe de altă parte, R-valoare pentru X\u003d 10,6411, calculat prin formula \u003d 1-STUDENT.DIST (D3, 12, TRUE), este aproximativ egal cu zero, deci ipoteza H 0 este respins din nou. Faptul că R-valoarea este aproape zero, ceea ce înseamnă că dacă nu ar exista o relație liniară reală între dimensiunea magazinului și vânzările anuale, ar fi aproape imposibil să o găsim folosind regresia liniară. Prin urmare, există o relație liniară semnificativă statistic între vânzările medii anuale ale magazinului și dimensiunea magazinului.

Orez. 19. Testarea ipotezei despre panta populației generale la un nivel de semnificație de 0,05 și 12 grade de libertate

AplicațieF -criterii pentru panta. O abordare alternativă pentru testarea ipotezelor despre panta unei regresii liniare simple este de a utiliza F-criterii. Amintește-ți asta F-criteriul este folosit pentru a testa relația dintre două varianțe (vezi detalii). Când se testează ipoteza pantei, măsura erorilor aleatoare este varianța erorii (suma erorilor pătrate împărțită la numărul de grade de libertate), deci F-testul folosește raportul varianței explicat prin regresie (adică, valorile SSRîmpărțit la numărul de variabile independente k), la varianța erorii ( MSE=S YX 2 ).

Prin definitie F-statistica este egală cu abaterile pătratice medii datorate regresiei (MSR) împărțite la varianța erorii (MSE): F = MSR/ MSE, Unde MSR=SSR / k, MSE =SSE/(n– k – 1), k este numărul de variabile independente din modelul de regresie. Statistici de testare F Are F- distributie cu kȘi n– k – 1 grade de libertate.

Pentru un nivel de semnificaţie dat α, regula de decizie se formulează astfel: dacă F > FU, se respinge ipoteza nulă; în caz contrar, nu este respins. Rezultatele, prezentate sub forma unui tabel rezumativ al analizei varianței, sunt prezentate în fig. douăzeci.

Orez. 20. Tabel de analiză a varianței pentru a testa ipoteza semnificației statistice a coeficientului de regresie

În mod similar t-criteriu F-criteriile sunt afișate în tabel când se utilizează Pachet de analize(opțiune Regresia). Rezultatele complete ale lucrării Pachet de analize prezentată în fig. 4, fragment legat de F-statistica - in fig. 21.

Orez. 21. Rezultatele aplicării F- Criterii obținute folosind Excel Analysis ToolPack

F-statistica este 113,23 și R-valoare apropiată de zero (celula SemnificaţieF). Dacă nivelul de semnificație α este 0,05, determinați valoarea critică F-din formula se pot obtine distributii cu unu si 12 grade de libertate F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Fig. 22). În măsura în care F = 113,23 > F U= 4,7472 și R-valoare apropiată de 0< 0,05, нулевая гипотеза H 0 deviază, adică Mărimea unui magazin este strâns legată de volumul său anual de vânzări.

Orez. 22. Testarea ipotezei despre panta populației generale la un nivel de semnificație de 0,05, cu unu și 12 grade de libertate

Interval de încredere conţinând panta β 1 ​​. Pentru a testa ipoteza existenței unei relații liniare între variabile, puteți construi un interval de încredere care conține panta β 1 ​​și vă asigurați că valoarea ipotetică β 1 = 0 aparține acestui interval. Centrul intervalului de încredere care conține panta β 1 ​​este panta eșantionului b 1 , iar limitele sale sunt cantitățile b 1 ±t n –2 Sb 1

După cum se arată în fig. optsprezece, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Prin urmare, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 sau + 1,328 ≤ β 1 ≤ +2,012. Astfel, panta populației cu o probabilitate de 0,95 se află în intervalul de la +1,328 la +2,012 (adică de la 1.328.000 USD la 2.012.000 USD). Deoarece aceste valori sunt mai mari decât zero, există o relație liniară semnificativă statistic între vânzările anuale și suprafața magazinului. Dacă intervalul de încredere ar conține zero, nu ar exista nicio relație între variabile. În plus, intervalul de încredere înseamnă că la fiecare 1.000 mp. picioare are ca rezultat o creștere a vânzărilor medii de la 1.328.000 USD la 2.012.000 USD.

Utilizaret -criterii pentru coeficientul de corelare. a fost introdus coeficientul de corelare r, care este o măsură a relației dintre două variabile numerice. Poate fi folosit pentru a determina dacă există o relație semnificativă statistic între două variabile. Să notăm coeficientul de corelație dintre populațiile ambelor variabile prin simbolul ρ. Ipotezele nule și alternative sunt formulate după cum urmează: H 0: ρ = 0 (fără corelație), H 1: ρ ≠ 0 (există o corelație). Verificarea existenței unei corelații:

Unde r = + , dacă b 1 > 0, r = – , dacă b 1 < 0. Тестовая статистика t Are t- distributie cu n - 2 grade de libertate.

În problema lanțului de magazine Floarea soarelui r2= 0,904 și b 1- +1,670 (vezi Fig. 4). În măsura în care b 1> 0, coeficientul de corelație dintre vânzările anuale și dimensiunea magazinului este r= +√0,904 = +0,951. Să testăm ipoteza nulă că nu există o corelație între aceste variabile folosind t- statistici:

La un nivel de semnificație de α = 0,05, ipoteza nulă ar trebui respinsă deoarece t= 10,64 > 2,1788. Astfel, se poate susține că există o relație semnificativă statistic între vânzările anuale și dimensiunea magazinului.

Atunci când discutăm inferențe despre pantele populației, intervalele de încredere și criteriile pentru testarea ipotezelor sunt instrumente interschimbabile. Totuși, calculul intervalului de încredere care conține coeficientul de corelație se dovedește a fi mai dificil, întrucât forma distribuției de eșantionare a statisticii r depinde de coeficientul de corelație adevărat.

Estimarea așteptărilor matematice și predicția valorilor individuale

Această secțiune discută metode de estimare a răspunsului așteptat Yși predicții ale valorilor individuale Y pentru valorile date ale variabilei X.

Construirea unui interval de încredere.În exemplul 2 (vezi secțiunea de mai sus Metoda celor mai mici pătrate) ecuația de regresie a făcut posibilă prezicerea valorii variabilei Y X. În problema alegerii unei locații pentru un punct de vânzare cu amănuntul, vânzările medii anuale într-un magazin cu o suprafață de 4000 mp. picioare a fost egală cu 7,644 milioane de dolari.Totuși, această estimare a așteptărilor matematice a populației generale este un punct. pentru a estima așteptarea matematică a populației generale s-a propus conceptul de interval de încredere. În mod similar, se poate introduce conceptul interval de încredere pentru așteptarea matematică a răspunsului pentru o valoare dată a unei variabile X:

Unde , = b 0 + b 1 X i– variabilă de valoare prezisă Y la X = X i, S YX este eroarea pătratică medie, n este dimensiunea eșantionului, Xi- valoarea dată a variabilei X, µ Y|X = Xi– așteptarea matematică a unei variabile Y la X = Х i,SSX=

Analiza formulei (13) arată că lățimea intervalului de încredere depinde de mai mulți factori. La un anumit nivel de semnificație, o creștere a amplitudinii fluctuațiilor în jurul dreptei de regresie, măsurată folosind eroarea pătratică medie, duce la o creștere a lățimii intervalului. Pe de altă parte, așa cum era de așteptat, o creștere a dimensiunii eșantionului este însoțită de o îngustare a intervalului. În plus, lățimea intervalului se modifică în funcție de valori Xi. Dacă valoarea variabilei Y prezis pentru cantităţi X, aproape de valoarea medie , intervalul de încredere se dovedește a fi mai îngust decât atunci când se prezică răspunsul pentru valori departe de medie.

Să presupunem că atunci când alegem o locație pentru un magazin, dorim să construim un interval de încredere de 95% pentru vânzările medii anuale în toate magazinele cu o suprafață de 4000 de metri pătrați. picioare:

Prin urmare, volumul mediu anual de vânzări în toate magazinele cu o suprafață de 4.000 de metri pătrați. picioare, cu o probabilitate de 95% se află în intervalul de la 6,971 la 8,317 milioane de dolari.

Calculați intervalul de încredere pentru valoarea prezisă. Pe lângă intervalul de încredere pentru așteptarea matematică a răspunsului pentru o valoare dată a variabilei X, este adesea necesar să se cunoască intervalul de încredere pentru valoarea prezisă. Deși formula pentru calcularea unui astfel de interval de încredere este foarte asemănătoare cu formula (13), acest interval conține o valoare prezisă și nu o estimare a parametrului. Interval pentru răspunsul prezis YX = Xi pentru o anumită valoare a variabilei Xi este determinată de formula:

Să presupunem că atunci când alegem o locație pentru un punct de vânzare cu amănuntul, dorim să construim un interval de încredere de 95% pentru volumul anual de vânzări estimat într-un magazin cu o suprafață de 4000 de metri pătrați. picioare:

Prin urmare, volumul anual de vânzări estimat pentru o suprafață de 4.000 mp. picioare, cu o probabilitate de 95% se află în intervalul de la 5,433 la 9,854 milioane de dolari. După cum puteți vedea, intervalul de încredere pentru valoarea de răspuns prezisă este mult mai larg decât intervalul de încredere pentru așteptarea sa matematică. Acest lucru se datorează faptului că variabilitatea în prezicerea valorilor individuale este mult mai mare decât în ​​estimarea valorii așteptate.

Capcane și probleme etice asociate cu utilizarea regresiei

Dificultăți asociate cu analiza de regresie:

  • Ignorarea condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • O estimare eronată a condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Alegerea greșită a metodelor alternative cu încălcarea condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Aplicarea analizei de regresie fără cunoaștere aprofundată a subiectului de studiu.
  • Extrapolarea regresiei dincolo de intervalul variabilei explicative.
  • Confuzie între relațiile statistice și cauzale.

Răspândirea foilor de calcul și software pentru calculele statistice a eliminat problemele de calcul care împiedicau utilizarea analizei de regresie. Totuși, acest lucru a condus la faptul că analiza de regresie a început să fie utilizată de utilizatori care nu au suficiente calificări și cunoștințe. Cum știu utilizatorii despre metodele alternative dacă mulți dintre ei nu au nicio idee despre condițiile de aplicabilitate a metodei celor mai mici pătrate și nu știu cum să le verifice implementarea?

Cercetătorul nu trebuie să se lase dus de măcinarea numerelor - calculând deplasarea, panta și coeficientul de corelație mixt. Are nevoie de cunoștințe mai profunde. Să ilustrăm acest lucru cu un exemplu clasic luat din manuale. Anscombe a arătat că toate cele patru seturi de date prezentate în Fig. 23 au aceiași parametri de regresie (Fig. 24).

Orez. 23. Patru seturi de date artificiale

Orez. 24. Analiza de regresie a patru seturi de date artificiale; am terminat-o cu Pachet de analize(click pe imagine pentru a o mari)

Deci, din punct de vedere al analizei de regresie, toate aceste seturi de date sunt complet identice. Dacă analiza s-ar fi terminat în acest sens, am fi pierdut foarte mult Informatii utile. Acest lucru este evidențiat de diagramele de dispersie (Fig. 25) și diagramele reziduale (Fig. 26) construite pentru aceste seturi de date.

Orez. 25. Diagrame de dispersie pentru patru seturi de date

Diagramele de dispersie și diagramele reziduale arată că aceste date sunt diferite unele de altele. Singura multime distribuita de-a lungul unei linii drepte este multimea A. Graficul reziduurilor calculate din multimea A nu are un model. Nu același lucru se poate spune și pentru mulțimile B, C și D. Graficul de dispersie reprezentat pentru setul B arată un model pătratic pronunțat. Această concluzie este confirmată de graficul reziduurilor, care are o formă parabolică. Graficul de dispersie și graficul rezidual arată că setul de date B conține un valori abere. În această situație, este necesar să excludeți valorile aberante din setul de date și să repetați analiza. Tehnica de detectare și eliminare a valorii aberante din observații se numește analiză de influență. După eliminarea valorii aberante, rezultatul reevaluării modelului poate fi complet diferit. Un grafic de dispersie reprezentat din setul de date D ilustrează o situație neobișnuită în care modelul empiric este foarte dependent de un singur răspuns ( X 8 = 19, Y 8 = 12,5). Astfel de modele de regresie trebuie calculate cu deosebită atenție. Deci, diagramele de dispersie și graficele reziduale sunt un instrument esențial pentru analiza regresiei și ar trebui să fie o parte integrantă a acesteia. Fără ele, analiza de regresie nu este credibilă.

Orez. 26. Grafice de reziduuri pentru patru seturi de date

Cum să evitați capcanele în analiza de regresie:

  • Analiza relației posibile dintre variabile XȘi Yîncepe întotdeauna cu un grafic de dispersie.
  • Înainte de a interpreta rezultatele unei analize de regresie, verificați condițiile de aplicabilitate a acesteia.
  • Reprezentați grafic reziduurile față de variabila independentă. Acest lucru va permite să se determine modul în care modelul empiric corespunde rezultatelor observației și să se detecteze încălcarea constanței varianței.
  • Utilizați histograme, diagrame cu tulpini și frunze, diagrame cu case și diagrame de distribuție normală pentru a testa ipoteza unei distribuții normale a erorilor.
  • Dacă nu sunt îndeplinite condițiile de aplicabilitate ale metodei celor mai mici pătrate, utilizați metode alternative (de exemplu, modele de regresie pătratică sau multiplă).
  • Dacă sunt îndeplinite condițiile de aplicabilitate ale metodei celor mai mici pătrate, este necesar să se testeze ipoteza despre semnificația statistică a coeficienților de regresie și să se construiască intervale de încredere care să conțină așteptarea matematică și valoarea răspunsului prezis.
  • Evitați prezicerea valorilor variabilei dependente în afara intervalului variabilei independente.
  • Rețineți că dependențele statistice nu sunt întotdeauna cauzale. Amintiți-vă că corelația dintre variabile nu înseamnă că există o relație cauzală între ele.

Rezumat. După cum se arată în diagrama bloc (Fig. 27), nota descrie un model simplu de regresie liniară, condițiile de aplicabilitate a acestuia și modalitățile de testare a acestor condiții. Considerat t-criteriul de testare a semnificaţiei statistice a pantei regresiei. Un model de regresie a fost utilizat pentru a prezice valorile variabilei dependente. Se consideră un exemplu legat de alegerea unui loc pentru un punct de vânzare cu amănuntul, în care se studiază dependența volumului anual de vânzări de suprafața magazinului. Informațiile obținute vă permit să selectați mai precis o locație pentru magazin și să preziceți vânzările anuale ale acestuia. În notele următoare, discuția despre analiza regresiei va continua, precum și modelele de regresie multiple.

Orez. 27. Schema structurala note

Sunt folosite materiale din cartea Levin et al. Statistici pentru manageri. - M.: Williams, 2004. - p. 792–872

Dacă variabila dependentă este categorică, trebuie aplicată regresia logistică.

Trimiteți-vă munca bună în baza de cunoștințe este simplu. Foloseste formularul de mai jos

Studenții, studenții absolvenți, tinerii oameni de știință care folosesc baza de cunoștințe în studiile și munca lor vă vor fi foarte recunoscători.

Găzduit la http://www.allbest.ru/

  • O sarcină
  • Calculul parametrilor modelului
  • Bibliografie

O sarcină

Pentru zece instituții de credit au fost obținute date care caracterizează dependența volumului profitului (Y) de rata medie anuală la credite (X 1), rata la depozite (X 2) și valoarea cheltuielilor intrabancare (X 3) .

Necesar:

1. Alegeți caracteristicile factorilor pentru a construi un model de regresie cu doi factori.

2. Calculați parametrii modelului.

3. Pentru a caracteriza modelul, determinați:

W coeficient liniar de corelație multiplă,

coeficientul de determinare W,

Ш coeficienții medii de elasticitate, betta-, delta-coeficienții.

Dați interpretarea lor.

4. Evaluați fiabilitatea ecuației de regresie.

5. Evaluați semnificația statistică a coeficienților ecuației de regresie multiplă folosind testul t Student.

6. Construiți prognoze punctuale și pe intervale ale indicatorului rezultat.

7. Reflectați rezultatele calculelor pe grafic.

1. Selectarea caracteristicilor factorilor pentru construirea unui model de regresie cu doi factori

Modelul liniar al regresiei multiple are forma:

Y i = 0 + 1 X eu 1 + 2 X i 2 + … + m X eu + eu

corelație de determinare a modelului de regresie

Coeficientul de regresie j arată cu ce valoare se va modifica în medie atributul rezultat Y dacă variabila X j crește cu unitate.

Statisticile pentru cele 10 instituții de credit chestionate pentru toate variabilele sunt prezentate în Tabelul 2.1 În acest exemplu, n = 10, m = 3.

Tabelul 2.1

X 2 - rata la depozite;

X 3 - suma cheltuielilor intrabancare.

Pentru a ne asigura că alegerea variabilelor explicative este justificată, să cuantificăm relația dintre trăsături. Pentru a face acest lucru, calculăm matricea de corelație (calculul a fost efectuat în Excel Service - Analiza datelor - Corelație). Rezultatele calculului sunt prezentate în Tabelul 2.2.

Tabelul 2.2

După analiza datelor, putem concluziona că valoarea profitului Y este influențată de factori precum: rata medie anuală la împrumuturi X 1, rata la depozite X 2 și suma cheltuielilor intrabancare X3. Cea mai apropiată corelație cu variabila o are X 1 - rata medie anuală la credite (r yx 1 =0,925). Ca a doua variabilă pentru construirea modelului, alegem o valoare mai mică a coeficientului de corelație pentru a evita multicoliniaritatea. Multicolinearitatea este o relație liniară, sau apropiată de aceasta, între factori. Astfel, când comparăm X 2 și X 3, alegem X 2 - rata la depozite, deoarece este de 0,705, adică cu 0,088 mai puțin decât X 3 - suma cheltuielilor intrabancare, care s-a ridicat la 0,793.

Calculul parametrilor modelului

Construirea unui model econometric:

Y = f ( X 1 , X 2 )

unde Y este valoarea profitului (variabilă dependentă)

X 1 - rata medie anuală la împrumuturi;

X 2 - rata la depozite;

Estimarea parametrilor de regresie se realizează prin metoda celor mai mici pătrate, folosind datele prezentate în tabelul 2.3.

Tabelul 2.3

Analiza ecuației de regresie multiplă și tehnica de determinare a parametrilor devin mai vizuale dacă folosim forma matriceală a ecuației

unde Y este un vector variabil dependent de dimensiunea 101 reprezentând valoarea observaţiilor Y i ;

X este o matrice de observații ale variabilelor independente X 1 și X 2 , dimensiunea matricei este 103;

Un vector de parametri necunoscuți de dimensiunea 31 de estimat;

Vector de abateri aleatorii ale dimensiunii 101.

Formula pentru calcularea parametrilor ecuației de regresie:

A \u003d (X T X) - 1 X T Y

Pentru operațiile cu matrice au fost utilizate următoarele funcții Excel:

TRANSP ( matrice) pentru a transpune matricea X. O matrice transpusă este X T, în care coloanele matricei originale X sunt înlocuite cu rânduri cu numerele corespunzătoare;

MOBR ( matrice) pentru a găsi matricea inversă;

MUMNOZH ( matrice1, matrice 2), care calculează produsul matricelor. Aici matrice 1 și matrice 2 matrice multiplicate. În acest caz, numărul de coloane ale argumentului matrice 1 trebuie să fie același cu numărul de șiruri de argumente matrice 2. Rezultatul este o matrice cu același număr de rânduri ca și matrice 1 și același număr de coloane ca matrice 2.

Rezultatele calculelor efectuate în Excel:

Ecuația pentru dependența volumului profitului de rata medie anuală la credite și rata la depozite poate fi scrisă după cum urmează:

la= 33,295 + 0,767X 1 + 0,017X 2

Modelul de regresie liniară, în care estimările lor sunt înlocuite cu valorile adevărate ale parametrilor, are forma:

Y=X+ e=Y+ e

unde Y este o estimare a valorilor Y egale cu X;

e- reziduuri de regresie.

Valorile calculate ale lui Y sunt determinate prin substituirea succesivă în acest model a valorilor factorilor luați pentru fiecare observație.

Profitul depinde de rata medie anuală la împrumuturi și de ratele la depozite. Adică, cu o creștere a ratei de depozit cu 1.000 de ruble, aceasta duce la o creștere a profitului cu 1,7 ruble, cu rata de depozit neschimbată, iar o creștere de două ori a ratei de depozit va duce la o creștere a profitului cu 1,534. ori, alte condiții neschimbate.

Caracteristicile modelului de regresie

Calculele intermediare sunt prezentate în Tabelul 2.4.

Tabelul 2.4

(y i-) 2

(y i-) 2

e t

(e t-e t-1) 2

(X i 1 -) 2

(X i 2 -) 2

Rezultatele analizei de regresie sunt cuprinse în tabelele 2.5 - 2.7.

Tabelul 2.5.

Nume

Rezultat

Coeficient de corelație multiplă

Coeficientul de determinare R 2

R 2 ajustat

eroare standard

Observatii

Tabelul 2.6

Tabelul 2.7

Cote

eroare standard

t-statistică

A treia coloană conține erorile standard ale coeficienților de regresie, iar a patra coloană conține statistica t utilizată pentru a testa semnificația coeficienților ecuației de regresie.

a) Estimarea coeficientului liniar de corelație multiplă

b) Coeficientul de determinare R 2

Coeficientul de determinare arată proporția de variație a trăsăturii rezultate sub influența factorilor studiați. Prin urmare, 85,5% din variația variabilei dependente este luată în considerare în model și se datorează influenței factorilor incluși.

R 2 ajustat

c) Coeficienții medii de elasticitate, beta, delta - coeficienți

Având în vedere că coeficientul de regresie nu poate fi utilizat pentru a evalua direct influența factorilor asupra variabilei dependente din cauza diferenței de unități de măsură, folosim coeficient elasticitate(E) și beta, care se calculează prin formulele:

Coeficientul de elasticitate arată cât de procente se modifică variabila dependentă atunci când factorul se modifică cu 1 la sută.

Cu o creștere a ratei medii anuale la împrumuturi cu 1%, valoarea profitului va crește în medie cu 0,474%. Cu o creștere a ratei la depozite cu 1%, valoarea profitului va crește în medie cu 0,041%.

unde este abaterea medie a factorului j.

sens ( X i 1 -) 2 = 2742,4 tab. 2,4 coloana 10;

sens ( X i 2 -) 2 = 1113,6 tab. 2,4 coloana 11;

Coeficientul beta, din punct de vedere matematic, arată prin ce parte a abaterii standard se modifică valoarea medie a variabilei dependente cu o modificare a variabilei independente cu o abatere standard, în timp ce valoarea variabilelor independente rămase este fixată la un nivel constant.

Aceasta înseamnă că cu o creștere a ratei medii anuale la împrumuturi cu 17.456 mii de ruble. volumul profitului va crește cu 93,14 mii de ruble; cu o creștere a ratei medii anuale la împrumuturi și a ratelor la depozite cu 11.124 mii de ruble. volumul profitului va crește cu 1,3 mii de ruble.

Ponderea influenței unui factor în influența totală a tuturor factorilor poate fi estimată prin valoarea coeficienților delta j:

unde este coeficientul de corelație de pereche dintre factorul j și variabila dependentă.

Influența factorilor asupra modificării volumului profitului afectat astfel încât, din cauza unei modificări a ratei medii anuale la împrumuturi cu 92,5%, volumul profitului va crește cu 1.011 mii ruble, ca urmare a unei scăderi a ratei depozitelor cu 64,5%, volumul profitului va scădea cu 0,01 mii rub.

4. Estimarea fiabilității ecuației de regresie

Vom verifica semnificația ecuației de regresie pe baza calculului criteriului F al lui Fisher:

Conform tabelului, determinăm valoarea critică la = 0,05 F; m ; n - m -1 = F 0,05; 2; 7 = 4,74. pentru că F calc = 20,36 > F crit = 4,74, atunci ecuația de regresie cu o probabilitate de 95% poate fi considerată semnificativă statistic. Analiza reziduală vă permite să vă faceți o idee despre cât de bine se potrivește modelul în sine. Conform ipotezelor generale ale analizei de regresie, reziduurile ar trebui să se comporte ca variabile aleatoare independente distribuite identic. Vom verifica independența reziduurilor folosind testul Durbin-Watson (date din Tabelul 2.4 coloanele 7.9)

DW este aproape de 2, ceea ce înseamnă că nu există autocorelare. Pentru a determina cu precizie prezența autocorelației, se folosesc valorile critice d scăzut și d ridicat din tabel, la = 0,05, n=10, k=2:

dlow=0,697 dhigh=1,641

Avem d mare< DW < 4-d high (1,641 < 2,350 < 2,359), можно сделать вывод об отсутствии автокорреляции. Это является одним из подтверждений высокого качества модели построенного по МНК.

5. Evaluare cu t-Testul studentului de semnificație statistică a coeficienților ecuației de regresie

Semnificația coeficienților ecuației de regresie dar 0 , dar 1 , dar 2 estimare folosind t- Criteriul elevului.

b 11 =58,41913

b 22 =0,00072

b 33 =0,00178

Eroare standard \u003d 6.19 (Tabelul 2.5 rândul 4)

Valori estimate t-Criteriile elevului sunt date în Tabelul 2.7 coloana 4.

Valoarea tabelului t-test la nivel de semnificație de 5% și grade de libertate

n - m - 1 = 10 - 2 - 1 = 7 =2,365

Dacă valoarea modulo calculată este mai mare decât cea critică, atunci se face o concluzie despre semnificația statistică a coeficientului de regresie, în caz contrar coeficienții de regresie nu sunt semnificativi statistic.

pentru că<t cr, apoi coeficienții de regresie dar 0 , dar 2 sunt nesemnificative.

Pentru că > t cr, apoi coeficientul de regresie dar 1 semnificativ.

6. Construirea unei prognoze punctuale și pe intervale a indicatorului rezultat

Valorile prognozate ale X 1.11 și X 2.11 pot fi determinate folosind metode de evaluare a experților, folosind incremente medii absolute sau calculate pe baza metodelor de extrapolare.

Ca estimări predictive pentru X 1 și X 2, luăm valoarea medie a fiecărei variabile crescută cu 5% X 1 =42,41,05=44,52; X 2 =160,81,05=168,84.

Să înlocuim în el valorile factorilor predictivi X 1 și X 2 .

la (X R) = 33,295+0,76744,52+0,017168,84=70,365

Intervalul de încredere al prognozei va avea următoarele limite.

Limită superioară de prognoză: la (X R) + u

Limită inferioară de prognoză: la (X R) - u

u =S et cr, S e= 6.19 (Tabelul 2.5 rândul 4)

t kr = 2,365 (la =0,05)

= (1; 44,52; 168,84)

u =6, 192,365=7,258

Rezultatul prognozei este prezentat în Tabelul 2.8.

Tabelul 2.8

Concluzie

Limită superioară

70,365 - 7,258=63,107

70,365 + 7,258=77,623

7. Rezultatele calculelor sunt prezentate în grafic:

S-a construit un model de regresie multiplă a dependenței volumului profitului Y de rata depozitelor X 1 și a cheltuielilor intrabancare X 2:

la= 33,295 + 0,767X 1 + 0,017X 2

Coeficientul de determinare R 2 =0,855 indică o dependență puternică a factorilor. Nu există o autocorelare a reziduurilor în model. pentru că F calc =20,36 > F crit =7,74, atunci ecuația de regresie cu o probabilitate de 95% poate fi considerată semnificativă statistic.

Suma profitului în condiții neschimbate cu o probabilitate de 95% va fi în intervalul de la 63.107 la 77.623.

Acești factori sunt strâns legați, ceea ce indică prezența multicoliniarității. Parametrii multipli de regresie își pierd sensul economic, estimările parametrilor nu sunt de încredere. Modelul este nepotrivit pentru analiză și prognoză. Includerea factorilor în model nu este justificată statistic. Motivul inadecvării modelului au fost erori în organizație, factori nesiguri sau neluați în considerare în model, erori în setarea datelor inițiale.

Analiza a arătat că variabila dependentă, adică volumul profitului, are o relație strânsă cu indicele dobânzilor la credite și indicele mărimii cheltuielilor intrabancare. Ca urmare, instituțiile de credit ar trebui să acorde o atenție deosebită acestor indicatori, să caute modalități de reducere și optimizare a costurilor intra-bancare și de a menține ratele efective ale dobânzii la credite.

Reducerea cheltuielilor băncii este posibilă prin economisirea cheltuielilor administrative și de afaceri și reducerea costului datoriilor atrase.

Economiile de costuri pot implica reduceri sau reduceri de personal salariile, închizând birouri și sucursale suplimentare neprofitabile.

Bibliografie

1. Kremer N.Sh., Putko B.A. Econometrie: manual pentru universități. - M.: UNITI - DANA, 2003.

2. Magnus Ya.R., Katyshev P.K., Persetsky A.A. Econometrie. Curs inițial. - M.: Delo, 2001.

3. Borodich S.A. Econometrie: Proc. Beneficiu. - Minsk: Cunoștințe noi, 2006.

4. Eliseeva I.I. Econometrie: manual. - M., 2010.

Găzduit pe Allbest.ru

...

Documente similare

    Selectarea caracteristicilor factorilor pentru construirea unui model de regresie al proceselor economice eterogene. Construirea unui grafic de dispersie. Analiza matricei coeficienților de corelație de perechi. Determinarea coeficienților de determinare și a erorilor medii de aproximare.

    test, adaugat 21.03.2015

    Selectarea caracteristicilor factorilor pentru un model cu doi factori folosind analiza corelației. Calculul coeficienților de regresie, corelații și elasticitate. Construirea unui model de regresie liniară a productivității muncii pe factorii capitalului și raportul putere-greutate.

    sarcină, adăugată 20.03.2010

    Proiectarea unui model de regresie pe baza datelor panoului. Variabile latente și efecte individuale. Calculul coeficienților unui model de efecte fixe unidirecționale din datele panoului în MS Excel. Alegerea variabilelor pentru construirea acestei regresii.

    lucrare de termen, adăugată 26.08.2013

    Gruparea întreprinderilor în funcție de costul mediu anual al activelor de producție. Mișcare medie netezire și centrare. Determinarea coeficientului modelului de regresie liniară și a indicatorilor de determinare. Coeficienții de elasticitate și interpretarea lor.

    lucrare de control, adaugat 05.06.2015

    Calculul parametrilor ecuație liniară regresie multiplă; determinarea unei evaluări comparative a influenței factorilor asupra indicatorului de performanță folosind coeficienți de elasticitate și valoarea prognozată a rezultatului; construirea unui model de regresie.

    test, adaugat 29.03.2011

    Construirea și analiza unui model econometric liniar multifactorial clasic. Tipul unui model liniar cu doi factori, evaluarea acestuia sub formă de matrice și verificarea adecvării prin criteriul Fisher. Calculul coeficienților de determinare multiplă și corelare.

    lucrare de control, adaugat 06.01.2010

    Construirea unui model liniar al dependenței prețului mărfurilor în punctele de vânzare cu amănuntul. Calculul matricei coeficienților de corelație perechi, evaluarea semnificației statistice a coeficienților de corelație, parametrii modelului de regresie, intervalul de încredere pentru observații.

    munca de laborator, adaugat 17.10.2009

    Determinarea prin metoda regresiei și analiza corelației a relațiilor liniare și neliniare dintre indicatorii dezvoltării macroeconomice. Calculul mediei aritmetice pentru coloanele tabelului. Determinarea coeficientului de corelație și a ecuației de regresie.

    test, adaugat 14.06.2014

    Efectuarea unei analize a activității economice a întreprinderilor din industrie: calcularea parametrilor unei ecuații de regresie multiplă liniară cu o listă completă de factori, evaluarea semnificației statistice a parametrilor modelului de regresie, calcularea valorilor predictive.

    lucru de laborator, adaugat 01.07.2010

    Procedura de construire a unei ecuații de regresie liniară, calcularea parametrilor ei principali și a varianței variabilelor, eroarea medie de aproximare și eroarea standard a componentei reziduale. Construirea unei linii de dependență exponențială de câmpul de corelație.

Folosind metoda celor mai mici pătrate.

Modelul de regresie combină o clasă largă funcții universale, care descriu o oarecare regularitate. În același timp, datele măsurate sunt utilizate în principal pentru a construi un model, mai degrabă decât pentru cunoașterea proprietăților modelului studiat. Un astfel de model este adesea neinterpretabil, dar mai precis. Acest lucru se datorează fie numărului mare de modele candidate care sunt utilizate pentru a construi modelul optim, fie complexității ridicate a modelului. Găsirea parametrilor modelului de regresie se numește antrenament model.

Dezavantajele analizei de regresie: modelele cu prea puțină complexitate pot fi inexacte, iar modelele cu prea multă complexitate pot fi recalificat.

În management și planificare, există o serie de sarcini tipice, care poate fi deplasat pe umerii computerului. Este posibil ca utilizatorul unui astfel de software să nu cunoască în profunzime matematica din spatele aparatului folosit. El ar trebui să reprezinte doar esența problemei care se rezolvă, să pregătească și să introducă datele inițiale în computer și să interpreteze rezultatele. Un produs software care poate fi utilizat în aceste scopuri este Ms Excel.

Ms Excel nu este doar o foaie de calcul cu date și formule pentru calcule. Este un sistem universal de procesare a datelor care poate fi utilizat pentru a analiza și prezenta datele într-o formă vizuală.

Una dintre cele mai frecvent utilizate caracteristici ale Excel este extrapolarea datelor - de exemplu, pentru a analiza datele actuale disponibile, a evalua tendința schimbării acestora și a primi, pe această bază, o prognoză pe termen scurt pentru viitor. În acest caz, se utilizează extrapolarea liniară a datelor bazată pe abaterea cel mai mic pătrat - se caută o dependență liniară a datelor, astfel încât să minimizeze suma diferențelor pătrate dintre datele actuale disponibile și valorile corespunzătoare pe un liniar. linia de tendință (dependență de interpolare sau extrapolare). Pe baza dependenței constatate, se poate face o presupunere rezonabilă cu privire la valorile viitoare așteptate ale seriei de date studiate.

Rezolvarea problemelor de planificare și control necesită în mod constant luarea în considerare a dependențelor unor factori față de alții.

Să ne uităm la diferite metode de reprezentare a dependențelor.

Dacă relația dintre cantități poate fi reprezentată în formă matematică, atunci avem model matematic.


Model matematic este un ansamblu de caracteristici cantitative ale unui obiect (proces) și relațiile dintre acestea, prezentate în limbajul matematicii.

Modelele matematice pot fi reprezentate ca formule, ecuații sau sisteme de ecuații. De exemplu, dependența timpului în care corpul cade la pământ de înălțimea inițială este descrisă de formula . Luați în considerare exemple de alte moduri de reprezentare a dependențelor dintre cantități: tabelar și grafic. Pe baza rezultatelor experimentului, am compilat un tabel și am desenat un grafic (Figura 1).

H (m) t (sec)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Poza 1. Prezentarea tabelară și grafică a datelor.

Am luat în considerare trei moduri de a afișa dependența cantităților: funcțional (formulă), tabelar și grafic. Dar numai formula poate fi numită un model matematic al procesului de cădere la pământ a unui corp, deoarece formula este universală. Tabelul și diagrama (graficul) prezintă faptele, iar modelul matematic vă permite să preziceți, să preziceți prin calcule.

Datele statistice sunt întotdeauna aproximative, mediate. Prin urmare, sunt de natură evaluativă. Cu toate acestea, ele reflectă corect natura dependenței cantităților. Și încă o notă importantă: pentru fiabilitatea rezultatelor obținute prin analiza datelor statistice, trebuie să existe o mulțime de aceste date.

Graficul funcției dorite trebuie să treacă aproape de punctele diagramei de date experimentale. Nu are sens să construiți o funcție astfel încât graficul acesteia să treacă exact prin toate aceste puncte (Figura 2). În primul rând, forma matematică a unei astfel de funcții poate fi prea complicată. În al doilea rând, s-a spus deja că valorile experimentale sunt aproximative.

De aici urmează cerințele de bază pentru funcția dorită:

Ar trebui să fie suficient de simplu pentru a fi folosit în calcule ulterioare;

Graficul acestei funcții ar trebui să treacă în apropierea punctelor experimentale, astfel încât abaterile acestor puncte de la grafic să fie minime și uniforme (Figura 3).

Figura 3. Două opțiuni pentru construirea unei dependențe grafice pe baza datelor experimentale.

Funcția rezultată, al cărei grafic este prezentat în Figura 3(b), este de obicei numită model de regresie în statistică. Model de regresie este o funcție care descrie relația dintre caracteristicile cantitative ale sistemelor complexe.

Modelul de regresie se obține în două etape:

1. Selectarea tipului de funcție;

2. Calculul parametrilor funcției.

Cel mai adesea, alegerea se face dintre următoarele funcții:

y = ax + b - funcție liniară;

y = ax 2 + bx + c - funcţie pătratică;

y = aln(x) + b - funcţie logaritmică;

y = ae bx - funcţie exponenţială;

y = ax b - functie de putere.

Dacă ați ales (conștient sau la întâmplare) una dintre funcțiile propuse, atunci următorul pas este alegerea parametrilor (a ,b, c etc.) astfel încât funcția să fie situată cât mai aproape de punctele experimentale. Pentru aceasta este potrivită metoda celor mai mici pătrate (LSM). Esența sa este următoarea: funcția dorită trebuie construită astfel încât suma abaterilor pătrate ale coordonatelor y - ale tuturor punctelor experimentale de la coordonatele y - ale graficului funcției să fie minimă.

Este important să înțelegeți următoarele: folosind metoda celor mai mici pătrate pentru un set dat de puncte experimentale, se poate construi orice funcție. Dar dacă ne va satisface, aceasta este o altă întrebare - întrebarea criteriului de conformitate. Figura 4 prezintă 3 funcții construite prin metoda celor mai mici pătrate.

Figura 4

Aceste cifre au fost obținute cu ajutorul doamnei Excel. Graficul modelului de regresie se numește tendinţă(tendință - direcție, tendință).

Programa funcție liniară- este o linie dreaptă. Linia dreaptă obținută prin metoda OLS reflectă faptul creșterii incidenței concentrației de monoxid de carbon, dar conform acestui grafic este greu de spus ceva despre natura acestei creșteri. Dar tendințele pătratice și exponențiale - se comportă foarte plauzibil.

Există o altă valoare pe grafice, obținută ca urmare a tendințelor. Este desemnat ca R2. În statistică, aceasta se numește coeficient de determinism. Ea este cea care determină cât de reușit va avea modelul de regresie. Coeficientul de determinism este întotdeauna în intervalul de la 0 la 1. Dacă este egal cu 1, atunci funcția trece exact prin valorile tabelului, dacă 0, atunci tipul de model de regresie selectat nu are succes. Cu cât R2 este mai aproape de 1, cu atât este mai bun modelul de regresie.

Metoda celor mai mici pătrate este utilizată pentru a calcula parametrii modelului de regresie. Această metodă se găsește în arsenalul matematic de foi de calcul.

După ce am primit un model matematic de regresie, putem prezice procesul prin calcule. Acum este posibil să se estimeze incidența astmului bronșic nu numai pentru acele valori ale concentrației de monoxid de carbon care au fost obținute prin măsurători, ci și pentru alte valori. Acest lucru este foarte important din punct de vedere practic. De exemplu, dacă se plănuiește construirea unei fabrici în oraș care va emite monoxid de carbon în atmosferă, atunci prin calcularea posibilei concentrații de gaz, se poate prezice modul în care aceasta va afecta incidența astmului la locuitorii orașului.

Există două moduri de a face predicții folosind un model de regresie. Dacă prognoza se face în cadrul valorilor experimentale ale variabilei independente (în cazul nostru, aceasta este valoarea concentrației de monoxid de carbon - C), atunci aceasta se numește restabilirea sensului.

Se numește predicție dincolo de datele experimentale extrapolare.

Având un model de regresie, este ușor de prezis făcând calcule folosind o foaie de calcul.

Foaia de calcul face posibilă extrapolarea grafică, continuând tendința dincolo de datele experimentale. Cum arată când se folosește o tendință pătratică pentru C = 7 este prezentat în Figura 5.

Figura 5

În unele cazuri, extrapolarea trebuie făcută cu grijă. Aplicabilitatea oricărui model de regresie este limitată, mai ales în afara domeniului experimental.

Bibliografie.

1. Novikov F.A., Yatsenko A.D. Microsoft Office. S.-P.: BHV-Petersburg, 2002 pp.449-458

2. Semakin I.G., Khenner E.K. Informatica.clasa a XI-a. M.: BINOM. Laboratorul de cunoștințe, 2003 pp.102-117


închide