Regresijas analīzes apraksts. Regresijas analīze programmā Microsoft Excel. Atkarīgā mainīgā nezināmo vērtību novērtējums

Studiju laikā studenti ļoti bieži sastopas ar dažādiem vienādojumiem. Viens no tiem - regresijas vienādojums - ir aplūkots šajā rakstā. Šāda veida vienādojumu izmanto īpaši, lai aprakstītu matemātisko parametru attiecības raksturlielumus. Šis vienlīdzības veids tiek izmantots statistikā un ekonometrikā.

Regresijas definīcija

Matemātikā regresiju saprot kā noteiktu lielumu, kas raksturo datu kopas vidējās vērtības atkarību no cita lieluma vērtībām. Regresijas vienādojums kā noteiktas pazīmes funkciju parāda citas pazīmes vidējo vērtību. Regresijas funkcijai ir forma vienkāršs vienādojums y \u003d x, kurā y ir atkarīgais mainīgais, un x ir neatkarīgais mainīgais (iezīmes faktors). Faktiski regresiju izsaka kā y = f (x).

Kādi ir attiecību veidi starp mainīgajiem

Kopumā izšķir divus pretējus attiecību veidus: korelāciju un regresiju.

Pirmo raksturo nosacījuma mainīgo vienādība. Šajā gadījumā nav precīzi zināms, kurš mainīgais ir atkarīgs no cita.

Ja starp mainīgajiem nav vienlīdzības un nosacījumi saka, kurš mainīgais ir izskaidrojošs un kurš ir atkarīgs, tad mēs varam runāt par otrā veida savienojuma esamību. Lai izveidotu lineārās regresijas vienādojumu, būs jānoskaidro, kāda veida attiecības tiek novērotas.

Regresiju veidi

Līdz šim ir 7 dažādi regresijas veidi: hiperboliska, lineāra, daudzkārtēja, nelineāra, pa pāriem, apgriezta, logaritmiski lineāra.

Hiperbolisks, lineārs un logaritmisks

Lineārās regresijas vienādojums statistikā tiek izmantots, lai skaidri izskaidrotu vienādojuma parametrus. Izskatās, ka y = c + m * x + E. Hiperboliskajam vienādojumam ir regulāra hiperbola y \u003d c + m / x + E. Logaritmiski lineārais vienādojums izsaka attiecības, izmantojot logaritmiskā funkcija: In y \u003d In c + t * In x + In E.

Vairāki un nelineāri

Divi sarežģītāki regresijas veidi ir daudzkārtēji un nelineāri. Daudzkārtējās regresijas vienādojumu izsaka ar funkciju y \u003d f (x 1, x 2 ... x c) + E. Šajā situācijā y ir atkarīgais mainīgais un x ir skaidrojošais mainīgais. Mainīgais E ir stohastisks un ietver citu vienādojuma faktoru ietekmi. Nelineārās regresijas vienādojums ir nedaudz nekonsekvents. No vienas puses, attiecībā uz ņemtajiem rādītājiem tas nav lineārs, bet, no otras puses, rādītāju vērtēšanas lomā tas ir lineārs.

Apgrieztās un pāru regresijas

Apgrieztā funkcija ir sava veida funkcija, kas jāpārvērš lineārā formā. Tradicionālajās lietojumprogrammās tam ir funkcijas y \u003d 1 / c + m * x + E forma. Pārī savienotais regresijas vienādojums parāda saistību starp datiem kā funkciju no y = f(x) + E. Tāpat kā citi vienādojumi, y ir atkarīgs no x un E ir stohastisks parametrs.

Korelācijas jēdziens

Tas ir rādītājs, kas parāda attiecības starp divām parādībām vai procesiem. Sakarības stiprumu izsaka kā korelācijas koeficientu. Tā vērtība svārstās intervālā [-1;+1]. Negatīvs rādītājs norāda uz atgriezeniskās saites esamību, pozitīvs rādītājs norāda uz tiešu. Ja koeficients iegūst vērtību, kas vienāda ar 0, tad attiecības nav. Jo tuvāk vērtība ir 1 - jo spēcīgāka ir saistība starp parametriem, jo ​​tuvāk 0 - jo vājāka.

Metodes

Korelācijas parametru metodes var novērtēt attiecības stingrību. Tos izmanto, pamatojoties uz sadalījuma aprēķiniem, lai pētītu parametrus, kas atbilst normālā sadalījuma likumam.

Lineārās regresijas vienādojuma parametri nepieciešami, lai identificētu atkarības veidu, regresijas vienādojuma funkciju un novērtētu izvēlētās sakarības formulas rādītājus. Korelācijas lauks tiek izmantots kā sakarību noteikšanas metode. Lai to izdarītu, visi esošie dati ir jāattēlo grafiski. Taisnstūra divdimensiju koordinātu sistēmā ir jāatzīmē visi zināmie dati. Tādā veidā veidojas korelācijas lauks. Aprakstošā faktora vērtība ir atzīmēta gar abscisu līniju, bet atkarīgā faktora vērtības ir atzīmētas gar ordinātām. Ja starp parametriem pastāv funkcionāla saistība, tie sarindojas līnijas veidā.

Ja šādu datu korelācijas koeficients ir mazāks par 30%, mēs varam runāt par gandrīz pilnīgu savienojuma neesamību. Ja tas ir no 30% līdz 70%, tas norāda uz vidēja blīvuma saišu esamību. 100% indikators liecina par funkcionālu savienojumu.

Nelineāras regresijas vienādojums, tāpat kā lineārs, jāpapildina ar korelācijas indeksu (R).

Korelācija daudzkārtējai regresijai

Determinācijas koeficients ir daudzkārtējās korelācijas kvadrāta rādītājs. Viņš runā par uzrādītā rādītāju kopuma saistību ar pētāmo pazīmi. Tas var arī runāt par parametru ietekmes uz rezultātu raksturu. Daudzkārtējās regresijas vienādojums tiek novērtēts, izmantojot šo rādītāju.

Lai aprēķinātu daudzkārtējās korelācijas indeksu, ir jāaprēķina tā indekss.

Mazākā kvadrāta metode

Šī metode ir veids, kā novērtēt regresijas faktorus. Tās būtība ir samazināt kvadrātu noviržu summu, kas iegūta faktora atkarības dēļ no funkcijas.

Izmantojot šādu metodi, var novērtēt sapārotu lineārās regresijas vienādojumu. Šāda veida vienādojumus izmanto, ja tiek konstatēts starp pāra lineāras attiecības indikatoriem.

Vienādojuma opcijas

Katram lineārās regresijas funkcijas parametram ir noteikta nozīme. Pāra lineārās regresijas vienādojums satur divus parametrus: c un m. Parametrs t parāda funkcijas y gala rādītāja vidējās izmaiņas, pakļaujoties mainīgā x samazinājumam (palielinājumam) par vienu nosacīto vienību. Ja mainīgais x ir nulle, tad funkcija ir vienāda ar parametru c. Ja mainīgais x nav nulle, tad faktoram c nav ekonomiskas jēgas. Vienīgā ietekme uz funkciju ir zīme faktora c priekšā. Ja ir mīnuss, tad varam teikt par lēnām rezultāta izmaiņām salīdzinājumā ar faktoru. Ja ir pluss, tas norāda uz paātrinātām rezultāta izmaiņām.

Katru parametru, kas maina regresijas vienādojuma vērtību, var izteikt vienādojumā. Piemēram, faktoram c ir forma c = y - mx.

Grupēti dati

Ir tādi uzdevuma nosacījumi, kuros visa informācija ir sagrupēta pēc atribūta x, bet tajā pašā laikā noteiktai grupai tiek norādītas atbilstošās atkarīgā rādītāja vidējās vērtības. Šajā gadījumā vidējās vērtības raksturo to, kā indikators ir atkarīgs no x. Tādējādi sagrupētā informācija palīdz atrast regresijas vienādojumu. To izmanto kā attiecību analīzi. Tomēr šai metodei ir savi trūkumi. Diemžēl vidējie rādītāji bieži ir pakļauti ārējām svārstībām. Šīs svārstības neatspoguļo attiecību modeļus, tās tikai maskē tā "troksni". Vidējie rādītāji parāda attiecību modeļus, kas ir daudz sliktāki nekā lineārās regresijas vienādojums. Tomēr tos var izmantot kā pamatu vienādojuma atrašanai. Reizinot konkrētas populācijas lielumu ar atbilstošo vidējo, jūs varat iegūt y summu grupā. Tālāk jums jāizsit visas saņemtās summas un jāatrod gala rādītājs y. Nedaudz grūtāk ir veikt aprēķinus ar summas indikatoru xy. Gadījumā, ja intervāli ir mazi, mēs varam nosacīti ņemt indikatoru x visām vienībām (grupas ietvaros) vienādi. Reiziniet to ar y summu, lai atrastu x un y reizinājumu summu. Tālāk visas summas sasit kopā un iegūst kopējo summu xy.

Vairāku pāru vienādojumu regresija: attiecību nozīmes novērtēšana

Kā minēts iepriekš, daudzkārtējai regresijai ir funkcija y \u003d f (x 1, x 2, ..., x m) + E. Visbiežāk šāds vienādojums tiek izmantots, lai atrisinātu preču piedāvājuma un pieprasījuma problēmu, procentu ienākumus par atpirktajām akcijām, pētot ražošanas izmaksu funkcijas cēloņus un veidu. To aktīvi izmanto arī visdažādākajos makroekonomikas pētījumos un aprēķinos, taču mikroekonomikas līmenī šis vienādojums tiek izmantots nedaudz retāk.

Daudzkārtējās regresijas galvenais uzdevums ir izveidot datu modeli, kas satur milzīgu informācijas apjomu, lai tālāk noteiktu, kādu ietekmi katrs no faktoriem atsevišķi un to kopumā atstāj uz modelējamo rādītāju un tā koeficientiem. Regresijas vienādojumam var būt dažādas vērtības. Šajā gadījumā attiecības novērtēšanai parasti izmanto divu veidu funkcijas: lineāro un nelineāro.

Lineāra funkcija ir attēlota šādas attiecības veidā: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Šajā gadījumā a2, a m tiek uzskatīti par "tīrās" regresijas koeficientiem. Tie ir nepieciešami, lai raksturotu parametra y vidējās izmaiņas ar katra atbilstošā parametra x izmaiņām (samazinājumu vai pieaugumu) par vienu vienību, ar nosacījumu, ka pārējo rādītāju vērtība ir stabila.

Nelineāriem vienādojumiem ir, piemēram, pakāpju funkcijas forma y=ax 1 b1 x 2 b2 ...x m bm . Šajā gadījumā rādītājus b 1, b 2 ..... b m - sauc par elastības koeficientiem, tie parāda, kā rezultāts mainīsies (par cik%), palielinoties (samazinoties) atbilstošajam rādītājam x par 1%. un ar stabilu citu faktoru rādītāju.

Kādi faktori jāņem vērā, veidojot vairākkārtēju regresiju

Lai pareizi konstruētu daudzkārtēju regresiju, ir jānoskaidro, kuriem faktoriem jāpievērš īpaša uzmanība.

Ir nepieciešama zināma izpratne par ekonomisko faktoru un modelētās attiecības būtību. Iekļautajiem faktoriem jāatbilst šādiem kritērijiem:

  • Jābūt izmērāmam. Lai izmantotu objekta kvalitāti raksturojošu faktoru, tam jebkurā gadījumā jāpiešķir kvantitatīvā forma.
  • Nevajadzētu būt faktoru savstarpējai korelācijai vai funkcionālai saistībai. Šādas darbības visbiežāk noved pie neatgriezeniskām sekām - parasto vienādojumu sistēma kļūst beznosacījuma, un tas rada tās neuzticamību un izplūdušus aprēķinus.
  • Milzīga korelācijas rādītāja gadījumā nav iespējams noskaidrot atsevišķu faktoru ietekmi uz rādītāja gala rezultātu, tāpēc koeficienti kļūst neinterpretējami.

Būvniecības metodes

Ir ļoti daudz metožu un veidu, kā izskaidrot, kā izvēlēties vienādojuma faktorus. Tomēr visas šīs metodes ir balstītas uz koeficientu atlasi, izmantojot korelācijas indeksu. Starp tiem ir:

  • Izslēgšanas metode.
  • Ieslēdziet metodi.
  • Pakāpeniskās regresijas analīze.

Pirmā metode ietver visu koeficientu izsijāšanu no kopējās kopas. Otrā metode ietver daudzu papildu faktoru ieviešanu. Trešais ir to faktoru izslēgšana, kas iepriekš tika piemēroti vienādojumam. Katrai no šīm metodēm ir tiesības pastāvēt. Viņiem ir savi plusi un mīnusi, taču viņi var atrisināt jautājumu par nevajadzīgu rādītāju izsijāšanu savā veidā. Parasti rezultāti, kas iegūti ar katru atsevišķu metodi, ir diezgan tuvi.

Daudzfaktoru analīzes metodes

Šādas metodes faktoru noteikšanai ir balstītas uz atsevišķu savstarpēji saistītu pazīmju kombināciju apsvēršanu. Tie ietver diskriminantu analīzi, modeļa atpazīšanu, galveno komponentu analīzi un klasteru analīzi. Papildus ir arī faktoru analīze, taču tā parādījās komponentu metodes izstrādes rezultātā. Tie visi tiek piemēroti noteiktos apstākļos, pie noteiktiem nosacījumiem un faktoriem.

mērķis regresijas analīze ir saistības mērs starp atkarīgo mainīgo un vienu (pāru regresijas analīze) vai vairākiem (vairākiem) neatkarīgiem mainīgajiem. Neatkarīgus mainīgos sauc arī par faktoriāliem, skaidrojošiem, determinantiem, regresoriem un prognozētājiem.

Atkarīgais mainīgais dažreiz tiek saukts par definēto, izskaidroto vai "atbildes" mainīgo. Regresijas analīzes ārkārtīgi plašā izmantošana empīriskajos pētījumos ir saistīta ne tikai ar to, ka tā ir ērts rīks hipotēžu pārbaudei. Regresija, īpaši daudzkārtēja regresija, ir efektīva metode modelēšana un prognozēšana.

Sāksim skaidrot darba principus ar regresijas analīzi ar vienkāršāku – pāru metodi.

Pāru regresijas analīze

Pirmie soļi, izmantojot regresijas analīzi, būs gandrīz identiski tiem, ko mēs veicām korelācijas koeficienta aprēķināšanas ietvaros. Trīs galvenie nosacījumi korelācijas analīzes efektivitātei, izmantojot Pīrsona metodi - mainīgo lielumu normālais sadalījums, mainīgo intervālu mērīšana, mainīgo lineārā sakarība - ir būtiski arī daudzkārtējai regresijai. Attiecīgi pirmajā posmā tiek konstruēti izkliedes diagrammas, tiek veikta mainīgo statistiskā un aprakstošā analīze un tiek aprēķināta regresijas līnija. Tāpat kā korelācijas analīzes ietvaros, regresijas taisnes tiek veidotas, izmantojot mazāko kvadrātu metodi.

Lai skaidrāk ilustrētu atšķirības starp abām datu analīzes metodēm, pievērsīsimies jau aplūkotajam piemēram ar mainīgajiem lielumiem "VMS atbalsts" un "lauku iedzīvotāju daļa". Sākotnējie dati ir identiski. Izkliedes diagrammu atšķirība būs tāda, ka regresijas analīzē ir pareizi attēlot atkarīgo mainīgo - mūsu gadījumā "SPS atbalstu" pa Y asi, savukārt korelācijas analīzē tam nav nozīmes. Pēc novirzes notīrīšanas izkliedes diagramma izskatās šādi:

Regresijas analīzes pamatideja ir tāda, ka, ņemot vērā mainīgo lielumu vispārēju tendenci - regresijas līnijas veidā, jūs varat paredzēt atkarīgā mainīgā vērtību, kam ir neatkarīgā lieluma vērtības.

Iedomāsimies parastu matemātisko lineāro funkciju. Jebkuru līniju Eiklīda telpā var aprakstīt ar formulu:

kur a ir konstante, kas norāda nobīdi pa y asi; b - koeficients, kas nosaka līnijas leņķi.

Zinot slīpumu un konstanti, jūs varat aprēķināt (paredzēt) y vērtību jebkuram x.

Šis vienkāršākā funkcija un veidoja regresijas analīzes modeļa pamatu ar atrunu, ka mēs prognozēsim y vērtību nevis precīzi, bet noteiktā robežās. ticamības intervāls, t.i. aptuveni.

Konstante ir regresijas līnijas un y ass (F-pārtvēruma, ko statistikas paketēs parasti dēvē par "pārtvērēju") krustpunkts. Mūsu piemērā balsojot par VPS, tā noapaļotā vērtība būs 10,55. Slīpuma koeficients b būs vienāds ar aptuveni -0,1 (tāpat kā korelācijas analīzē, zīme parāda attiecības veidu - tiešo vai apgriezto). Tādējādi iegūtais modelis izskatīsies šādi: SP C = -0,1 x Sel. mums. + 10.55.

Tātad "Adigejas Republikas" gadījumā, kurā lauku iedzīvotāju īpatsvars ir 47%, prognozētā vērtība būs 5,63:

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Atšķirību starp sākotnējām un prognozētajām vērtībām sauc par atlikumu (mēs jau esam saskārušies ar šo terminu, kas ir fundamentāls statistikai, analizējot ārkārtas tabulas). Tātad Adigejas Republikas gadījumā atlikums būs 3,92 - 5,63 = -1,71. Jo lielāka ir atlikuma moduļa vērtība, jo sliktāk prognozējamā vērtība.

Mēs aprēķinām prognozētās vērtības un atlikumus visiem gadījumiem:
Notiek sestdien mums. Paldies

(oriģināls)

Paldies

(paredzēts)

Paliek
Adigejas Republika 47 3,92 5,63 -1,71 -
Altaja Republika 76 5,4 2,59 2,81
Baškortostānas Republika 36 6,04 6,78 -0,74
Burjatijas Republika 41 8,36 6,25 2,11
Dagestānas Republika 59 1,22 4,37 -3,15
Ingušijas Republika 59 0,38 4,37 3,99
utt.

Sākotnējo un paredzamo vērtību attiecības analīze kalpo, lai novērtētu iegūtā modeļa kvalitāti, tā prognozēšanas spēju. Viens no galvenajiem regresijas statistikas rādītājiem ir daudzkārtējais korelācijas koeficients R - korelācijas koeficients starp atkarīgā mainīgā sākotnējo un prognozēto vērtību. Pāru regresijas analīzē tas ir vienāds ar parasto Pīrsona korelācijas koeficientu starp atkarīgo un neatkarīgo mainīgo, mūsu gadījumā - 0,63. Lai jēgpilni interpretētu daudzkārtējo R, tas ir jāpārvērš determinācijas koeficientā. Tas tiek darīts tāpat kā korelācijas analīzē - kvadrātā. Determinācijas koeficients R kvadrāts (R 2) parāda atkarīgā mainīgā variācijas proporciju, ko izskaidro neatkarīgie (neatkarīgie) mainīgie.

Mūsu gadījumā R 2 = 0,39 (0,63 2); tas nozīmē, ka mainīgais "lauku iedzīvotāju īpatsvars" izskaidro apmēram 40% no mainīgā lieluma "atbalsts KPS" variācijām. Jo lielāka ir determinācijas koeficienta vērtība, jo augstāka ir modeļa kvalitāte.

Vēl viens modeļa kvalitātes mērs ir aplēses standarta kļūda. Tas ir mērs, cik daudz punkti ir "izkliedēti" ap regresijas līniju. Intervālu mainīgo izkliedes mērs ir standarta novirze. Attiecīgi aplēses standartkļūda ir atlikuma sadalījuma standartnovirze. Jo augstāka tā vērtība, jo lielāka izplatība un sliktāks modelis. Mūsu gadījumā standarta kļūda ir 2,18. Tieši par šo summu mūsu modelis “vidēji kļūdīsies”, prognozējot mainīgā “SPS atbalsts” vērtību.

Regresijas statistika ietver arī dispersijas analīzi. Ar tā palīdzību noskaidrojam: 1) kādu atkarīgā mainīgā variācijas (dispersijas) proporciju izskaidro neatkarīgais mainīgais; 2) kādu daļu no atkarīgā mainīgā dispersijas veido atlikumi (neizskaidrotā daļa); 3) kāda ir šo divu vērtību attiecība (/ "-ratio). Izkliedes statistika ir īpaši svarīga izlases pētījumiem - tā parāda, cik liela ir saistība starp neatkarīgajiem un atkarīgajiem mainīgajiem vispārējā populācijā. Tomēr , nepārtrauktiem pētījumiem (kā mūsu piemērā), pētījums Šajā gadījumā tiek pārbaudīts, vai atklāto statistisko modeli nav izraisījusi nejaušu apstākļu sakritība, cik tas ir raksturīgs apstākļu kompleksam, kurā atrodas aptaujātā populācija. , t.i., tiek konstatēts, ka iegūtais rezultāts nav patiess kādam plašākam vispārējam agregātam, bet gan tā regularitātes pakāpei, brīvībai no nejaušām ietekmēm.

Mūsu gadījumā dispersijas statistikas analīze ir šāda:

SS df JAUNKUNDZE F nozīmē
Regress. 258,77 1,00 258,77 54,29 0.000000001
Atlikušais 395,59 83,00 L,11
Kopā 654,36

F koeficients 54,29 ir nozīmīgs 0,0000000001 līmenī. Attiecīgi mēs varam droši noraidīt nulles hipotēzi (ka atrastā saistība ir nejauša).

Līdzīgu funkciju veic t kritērijs, bet attiecībā uz regresijas koeficientiem (leņķa un F-krustojumi). Izmantojot kritēriju /, mēs pārbaudām hipotēzi, ka regresijas koeficienti vispārējā populācijā ir vienādi ar nulli. Mūsu gadījumā mēs atkal varam pārliecinoši noraidīt nulles hipotēzi.

Daudzkārtēja regresijas analīze

Daudzkārtējas regresijas modelis ir gandrīz identisks pāru regresijas modelim; vienīgā atšķirība ir tā, ka lineārajā funkcijā secīgi tiek iekļauti vairāki neatkarīgi mainīgie:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ja ir vairāk nekā divi neatkarīgi mainīgie, mēs nevaram iegūt vizuālu to attiecību attēlojumu; šajā ziņā daudzkārtēja regresija ir mazāk “redzama” nekā pāru regresija. Ja ir divi neatkarīgi mainīgie, var būt noderīgi parādīt datus 3D izkliedes diagrammā. Profesionālās statistikas programmatūras pakotnēs (piemēram, Statistica) ir iespēja pagriezt trīsdimensiju diagrammu, kas ļauj labi vizuāli attēlot datu struktūru.

Strādājot ar vairākkārtēju regresiju, atšķirībā no pāru regresijas, ir nepieciešams noteikt analīzes algoritmu. Standarta algoritms ietver visus pieejamos prognozētājus galīgajā regresijas modelī. Soli pa solim algoritms uzņemas neatkarīgu mainīgo secīgu iekļaušanu (izslēgšanu), pamatojoties uz to skaidrojošo "svaru". Pakāpeniskā metode ir laba, ja ir daudz neatkarīgu mainīgo; tas "attīra" modeli no atklāti vājiem prognozētājiem, padarot to kompaktāku un kodolīgāku.

Papildu nosacījums daudzkārtējas regresijas pareizībai (kopā ar intervālu, normalitāti un linearitāti) ir multikolinearitātes neesamība - spēcīgu korelāciju klātbūtne starp neatkarīgiem mainīgajiem.

Daudzkārtējas regresijas statistikas interpretācija ietver visus elementus, ko esam apsvēruši pāru regresijas gadījumā. Turklāt daudzkārtējās regresijas analīzes statistikā ir arī citi svarīgi komponenti.

Darbu ilustrēsim ar daudzkārtēju regresiju, izmantojot hipotēžu pārbaudes piemēru, kas izskaidro vēlēšanu aktivitātes līmeņa atšķirības Krievijas reģionos. Īpaši empīriski pētījumi liecina, ka vēlētāju aktivitāti ietekmē:

Nacionālais faktors (mainīgais lielums "Krievijas iedzīvotāji"; operacionalizēts kā Krievijas iedzīvotāju īpatsvars Krievijas Federācijas veidojošajās vienībās). Tiek pieļauts, ka Krievijas iedzīvotāju īpatsvara pieaugums noved pie vēlētāju aktivitātes samazināšanās;

Urbanizācijas faktors (mainīgais "pilsētas iedzīvotāju skaits"; operacionalizēts kā pilsētu iedzīvotāju īpatsvars Krievijas Federācijas veidojošajās vienībās, mēs jau esam strādājuši ar šo faktoru korelācijas analīzes ietvaros). Tiek pieļauts, ka pilsētu iedzīvotāju īpatsvara pieaugums izraisa arī vēlētāju aktivitātes samazināšanos.

Atkarīgais mainīgais - "vēlēšanu aktivitātes intensitāte" ("aktīvs") tiek operacionalizēts, izmantojot vidējos datus par vēlētāju aktivitāti reģionos federālajās vēlēšanās no 1995. līdz 2003. gadam. Sākotnējā datu tabula diviem neatkarīgiem un vienam atkarīgajam mainīgajam būs šāda forma. :

Notiek Mainīgie lielumi
Aktīvi. Gor. mums. Rus. mums.
Adigejas Republika 64,92 53 68
Altaja Republika 68,60 24 60
Burjatijas Republika 60,75 59 70
Dagestānas Republika 79,92 41 9
Ingušijas Republika 75,05 41 23
Kalmikijas Republika 68,52 39 37
Karačajas-Čerkesas Republika 66,68 44 42
Karēlijas Republika 61,70 73 73
Komi Republika 59,60 74 57
Mari El Republika 65,19 62 47

utt. (pēc emisiju attīrīšanas paliek 83 gadījumi no 88)

Statistika, kas raksturo modeļa kvalitāti:

1. Vairāki R = 0,62; L-kvadrāts = 0,38. Līdz ar to nacionālais faktors un urbanizācijas faktors kopā izskaidro aptuveni 38% mainīgā lieluma "vēlēšanu aktivitāte" variācijas.

2. Vidējā kļūda ir 3,38. Lūk, kā “vidēji” konstruētais modelis ir nepareizs, prognozējot aktivitāšu līmeni.

3. Izskaidrotās un neizskaidrojamās variācijas /l attiecība ir 25,2 0,000000003 līmenī. Nulles hipotēze par atklāto attiecību nejaušību tiek noraidīta.

4. Kritērijs / mainīgo "pilsētu iedzīvotāji" un "Krievijas iedzīvotāji" konstantajiem un regresijas koeficientiem ir nozīmīgs 0,0000001 līmenī; attiecīgi 0,00005 un 0,007. Nulles hipotēze par koeficientu nejaušību tiek noraidīta.

Papildu noderīga statistika atkarīgā mainīgā sākotnējo un paredzamo vērtību attiecības analīzē ir Mahalanobisa attālums un Kuka attālums. Pirmais ir gadījuma unikalitātes mērs (parāda, cik lielā mērā visu neatkarīgo mainīgo vērtību kombinācija konkrētajam gadījumam atšķiras no visu neatkarīgo mainīgo vidējās vērtības vienlaikus). Otrais ir lietas ietekmes mērs. Dažādi novērojumi dažādos veidos ietekmē regresijas līnijas slīpumu, un, izmantojot Kuka attālumu, tos var salīdzināt pēc šī rādītāja. Tas ir noderīgi, iztīrot novirzes (novirzi var uzskatīt par pārāk ietekmīgu gadījumu).

Mūsu piemērā Dagestāna ir viens no unikālajiem un ietekmīgākajiem gadījumiem.

Notiek Sākotnējais

vērtības

Predska

vērtības

Paliek Attālums

Mahalanobis

Attālums
Adigeja 64,92 66,33 -1,40 0,69 0,00
Altaja Republika 68,60 69.91 -1,31 6,80 0,01
Burjatijas Republika 60,75 65,56 -4,81 0,23 0,01
Dagestānas Republika 79,92 71,01 8,91 10,57 0,44
Ingušijas Republika 75,05 70,21 4,84 6,73 0,08
Kalmikijas Republika 68,52 69,59 -1,07 4,20 0,00

Faktiskajam regresijas modelim ir šādi parametri: Y-pārgriezums (konstante) = 75,99; b (Hor. sat.) \u003d -0,1; b (Rus. nas.) = -0,06. Galīgā formula:

Aaktīvs, = -0,1 x Hor. sat.n+- 0,06 x Rus. sat.n + 75,99.

Vai varam salīdzināt prognozētāju "skaidrojošo spēku", pamatojoties uz koeficienta vērtību 61. Šajā gadījumā jā, jo abiem neatkarīgiem mainīgajiem ir vienāds procentuālais formāts. Tomēr visbiežāk daudzkārtēja regresija attiecas uz mainīgajiem, kas mērīti dažādās skalās (piemēram, ienākumu līmenis rubļos un vecums gados). Tāpēc vispārīgā gadījumā ir nekorekti salīdzināt mainīgo prognozēšanas iespējas pēc regresijas koeficienta. Vairākkārtējas regresijas statistikā šim nolūkam ir īpašs beta koeficients (B), ko aprēķina atsevišķi katram neatkarīgajam mainīgajam. Tas ir daļējs (aprēķināts, ņemot vērā visu pārējo prognozētāju ietekmi) faktora un reakcijas korelācijas koeficients un parāda faktora neatkarīgo ieguldījumu atbildes vērtību prognozēšanā. Pāru regresijas analīzē beta koeficients saprotami ir vienāds ar pāru korelācijas koeficientu starp atkarīgo un neatkarīgo mainīgo.

Mūsu piemērā beta (hor. nas.) = -0,43, beta (krievu nas.) = -0,28. Tādējādi abi faktori negatīvi ietekmē vēlēšanu aktivitātes līmeni, savukārt urbanizācijas faktora nozīme ir ievērojami augstāka par nacionālā faktora nozīmi. Abu faktoru kopējā ietekme nosaka aptuveni 38% no mainīgā lieluma "vēlēšanu aktivitāte" (skatīt L kvadrāta vērtību).

Regresijas analīze

regresija (lineārs) analīze- statistikas metode, lai pētītu viena vai vairāku neatkarīgu mainīgo ietekmi uz atkarīgo mainīgo. Neatkarīgos mainīgos citādi sauc par regresoriem vai prognozētājiem, un atkarīgos mainīgos sauc par kritērijiem. Terminoloģija atkarīgi Un neatkarīgs mainīgie atspoguļo tikai mainīgo matemātisko atkarību ( skatiet viltus korelāciju), nevis cēloņsakarību.

Regresijas analīzes mērķi

  1. Kritērija (atkarīgā) mainīgā variācijas determinisma pakāpes noteikšana ar prognozētājiem (neatkarīgie mainīgie)
  2. Atkarīgā mainīgā vērtības prognozēšana, izmantojot neatkarīgo(-s) mainīgo(-us)
  3. Atsevišķu neatkarīgo mainīgo ieguldījuma noteikšana apgādājamā variācijā

Regresijas analīzi nevar izmantot, lai noteiktu, vai pastāv sakarība starp mainīgajiem lielumiem, jo ​​šādas attiecības esamība ir priekšnoteikums analīzes piemērošanai.

Regresijas matemātiskā definīcija

Stingri regresīvu atkarību var definēt šādi. Ļaut , ir nejauši mainīgie ar noteiktu kopīgu varbūtības sadalījumu. Ja katrai vērtību kopai ir noteikta nosacītā cerība

(vispārējais regresijas vienādojums),

tad tiek izsaukta funkcija regresija Y vērtības pēc vērtībām un tās grafiks - regresijas līnija, vai regresijas vienādojums.

Atkarība no izpaužas Y vidējo vērtību izmaiņās, mainot . Lai gan katrai fiksētai vērtību kopai daudzums paliek nejaušs lielums ar noteiktu izkliedi.

Lai noskaidrotu jautājumu par to, cik precīzi regresijas analīze novērtē Y izmaiņas ar izmaiņām, dažādām vērtību kopām tiek izmantota Y dispersijas vidējā vērtība (patiesībā mēs runājam par dispersijas mērījumu). atkarīgais mainīgais ap regresijas taisni).

Mazāko kvadrātu metode (koeficientu aprēķināšana)

Praksē regresijas taisne visbiežāk tiek meklēta formā lineārā funkcija(lineārā regresija), kas vislabāk tuvina vēlamo līkni. To veic, izmantojot mazāko kvadrātu metodi, kad faktiski novēroto noviržu summa kvadrātā no to aplēsēm ir samazināta līdz minimumam (tas nozīmē, ka aprēķini, izmantojot taisnu līniju, kas apgalvo, ka attēlo vēlamo regresijas atkarību):

(M - izlases lielums). Šī pieeja ir balstīta uz zināms fakts ka summa, kas parādās iepriekš minētajā izteiksmē, iegūst minimālo vērtību tieši gadījumam, kad .

Lai atrisinātu regresijas analīzes problēmu ar mazāko kvadrātu metodi, tiek ieviesta koncepcija atlikušās funkcijas:

Nosacījums atlikušās funkcijas minimumam:

Rezultātā iegūtā sistēma ir sistēma lineārie vienādojumi ar nezināmo

Ja vienādojumu kreisās puses brīvos nosacījumus attēlojam ar matricu

un nezināmo koeficientus matricas labajā pusē

tad iegūstam matricas vienādojumu: , ko viegli atrisināt ar Gausa metodi. Iegūtā matrica būs matrica, kas satur regresijas līnijas vienādojuma koeficientus:

Lai iegūtu vislabākos aprēķinus, nepieciešams izpildīt LSM priekšnoteikumus (Gausa–Markova nosacījumi). Angļu literatūrā šādas aplēses tiek sauktas par BLUE (Best Linear Unbiased Estimators) – vislabākie lineārie objektīvie aprēķini.

Regresijas parametru interpretācija

Parametri ir daļējas korelācijas koeficienti; tiek interpretēta kā Y dispersijas proporcija, kas izskaidrojama ar atlikušo prognozētāju ietekmes fiksēšanu, tas ir, tā mēra individuālo ieguldījumu Y skaidrojumā. Korelēto prognozētāju gadījumā aplēsēs pastāv nenoteiktības problēma , kas kļūst atkarīgi no secības, kādā prognozētāji ir iekļauti modelī. Šādos gadījumos ir nepieciešams pielietot korelācijas un pakāpeniskās regresijas analīzes metodes.

Runājot par regresijas analīzes nelineārajiem modeļiem, ir svarīgi pievērst uzmanību tam, vai runa ir par nelinearitāti neatkarīgos mainīgajos (no formālā viedokļa viegli reducējama līdz lineārai regresijai), vai arī par nelinearitāti aplēstos parametros. (izraisot nopietnas skaitļošanas grūtības). Ar pirmo nelinearitātes veidu no jēgpilnā viedokļa ir svarīgi izcelt formas locekļu izskatu modelī , , kas norāda uz mijiedarbības esamību starp pazīmēm utt. (sk. Multikollinearitāte).

Skatīt arī

Saites

  • www.kgafk.ru - Lekcija par "Regresijas analīzi"
  • www.basegroup.ru - metodes mainīgo atlasei regresijas modeļos

Literatūra

  • Normens Drapers, Harijs Smits Lietišķā regresijas analīze. Vairākkārtēja regresija = Lietišķā regresijas analīze. - 3. izdevums. - M .: "Dialektika", 2007. - S. 912. - ISBN 0-471-17082-8
  • Ilgtspējīgas statistikas modeļu novērtēšanas metodes: Monogrāfija. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radčenko Staņislavs Grigorjevičs, Regresijas analīzes metodoloģija: Monogrāfija. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Wikimedia fonds. 2010 .

Regresijas analīze metode mērīto datu modelēšanai un to īpašību izpētei. Dati sastāv no vērtību pāriem atkarīgais mainīgais(atbildes mainīgais) un neatkarīgais mainīgais(skaidrojošais mainīgais). Regresijas modelis ir funkcija no neatkarīgā mainīgā un parametriem ar pievienotu gadījuma lielumu. Modeļa parametri ir noregulēti tā, lai modelis pēc iespējas labāk tuvinātu datus. Aptuvenais kvalitātes kritērijs (objektīvā funkcija) parasti ir vidējā kvadrātiskā kļūda: starpības kvadrātu summa starp modeļa vērtībām un atkarīgo mainīgo visām neatkarīgā mainīgā vērtībām kā arguments. Matemātiskās statistikas un mašīnmācīšanās regresijas analīzes sadaļa. Tiek pieņemts, ka atkarīgais mainīgais ir kāda modeļa vērtību un nejaušā mainīgā lieluma summa. Attiecībā uz šīs vērtības sadalījuma būtību tiek izdarīti pieņēmumi, ko sauc par datu ģenerēšanas hipotēzi. Lai apstiprinātu vai atspēkotu šo hipotēzi, tiek veikti statistiskie testi, ko sauc par atlikuma analīzi. Tas pieņem, ka neatkarīgais mainīgais nesatur kļūdas. Regresijas analīze tiek izmantota prognozēšanai, laikrindu analīzei, hipotēžu pārbaudei un slēpto attiecību atklāšanai datos.

Regresijas analīzes definīcija

Paraugs var būt nevis funkcija, bet gan attiecība. Piemēram, dati regresijas veidošanai var būt: . Šādā paraugā viena mainīgā vērtība atbilst vairākām mainīgā vērtībām.

Lineārā regresija

Lineārā regresija pieņem, ka funkcija ir lineāri atkarīga no parametriem. Kurā lineārā atkarība no brīvā mainīgā ir neobligāts,

Gadījumā, ja lineārās regresijas funkcijai ir forma

šeit ir vektora sastāvdaļas.

Parametru vērtības lineārās regresijas gadījumā tiek atrastas, izmantojot mazāko kvadrātu metodi. Šīs metodes izmantošana ir pamatota ar pieņēmumu par gadījuma lieluma Gausa sadalījumu.

Tiek izsauktas atšķirības starp atkarīgā mainīgā faktiskajām vērtībām un rekonstruētajām regresijas atlikumi(atlikumi). Sinonīmi tiek lietoti arī literatūrā: atlikumi Un kļūdas. Viens no svarīgākajiem iegūtās atkarības kvalitātes kritērija aprēķiniem ir atlikuma kvadrātu summa:

Šeit ir kvadrātu kļūdu summa.

Atlikumu dispersiju aprēķina pēc formulas

Šeit ir vidējā kvadrāta kļūda.

Grafikos parādīti atzīmētie paraugi zili punktiņi, un regresijas atkarības, kas norādītas ar nepārtrauktām līnijām. Brīvais mainīgais ir attēlots gar abscisu, bet atkarīgais mainīgais tiek attēlots gar ordinātām. Visas trīs atkarības ir lineāras attiecībā uz parametriem.

Nelineārā regresija

Nelineārās regresijas modeļi — skatiet modeļus

ko nevar attēlot kā punktu preci

kur - regresijas modeļa parametri, - brīvais mainīgais no telpas , - atkarīgais mainīgais, - nejauša vērtība un ir funkcija no kādas noteiktas kopas.

Parametru vērtības nelineārās regresijas gadījumā tiek atrastas, izmantojot kādu no gradienta nolaišanās metodēm, piemēram, Levenberga-Marquardt algoritmu.

Par noteikumiem

Terminu "regresija" 19. gadsimta beigās ieviesa Frensiss Galtons. Galtons atklāja, ka garu vai īsu vecāku bērni parasti nepārmanto izcilu augumu, un nosauca šo fenomenu par "regresiju uz viduvējību". Sākumā šis termins tika izmantots tikai bioloģiskā nozīmē. Pēc Kārļa Pīrsona darba šo terminu sāka lietot statistikā.

Statistikas literatūrā tiek nošķirta regresija, kas ietver vienu brīvu mainīgo, un ar vairākiem brīviem mainīgajiem. viendimensionāls Un daudzdimensionāls regresija. Tiek pieņemts, ka mēs izmantojam vairākus brīvus mainīgos, tas ir, brīvu mainīgo vektoru. Īpašos gadījumos, kad brīvais mainīgais ir skalārs, tas tiks apzīmēts ar . Atšķirt lineārs Un nelineārs regresija. Ja regresijas modelis nav lineāra parametru funkciju kombinācija, tad runā par nelineāru regresiju. Šajā gadījumā modelis var būt patvaļīga funkciju superpozīcija no noteiktas kopas. Nelineārie modeļi ir eksponenciāli, trigonometriski un citi (piemēram, radiālās bāzes funkcijas vai Rozenblata perceptrons), kas pieņem, ka sakarība starp parametriem un atkarīgo mainīgo ir nelineāra.

Atšķirt parametrisks Un neparametrisks regresija. Ir grūti novilkt asu robežu starp šiem diviem regresijas veidiem. Pašlaik nav vispārpieņemtu kritēriju, lai atšķirtu viena veida modeļus no cita. Piemēram, lineārie modeļi tiek uzskatīti par parametriskiem, savukārt modeļi, kas ietver atkarīgā mainīgā vidējo lielumu brīvā mainīgā telpā, tiek uzskatīti par neparametriskiem. Parametriskās regresijas modeļa piemērs: lineārais prognozētājs, daudzslāņu perceptrons. Jauktā regresijas modeļa piemēri: radiālās bāzes funkcijas. Neparametriskā modeļa mainīgais vidējais logā ar noteiktu platumu. Kopumā neparametriskā regresija atšķiras no parametriskās regresijas ar to, ka atkarīgais mainīgais nav atkarīgs no vienas brīvā mainīgā vērtības, bet gan no šīs vērtības noteiktas apkārtnes.

Pastāv atšķirība starp terminiem: "funkcijas aproksimācija", "tuvināšana", "interpolācija" un "regresija". Tas sastāv no sekojošā.

Funkciju tuvināšana. Tiek dota diskrēta vai nepārtraukta argumenta funkcija. Ir jāatrod funkcija no kādas parametru saimes, piemēram, starp noteiktas pakāpes algebriskajiem polinomiem. Funkciju parametriem ir jānodrošina minimāla funkcionalitāte, piemēram,

Jēdziens tuvināšana sinonīms terminam "funkciju tuvināšana". Biežāk izmanto, runājot par dotā funkcija, kā būtu ar diskrēta argumenta funkciju. Šeit arī jāatrod tāda funkcija, kas iet vistuvāk visiem dotās funkcijas punktiem. Tas ievieš jēdzienu atlikumi attālumi starp nepārtrauktas funkcijas punktiem un atbilstošajiem diskrēta argumenta funkcijas punktiem.

Interpolācija funkcionē īpašs aproksimācijas uzdevuma gadījums, kad nepieciešams, lai noteiktos punktos, saukts interpolācijas mezgli funkcijas un to tuvinātās funkcijas vērtības sakrita. Vispārīgākā gadījumā dažu atvasinājumu atvasinājumu vērtībām tiek noteikti ierobežojumi. Tas ir, ņemot vērā diskrēta argumenta funkciju. Ir jāatrod funkcija, kas iet cauri visiem punktiem. Šajā gadījumā metriku parasti neizmanto, bet bieži tiek ieviests vēlamās funkcijas "gluduma" jēdziens.

Regresijas analīze ir viena no populārākajām metodēm statistiskais pētījums. To var izmantot, lai noteiktu neatkarīgo mainīgo ietekmes pakāpi uz atkarīgo mainīgo. Funkcionalitātē Microsoft ExcelŠāda veida analīzei ir pieejami rīki. Apskatīsim, kas tie ir un kā tos izmantot.

Bet, lai izmantotu funkciju, kas ļauj veikt regresijas analīzi, vispirms ir jāaktivizē analīzes pakotne. Tikai tad šai procedūrai nepieciešamie rīki parādīsies Excel lentē.


Tagad, kad mēs ejam uz cilni "Dati", uz lentes instrumentu kastē "Analīze" mēs redzēsim jaunu pogu - "Datu analīze".

Regresijas analīzes veidi

Ir vairāki regresijas veidi:

  • parabolisks;
  • jauda;
  • logaritmisks;
  • eksponenciāls;
  • demonstrācija;
  • hiperbolisks;
  • lineārā regresija.

Sīkāk par pēdējā veida regresijas analīzes ieviešanu programmā Excel runāsim vēlāk.

Lineārā regresija programmā Excel

Zemāk kā piemērs ir tabula, kas parāda vidējo diennakts gaisa temperatūru uz ielas, un veikala klientu skaitu attiecīgajā darba dienā. Ar regresijas analīzes palīdzību noskaidrosim, kā tieši laika apstākļi gaisa temperatūras veidā var ietekmēt mazumtirdzniecības uzņēmuma apmeklējumu.

Vispārējais lineārās regresijas vienādojums izskatās šādi: Y = a0 + a1x1 + ... + axk. Šajā formulā Y nozīmē mainīgo, kura ietekmi mēs cenšamies izpētīt. Mūsu gadījumā tas ir pircēju skaits. Nozīme x-Šo dažādi faktori kas ietekmē mainīgo. Iespējas a ir regresijas koeficienti. Tas ir, tie nosaka konkrēta faktora nozīmi. Rādītājs k apzīmē šo pašu faktoru kopējo skaitu.


Analīzes rezultātu analīze

Regresijas analīzes rezultāti tiek parādīti tabulas veidā iestatījumos norādītajā vietā.

Viens no galvenajiem rādītājiem ir R-kvadrāts. Tas norāda uz modeļa kvalitāti. Mūsu gadījumā šis koeficients ir 0,705 jeb aptuveni 70,5%. Tas ir pieņemams kvalitātes līmenis. Attiecības, kas mazākas par 0,5, ir sliktas.

Vēl viens svarīgs indikators atrodas šūnā līnijas krustpunktā "Y-krustojums" un kolonnu "Koeficienti". Šeit ir norādīts, kāda būs Y vērtība, un mūsu gadījumā tas ir pircēju skaits, un visi pārējie faktori ir vienādi ar nulli. Šajā tabulā šī vērtība ir 58,04.

Vērtība diagrammas krustpunktā "Mainīgais X1" Un "Koeficienti" parāda Y atkarības līmeni no X. Mūsu gadījumā tas ir veikala klientu skaita atkarības līmenis no temperatūras. Koeficients 1,31 tiek uzskatīts par diezgan augstu ietekmes rādītāju.

Kā redzat, ir diezgan viegli izveidot regresijas analīzes tabulu, izmantojot Microsoft Excel. Bet tikai apmācīts cilvēks var strādāt ar izejā iegūtajiem datiem un saprast to būtību.