Paņēmiens optimālās vērtības noteikšanai, izmantojot regresiju. Regresijas analīze. Kļūdu avoti prognozēšanā

Mūsdienu politikas zinātne balstās uz nostāju par visu sabiedrības parādību un procesu attiecībām. Nav iespējams izprast notikumus un procesus, paredzēt un vadīt politiskās dzīves parādības, nepētot sakarības un atkarības, kas pastāv sabiedrības politiskajā sfērā. Viens no biežākajiem politikas izpētes uzdevumiem ir izpētīt attiecības starp dažiem novērojamiem mainīgajiem. Palīdz atrisināt šo problēmu vesela statistikas analīzes metožu klase, kas apvienota parastais nosaukums"regresijas analīze" (vai, kā to sauc arī, "korelācijas-regresijas analīze"). Tomēr, ja korelācijas analīze ļauj novērtēt attiecības stiprumu starp diviem mainīgajiem, tad izmantojot regresijas analīze ir iespējams noteikt šī savienojuma veidu, prognozēt jebkura mainīgā vērtības atkarību no cita mainīgā lieluma vērtības.

Pirmkārt, atcerēsimies, kas ir korelācija. Korelatīvais sauc par svarīgāko īpašo statistiskās attiecības gadījumu, kas sastāv no tā, ka viena mainīgā vienādas vērtības atbilst dažādām vidējās vērtības cits. Mainoties atribūta x vērtībai, dabiski mainās atribūta y vidējā vērtība, savukārt katrā atsevišķā gadījumā atribūta vērtība plkst(ar dažādām varbūtībām) var iegūt dažādas vērtības.

Termina “korelācija” parādīšanās statistikā (un politikas zinātne piesaista statistikas sasniegumus savu problēmu risināšanai, kas tāpēc ir ar politikas zinātni saistīta disciplīna) ir saistīta ar angļu biologa un statistiķa Frensisa Galtona vārdu, kurš ierosināja 19. gs. teorētiskā bāze korelācijas un regresijas analīze. Termins "korelācija" zinātnē bija zināms jau iepriekš. Jo īpaši paleontoloģijā 18. gadsimtā. to pielietoja franču zinātnieks Žoržs Kuvjē. Viņš ieviesa tā saukto korelācijas likumu, ar kura palīdzību pēc izrakumos atrastajām dzīvnieku mirstīgajām atliekām bija iespējams atjaunot to izskatu.

Ar šī zinātnieka vārdu un viņa korelācijas likumu ir saistīts labi zināms stāsts. Tātad universitātes brīvdienu dienās studenti, kuri nolēma izspēlēt kādu slavenu profesoru, vienam studentam pārvilka kazas ādu ar ragiem un nagiem. Viņš iekāpa Kuvjē guļamistabas logā un kliedza: "Es tevi apēdīšu." Profesors pamodās, paskatījās uz siluetu un atbildēja: “Ja tev ir ragi un nagi, tad tu esi zālēdājs un nevari mani apēst. Un par korelācijas likuma nezināšanu jūs saņemsiet divkāršu. Viņš apgriezās un aizmiga. Joks ir joks, bet šajā piemērā mēs redzam īpašu gadījumu, kad tiek izmantota vairāku korelācijas-regresijas analīze. Šeit profesors, balstoties uz zināšanām par divu novēroto pazīmju vērtībām (ragu un nagu klātbūtne), pamatojoties uz korelācijas likumu, atvasināja trešās pazīmes vidējo vērtību (klase, kurai šis dzīvnieks pieder). ir zālēdājs). Šajā gadījumā mēs nerunājam par šī mainīgā lieluma īpašo vērtību (t.i., šis dzīvnieks varētu ņemt dažādas nozīmes nominālā mērogā - tā varētu būt kaza, auns un vērsis ...).

Tagad pāriesim pie termina "regresija". Stingri sakot, tas nav saistīts ar to nozīmi statistikas uzdevumi kas tiek atrisināti, izmantojot šo metodi. Termina skaidrojumu var sniegt, tikai pamatojoties uz zināšanām par pazīmju savstarpējo attiecību izpētes metožu attīstības vēsturi. Viens no pirmajiem šāda veida pētījumu piemēriem bija statistiķu F. Galtona un K. Pīrsona darbs, kuri mēģināja atrast modeli starp tēvu un viņu bērnu izaugsmi pēc divām novērojamām pazīmēm (kur X- tēva augums un U- bērnu izaugsme). Savā pētījumā viņi apstiprināja sākotnējo hipotēzi, ka vidēji gari tēvi audzina vidēji garus bērnus. Tas pats princips attiecas uz zemiem tēviem un bērniem. Tomēr, ja zinātnieki būtu apstājušies pie tā, viņu darbi nekad nebūtu minēti statistikas mācību grāmatās. Pētnieki atrada citu modeli jau minētās apstiprinātās hipotēzes ietvaros. Viņi pierādīja, ka ļoti gari tēvi rada bērnus, kuri ir vidēji gari, bet augumā ļoti neatšķiras no bērniem, kuru tēvi, lai arī virs vidējā, tomēr ļoti neatšķiras no vidējā auguma. Tas pats attiecas uz tēviem ar ļoti mazu augumu (atkāpjoties no vidējā īsajā grupā) - viņu bērni vidēji augumā neatšķīrās no vienaudžiem, kuru tēvi bija vienkārši mazi. Viņi sauca funkciju, kas apraksta šo likumsakarību regresijas funkcija. Pēc šī pētījuma visus vienādojumus, kas apraksta līdzīgas funkcijas un konstruēja līdzīgā veidā, sāka saukt par regresijas vienādojumiem.

Regresijas analīze ir viena no daudzfaktoru statistiskās datu analīzes metodēm, kas apvieno statistisko paņēmienu kopumu, kas paredzēts, lai pētītu vai modelētu attiecības starp vienu atkarīgu un vairākiem (vai vienu) neatkarīgiem mainīgajiem. Atkarīgo mainīgo, saskaņā ar statistikā pieņemto tradīciju, sauc par atbildi un apzīmē kā V Neatkarīgos mainīgos sauc par prognozētājiem un apzīmē kā x. Analīzes gaitā daži mainīgie būs vāji saistīti ar atbildi un galu galā tiks izslēgti no analīzes. Pārējos mainīgos, kas saistīti ar apgādājamo, var saukt arī par faktoriem.

Regresijas analīze ļauj prognozēt viena vai vairāku mainīgo vērtības atkarībā no cita mainīgā lieluma (piemēram, tieksme uz netradicionālu politisko uzvedību atkarībā no izglītības līmeņa) vai vairākiem mainīgajiem. Tas tiek aprēķināts uz datora. Lai sastādītu regresijas vienādojumu, kas ļauj izmērīt vadāmās pazīmes atkarības pakāpi no faktoriem, nepieciešams piesaistīt profesionālus matemātiķus-programmētājus. Regresijas analīze var sniegt nenovērtējamu pakalpojumu politiskās situācijas attīstības prognozēšanas modeļu veidošanā, sociālās spriedzes cēloņu novērtēšanā un teorētisko eksperimentu veikšanā. Regresijas analīze tiek aktīvi izmantota, lai pētītu vairāku sociāli demogrāfisko parametru ietekmi uz pilsoņu uzvedību vēlēšanās: dzimums, vecums, profesija, dzīvesvieta, tautība, ienākumu līmenis un veids.

Saistībā ar regresijas analīzi, jēdzieni neatkarīgs Un atkarīgi mainīgie. Neatkarīgs mainīgais ir mainīgais, kas izskaidro vai izraisa izmaiņas citā mainīgajā. Atkarīgais mainīgais ir mainīgais, kura vērtība ir izskaidrojama ar pirmā mainīgā lieluma ietekmi. Piemēram, 2004. gada prezidenta vēlēšanās noteicošie faktori, t.i. neatkarīgi mainīgie bija tādi rādītāji kā valsts iedzīvotāju finansiālā stāvokļa stabilizācija, kandidātu popularitātes līmenis un faktors. amata pilnvaras.Šajā gadījumā par atkarīgo mainīgo var uzskatīt par kandidātiem nodoto balsu procentuālo daļu. Tāpat mainīgo pārī “vēlētāja vecums” un “vēlēšanu aktivitātes līmenis” pirmais ir neatkarīgs, otrais ir atkarīgs.

Regresijas analīze ļauj atrisināt šādas problēmas:

  • 1) konstatē pašu faktu par statistiski nozīmīgas attiecības esamību vai neesamību starp Ci x;
  • 2) izveidot labākos (statistiskā nozīmē) regresijas funkcijas aprēķinus;
  • 3) atbilstoši dotajām vērtībām X veidot pareģojumu nezināmajam Plkst
  • 4) novērtē katra faktora ietekmes īpatnējo svaru X ieslēgts Plkst un attiecīgi izslēgt no modeļa nenozīmīgas pazīmes;
  • 5) identificējot cēloņsakarības starp mainīgajiem, daļēji pārvaldīt P vērtības, pielāgojot skaidrojošo mainīgo vērtības x.

Regresijas analīze ir saistīta ar nepieciešamību atlasīt savstarpēji neatkarīgus mainīgos, kas ietekmē pētāmā rādītāja vērtību, noteikt regresijas vienādojuma formu un novērtēt parametrus, izmantojot primāro socioloģisko datu apstrādes statistikas metodes. Šāda veida analīze balstās uz ideju par attiecību formu, virzienu un tuvumu (blīvumu). Atšķirt tvaika pirts Un daudzkārtēja regresija atkarībā no pētīto pazīmju skaita. Praksē regresijas analīze parasti tiek veikta kopā ar korelācijas analīzi. Regresijas vienādojums apraksta skaitliskās attiecības starp daudzumiem, kas izteiktas kā tendence palielināties vai samazināties mainīgs vienlaikus palielinot vai samazinot otru. Tajā pašā laikā razl un h a yut l sals Un nelineārā regresija. Raksturojot politiskos procesus, vienlīdz atrodami abi regresijas varianti.

Izkliedes shēma interešu savstarpējās atkarības sadalījumam politiskajos rakstos ( U) un respondentu izglītība (X) ir lineāra regresija (30. att.).

Rīsi. trīsdesmit.

Izkliedes diagramma vēlēšanu aktivitātes līmeņa sadalījumam ( U) un respondenta vecums (A) (nosacīts piemērs) ir nelineāra regresija (31. att.).


Rīsi. 31.

Lai aprakstītu divu pazīmju (A "un Y) attiecības pāra regresijas modelī, izmantojiet lineārais vienādojums

kur a, ir vienādojuma kļūdas nejauša vērtība ar pazīmju variāciju, t.i. vienādojuma novirze no "linearitātes".

Lai novērtētu koeficientus A Un b izmantojiet mazāko kvadrātu metodi, kas pieņem, ka katra izkliedes diagrammas punkta kvadrātu noviržu summai no regresijas līnijas jābūt minimālai. Likmes a h b var aprēķināt, izmantojot vienādojumu sistēmu:

Mazāko kvadrātu novērtējuma metode dod šādus koeficientu aprēķinus A Un b, kuram taisne iet caur punktu ar koordinātām X Un y, tie. ir saistība plkst = cirvis + b. Regresijas vienādojuma grafisko attēlojumu sauc teorētiskā regresijas taisne. Plkst lineārā atkarība regresijas koeficients attēlo grafikā teorētiskās regresijas taisnes slīpuma pieskari x asij. Zīme pie koeficienta parāda attiecību virzienu. Ja tas ir lielāks par nulli, tad saistība ir tieša; ja tā ir mazāka, tā ir apgriezta.

Sekojošais piemērs no pētījuma "Politiskā Pēterburga-2006" (56. tabula) parāda lineāru sakarību starp iedzīvotāju priekšstatiem par apmierinātības pakāpi ar savu dzīvi tagadnē un gaidām par dzīves kvalitātes izmaiņām nākotnē. Saikne ir tieša, lineāra (standartizētais regresijas koeficients ir 0,233, nozīmīguma līmenis ir 0,000). Šajā gadījumā regresijas koeficients nav augsts, bet pārsniedz statistiski nozīmīga rādītāja apakšējo robežu (Pīrsona koeficienta statistiski nozīmīgā rādītāja kvadrāta apakšējo robežu).

56. tabula

Iedzīvotāju dzīves kvalitātes ietekme mūsdienās uz gaidām

(Sanktpēterburga, 2006)

* Atkarīgais mainīgais: "Kā, jūsuprāt, mainīsies jūsu dzīve nākamo 2-3 gadu laikā?"

Politiskajā dzīvē pētāmā mainīgā vērtība visbiežāk vienlaikus ir atkarīga no vairākām pazīmēm. Piemēram, politiskās aktivitātes līmeni un raksturu vienlaikus ietekmē valsts politiskais režīms, politiskās tradīcijas, cilvēku politiskās uzvedības īpatnības noteiktā teritorijā un respondenta sociālā mikrogrupa, viņa vecums, izglītība, ienākumi. līmenis, politiskā orientācija utt. Šajā gadījumā jums ir jāizmanto vienādojums daudzkārtēja regresija, kam ir šāda forma:

kur koeficients b.- daļējas regresijas koeficients. Tas parāda katra neatkarīgā mainīgā ieguldījumu neatkarīgā (rezultāta) mainīgā vērtību noteikšanā. Ja daļējās regresijas koeficients ir tuvu 0, tad varam secināt, ka starp neatkarīgajiem un atkarīgajiem mainīgajiem nav tiešas attiecības.

Šāda modeļa aprēķinu var veikt datorā, izmantojot matricas algebru. Daudzkārtēja regresija ļauj atspoguļot sociālo saišu daudzfaktorālo raksturu un noskaidrot katra faktora ietekmes pakāpi atsevišķi un visi kopā uz iegūto iezīmi.

Apzīmēts koeficients b, sauc par lineārās regresijas koeficientu un parāda attiecības stiprumu starp faktora pazīmes variāciju X un variācijas efektīva funkcija YŠis koeficients mēra attiecības stiprumu pazīmju absolūtās mērvienībās. Tomēr pazīmju korelācijas tuvumu var izteikt arī ar iegūtās pazīmes standartnovirzi (šādu koeficientu sauc par korelācijas koeficientu). Atšķirībā no regresijas koeficienta b korelācijas koeficients nav atkarīgs no pieņemtajām pazīmju mērvienībām, tāpēc tas ir salīdzināms ar jebkuru pazīmi. Parasti savienojums tiek uzskatīts par stipru, ja /> 0,7, vidēja necaurlaidība - pie 0,5 g 0,5.

Kā zināms, visciešākā saikne ir funkcionālā saikne, kad katrs atsevišķi vērtē Y var unikāli piešķirt vērtībai x. Tādējādi, jo tuvāk korelācijas koeficients ir 1, jo tuvāk sakarība ir funkcionālai. Regresijas analīzes nozīmīguma līmenis nedrīkst pārsniegt 0,001.

Korelācijas koeficients jau sen tiek uzskatīts par galveno pazīmju attiecību ciešuma rādītāju. Taču vēlāk par šādu rādītāju kļuva determinācijas koeficients. Šī koeficienta nozīme ir šāda - tas atspoguļo iegūtās pazīmes kopējās dispersijas daļu Plkst, ko izskaidro iezīmes dispersija x. To nosaka, korelācijas koeficientu vienkārši kvadrātā (mainot no 0 uz 1) un, savukārt, lineārai sakarībai atspoguļo daļu no 0 (0%) līdz 1 (100%) raksturīgās vērtības Y, nosaka atribūta vērtības x. Tas tiek ierakstīts kā es 2, un iegūtajās regresijas analīzes tabulās SPSS pakotnē - bez kvadrāta.

Apzīmēsim galvenās daudzkārtējās regresijas vienādojuma konstruēšanas problēmas.

  • 1. Regresijas vienādojumā iekļauto faktoru izvēle.Šajā posmā pētnieks vispirms sastāda vispārīgu sarakstu ar galvenajiem cēloņiem, kas saskaņā ar teoriju nosaka pētāmo parādību. Pēc tam viņam regresijas vienādojumā ir jāizvēlas pazīmes. Galvenais atlases noteikums ir tāds, ka analīzē iekļautajiem faktoriem vajadzētu pēc iespējas mazāk korelēt vienam ar otru; tikai šajā gadījumā ir iespējams attiecināt uz noteiktu faktoru-atribūtu kvantitatīvu ietekmes mēru.
  • 2. Vairāku regresijas vienādojuma formas izvēle(praksē biežāk izmanto lineāro vai lineāri-logaritmisko). Tātad, lai izmantotu daudzkārtēju regresiju, pētniekam vispirms ir jāizveido hipotētisks modelis vairāku neatkarīgu mainīgo ietekmei uz iegūto. Lai iegūtie rezultāti būtu ticami, ir nepieciešams, lai modelis precīzi atbilstu reālajam procesam, t.i. sakarībai starp mainīgajiem ir jābūt lineārai, nevar ignorēt nevienu nozīmīgu neatkarīgu mainīgo, tāpat analīzē nevar iekļaut nevienu mainīgo, kas nav tieši saistīts ar pētāmo procesu. Turklāt visiem mainīgo lielumu mērījumiem jābūt ārkārtīgi precīziem.

No iepriekš minētā apraksta izriet vairāki nosacījumi šīs metodes pielietošanai, bez kuriem nav iespējams pāriet uz daudzkārtējās regresijas analīzes (MRA) procedūru. Tikai visu tālāk minēto punktu ievērošana ļauj pareizi veikt regresijas analīzi.

Regresijas analīzes galvenais mērķis sastāv no attiecības analītiskās formas noteikšanas, kurā rezultējošā atribūta izmaiņas ir saistītas ar viena vai vairāku faktoru zīmju ietekmi, un visu pārējo faktoru kopa, kas arī ietekmē rezultējošo atribūtu, tiek ņemta par nemainīgām un vidējām vērtībām. .
Regresijas analīzes uzdevumi:
a) Atkarības formas noteikšana. Attiecībā uz parādību savstarpējo attiecību raksturu un formu ir pozitīva lineāra un nelineāra un negatīva lineāra un nelineāra regresija.
b) Regresijas funkcijas definēšana viena vai otra veida matemātiska vienādojuma veidā un skaidrojošo mainīgo ietekmes noteikšana uz atkarīgo mainīgo.
c) Novērtēšana nezināmas vērtības atkarīgais mainīgais. Izmantojot regresijas funkciju, jūs varat reproducēt atkarīgā mainīgā vērtības skaidrojošo mainīgo doto vērtību intervālā (t.i., atrisināt interpolācijas problēmu) vai novērtēt procesa gaitu ārpus noteiktā intervāla (t.i., atrisināt ekstrapolācijas problēmu). Rezultāts ir atkarīgā mainīgā vērtības novērtējums.

Pāra regresija - divu mainīgo y un x attiecības vienādojums: y=f(x), kur y ir atkarīgais mainīgais (rezultējošā zīme); x - neatkarīgs, skaidrojošs mainīgais (iezīme-faktors).

Ir lineāras un nelineāras regresijas.
Lineārā regresija: y = a + bx + ε
Nelineārās regresijas iedala divās klasēs: regresijas, kas ir nelineāras attiecībā pret analīzē iekļautajiem skaidrojošajiem mainīgajiem, bet lineāras attiecībā uz aplēstajiem parametriem, un regresijas, kas ir nelineāras attiecībā pret novērtētajiem parametriem.
Regresijas, kas ir nelineāras skaidrojošajos mainīgajos:

Regresijas, kas aprēķinātajos parametros ir nelineāras:

  • jauda y=a x b ε
  • eksponenciāls y=a b x ε
  • eksponenciāls y=e a+b x ε
Regresijas vienādojuma konstruēšana tiek reducēta līdz tā parametru novērtēšanai. Lai novērtētu regresijas parametrus, kuru parametri ir lineāri, tiek izmantota mazāko kvadrātu metode (LSM). LSM ļauj iegūt tādus parametru aprēķinus, pie kuriem efektīvās pazīmes y faktisko vērtību kvadrātu noviržu summa no teorētiskajām vērtībām y x ir minimāla, t.i.
.
Lineāriem un nelineāriem vienādojumiem, kas reducējami uz lineāriem, a un b ir atrisināta šāda sistēma:

Varat izmantot gatavas formulas, kas izriet no šīs sistēmas:

Saiknes ciešums starp pētītajām parādībām tiek novērtēts ar lineārās regresijas lineāro pāru korelācijas koeficientu r xy (-1≤r xy ≤1):

un korelācijas indekss p xy — nelineārajai regresijai (0≤p xy ≤1):

Konstruētā modeļa kvalitātes novērtējumu dos determinācijas koeficients (indekss), kā arī vidējā aproksimācijas kļūda.
Vidējā tuvinājuma kļūda ir aprēķināto vērtību vidējā novirze no faktiskajām:
.
Pieļaujamā vērtību robeža A - ne vairāk kā 8-10%.
Vidējais elastības koeficients E parāda, cik procentus vidēji mainīsies rezultāts y no tā vidējās vērtības, ja faktors x mainīsies par 1% no tā vidējās vērtības:
.

Dispersijas analīzes uzdevums ir analizēt atkarīgā mainīgā dispersiju:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
kur ∑(y-y)² ir noviržu kvadrātā kopējā summa;
∑(y x -y)² - regresijas izraisīto noviržu kvadrātā summa ("izskaidrots" vai "faktoriāls");
∑(y-y x)² - noviržu kvadrātā atlikušā summa.
Ar regresiju izskaidrotās dispersijas daļu efektīvās pazīmes y kopējā dispersijā raksturo R2 noteikšanas koeficients (indekss):

Determinācijas koeficients ir koeficienta jeb korelācijas indeksa kvadrāts.

F-tests - regresijas vienādojuma kvalitātes novērtējums - sastāv no hipotēzes pārbaudes Bet par regresijas vienādojuma statistisko nenozīmīgumu un sakarības ciešuma rādītāju. Šim nolūkam tiek veikts faktiskā F fakta un Fišera F kritērija vērtību kritiskās (tabulas) F tabulas salīdzinājums. F fakts tiek noteikts no faktoriālo un atlikušo dispersiju vērtību attiecības, kas aprēķināta vienai brīvības pakāpei:
,
kur n ir iedzīvotāju vienību skaits; m ir parametru skaits mainīgajiem x.
F tabula ir maksimālā iespējamā kritērija vērtība gadījuma faktoru ietekmē noteiktām brīvības pakāpēm un nozīmīguma līmenim a. Nozīmīguma līmenis a – pareizās hipotēzes noraidīšanas varbūtība, ja tā ir patiesa. Parasti a tiek pieņemts vienāds ar 0,05 vai 0,01.
Ja F tabula< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F ir fakts, tad hipotēze H par netiek noraidīta un tiek atzīta regresijas vienādojuma statistiskā nenozīmība, neuzticamība.
Lai novērtētu regresijas un korelācijas koeficientu statistisko nozīmīgumu, katram no rādītājiem tiek aprēķināts Stjudenta t-tests un ticamības intervāli. Tiek izvirzīta hipotēze H par rādītāju nejaušību, t.i. par to nenozīmīgo atšķirību no nulles. Regresijas un korelācijas koeficientu nozīmīguma novērtējums, izmantojot Stjudenta t-testu, tiek veikts, salīdzinot to vērtības ar nejaušās kļūdas lielumu:
; ; .
Lineārās regresijas parametru un korelācijas koeficienta nejaušās kļūdas nosaka pēc formulām:



Salīdzinot t-statistikas faktiskās un kritiskās (tabulas) vērtības - t tabl un t fact - mēs pieņemam vai noraidām hipotēzi H o.
Sakarību starp Fišera F-testu un Stjudenta t-statistiku izsaka vienlīdzība

Ja t tabula< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t to, ka hipotēze H par netiek noraidīta un tiek atzīts a, b vai r xy veidošanās nejaušais raksturs.
Lai aprēķinātu ticamības intervālu, katram indikatoram nosakām robežkļūdu D:
Δ a =t tabula m a , Δ b =t tabula m b .
Formulas ticamības intervālu aprēķināšanai ir šādas:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; γb = b-Δb; γb =b+Δb
Ja nulle ietilpst ticamības intervāla robežās, t.i. Ja apakšējā robeža ir negatīva un augšējā robeža ir pozitīva, tad tiek pieņemts, ka aprēķinātais parametrs ir nulle, jo tas nevar vienlaikus iegūt gan pozitīvas, gan negatīvas vērtības.
Prognozēto vērtību y p nosaka, regresijas vienādojumā y x =a+b·x aizvietojot atbilstošo (prognozējamo) vērtību x p. Prognozes m y x vidējo standartkļūdu aprēķina:
,
Kur
un tiek būvēts ticamības intervāls prognoze:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
kur Δ y x =t tabula ·m y x .

Risinājuma piemērs

Uzdevums numurs 1. Septiņām Urālu reģiona teritorijām 199X ir zināmas divu zīmju vērtības.
1. tabula.

Nepieciešams: 1. Lai raksturotu y atkarību no x, aprēķiniet šādu funkciju parametrus:
a) lineārs;
b) pakāpju likums (iepriekš nepieciešams veikt mainīgo linearizācijas procedūru, ņemot abu daļu logaritmu);
c) demonstratīvs;
d) vienādmalu hiperbola (jums arī jāizdomā, kā iepriekš linearizēt šo modeli).
2. Novērtējiet katru modeli, izmantojot vidējo aproksimācijas kļūdu A un Fišera F testu.

Risinājums (1. iespēja)

Lai aprēķinātu lineārās regresijas parametrus a un b y=a+b·x (aprēķinu var veikt, izmantojot kalkulatoru).
atrisiniet normālo vienādojumu sistēmu attiecībā pret A Un b:
Pamatojoties uz sākotnējiem datiem, mēs aprēķinām ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 y2 y xy-y xAi
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kopā405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Tr vērtību (Kopā/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Regresijas vienādojums: y= 76,88 - 0,35X. Pieaugot vidējam dienas rādītājam algas par 1 rub. tēriņu daļa pārtikas preču iegādei tiek samazināta vidēji par 0,35% punktiem.
Aprēķiniet pāru korelācijas lineāro koeficientu:

Komunikācija ir mērena, apgriezta.
Noteiksim determinācijas koeficientu: r² xy =(-0,35)=0,127
12,7% rezultāta atšķirības ir izskaidrojamas ar x faktora svārstībām. Faktisko vērtību aizstāšana regresijas vienādojumā X, mēs nosakām y x teorētiskās (aprēķinātās) vērtības. Atradīsim vidējās aproksimācijas kļūdas A vērtību:

Vidēji aprēķinātās vērtības atšķiras no faktiskajām par 8,1%.
Aprēķināsim F kritēriju:

Iegūtā vērtība norāda uz nepieciešamību pieņemt hipotēzi H 0 par atklātās atkarības nejaušību un vienādojuma parametru un savienojuma blīvuma indikatora statistisko nenozīmīgumu.
1b. Jaudas modeļa y=a x b konstruēšanu ievada mainīgo linearizācijas procedūra. Piemērā linearizāciju veic, ņemot vienādojuma abu pušu logaritmu:
lg y=lg a + b lg x
Y=C+b Y
kur Y=lg(y), X=lg(x), C=lg(a).

Aprēķiniem mēs izmantojam tabulas datus. 1.3.
1.3. tabula

YX YX Y2 x2 y xy-y x(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kopā12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Vidējā vērtība1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Aprēķināt C un b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Iegūstam lineāru vienādojumu: Y=2,278-0,298 X
Pēc tā pastiprināšanas mēs iegūstam: y=10 2,278 x -0,298
Šajā vienādojumā aizstājot faktiskās vērtības X, iegūstam rezultāta teorētiskās vērtības. Pamatojoties uz tiem, mēs aprēķinām rādītājus: savienojuma blīvumu - korelācijas indeksu p xy un vidējo aproksimācijas kļūdu A .

Jaudas modeļa raksturlielumi norāda, ka tas apraksta attiecības nedaudz labāk nekā lineārā funkcija.

1.c. Pirms eksponenciālās līknes y \u003d a b x vienādojuma izveides tiek veikta mainīgo linearizācijas procedūra, ņemot vērā abu vienādojuma daļu logaritmu:
lg y=lg a + x lg b
Y=C+B x
Aprēķiniem mēs izmantojam tabulas datus.

Yx Yx Y2 x2y xy-y x(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kopā12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Tr zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Regresijas parametru vērtības A un IN sasniedza:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Tiek iegūts lineārs vienādojums: Y=1,887-0,0023x. Mēs pastiprinām iegūto vienādojumu un rakstām to parastajā formā:
y x = 10 1,887 10 -0,0023 x = 77,1 0,9947 x
Mēs novērtējam attiecības stingrību, izmantojot korelācijas indeksu p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Kopā405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Vidējā vērtība57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

1. Pirmo reizi terminu "regresija" ieviesa biometrijas pamatlicējs F. Galtons (XIX gs.), kura idejas attīstīja viņa sekotājs K. Pīrsons.

Regresijas analīze- statistikas datu apstrādes metode, kas ļauj izmērīt sakarību starp vienu vai vairākiem cēloņiem (faktoriālās pazīmes) un sekām (efektīvā zīme).

zīme- šī ir pētāmās parādības vai procesa galvenā atšķirīgā iezīme, iezīme.

Efektīva zīme - izmeklētais rādītājs.

Faktoru zīme- indikators, kas ietekmē efektīvās pazīmes vērtību.

Regresijas analīzes mērķis ir novērtēt efektīvās pazīmes vidējās vērtības funkcionālo atkarību ( plkst) no faktoriāla ( x 1, x 2, ..., x n), izteikts kā regresijas vienādojumi

plkst= f(x 1, x 2, ..., x n). (6.1)

Ir divu veidu regresija: pāra un daudzkārtēja.

Pāru (vienkāršā) regresija- formas vienādojums:

plkst= f(x). (6.2)

Rezultējošā pazīme pāru regresijā tiek uzskatīta par viena argumenta funkciju, t.i. viens faktors.

Regresijas analīze ietver šādas darbības:

funkcijas veida definīcija;

regresijas koeficientu noteikšana;

Efektīvās pazīmes teorētisko vērtību aprēķināšana;

Regresijas koeficientu statistiskās nozīmības pārbaude;

Regresijas vienādojuma statistiskās nozīmīguma pārbaude.

Daudzkārtēja regresija- formas vienādojums:

plkst= f(x 1, x 2, ..., x n). (6.3)

Rezultātā iegūtā pazīme tiek uzskatīta par vairāku argumentu funkciju, t.i. daudzi faktori.

2. Lai pareizi noteiktu funkcijas veidu, ir jāatrod savienojuma virziens, pamatojoties uz teorētiskajiem datiem.

Atbilstoši savienojuma virzienam regresiju iedala:

· tieša regresija, kas rodas ar nosacījumu, ka, palielinoties vai samazinoties neatkarīgajai vērtībai " X" atkarīgā daudzuma vērtības" plkst. arī attiecīgi palielināt vai samazināt;

· apgrieztā regresija, kas rodas ar nosacījumu, ka pieaugot vai samazinoties neatkarīgajai vērtībai "X" atkarīgā vērtība " plkst. attiecīgi samazinās vai palielinās.

Lai raksturotu attiecības, tiek izmantoti šādi pāru regresijas vienādojumu veidi:

· y=a+bxlineārs;

· y=e ax + b – eksponenciāls;

· y=a+b/x – hiperbolisks;

· y=a+b 1 x+b 2 x 2 – parabolisks;

· y=ab x – eksponenciāls un utt.

Kur a, b 1, b 2- vienādojuma koeficienti (parametri); plkst- efektīva zīme; X- faktora zīme.

3. Regresijas vienādojuma konstruēšana tiek reducēta līdz tā koeficientu (parametru) novērtēšanai, šim nolūkam viņi izmanto mazāko kvadrātu metode(MNK).

Mazāko kvadrātu metode ļauj iegūt tādus parametru aprēķinus, kuros efektīvās pazīmes faktisko vērtību kvadrātu noviržu summa. plkst"no teorētiskā" y x» ir minimāls, tas ir

Regresijas vienādojuma opcijas y=a+bx ar mazāko kvadrātu metodi tiek novērtētas, izmantojot formulas:

Kur A - brīvais koeficients, b- regresijas koeficients, parāda, cik daudz mainīsies rezultējošā zīme y» mainot faktora atribūtu « x» par mērvienību.

4. Lai novērtētu regresijas koeficientu statistisko nozīmīgumu, tiek izmantots Stjudenta t-tests.

Regresijas koeficientu nozīmīguma pārbaudes shēma:

1) H 0: a=0, b=0 - regresijas koeficienti nenozīmīgi atšķiras no nulles.

H 1: a≠ 0, b≠ 0 - regresijas koeficienti būtiski atšķiras no nulles.

2) R=0,05 – nozīmīguma līmenis.

Kur m b,m a- nejaušas kļūdas:

; . (6.7)

4) t galds(R; f),

Kur f=n-k- 1 - brīvības pakāpju skaits (tabulas vērtība), n- novērojumu skaits, k X".

5) Ja , tad novirzās, t.i. ievērojams koeficients.

Ja , tad tiek pieņemts, t.i. koeficients ir nenozīmīgs.

5. Lai pārbaudītu konstruētā regresijas vienādojuma pareizību, tiek izmantots Fišera kritērijs.

Shēma regresijas vienādojuma nozīmīguma pārbaudei:

1) H 0: regresijas vienādojums nav nozīmīgs.

H 1: regresijas vienādojums ir nozīmīgs.

2) R=0,05 – nozīmīguma līmenis.

3) , (6.8)

kur ir novērojumu skaits; k- parametru skaits vienādojumā ar mainīgajiem " X"; plkst- efektīvās pazīmes faktiskā vērtība; y x- efektīvās pazīmes teorētiskā vērtība; - pāru korelācijas koeficients.

4) F tabula(R; f1; f2),

Kur f 1 \u003d k, f 2 \u003d n-k-1- brīvības pakāpju skaits (tabulas vērtības).

5) Ja F aprēķins >F tabula, tad regresijas vienādojums ir izvēlēts pareizi un to var pielietot praksē.

Ja F aprēķins , tad regresijas vienādojums ir izvēlēts nepareizi.

6. Galvenais rādītājs, kas atspoguļo regresijas analīzes kvalitātes mērauklu, ir determinācijas koeficients (R 2).

Determinācijas koeficients parāda atkarīgā mainīgā lieluma daļu plkst» tiek ņemts vērā analīzē, un to izraisa analīzē iekļauto faktoru ietekme.

Determinācijas koeficients (R2)ņem vērtības diapazonā . Regresijas vienādojums ir kvalitatīvs, ja R2 ≥0,8.

Determinācijas koeficients ir vienāds ar korelācijas koeficienta kvadrātu, t.i.

Piemērs 6.1. Pamatojoties uz šādiem datiem, izveidojiet un analizējiet regresijas vienādojumu:

Risinājums.

1) Aprēķināt korelācijas koeficientu: . Attiecības starp zīmēm ir tiešas un mērenas.

2) Izveidojiet sapārotu lineārās regresijas vienādojumu.

2.1) Izveidojiet aprēķinu tabulu.

X plkst Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Summa 159,45 558,55
Vidēji 77519,6 22,78 79,79 2990,6

,

Pārī savienots lineārās regresijas vienādojums: y x \u003d 25,17 + 0,087x.

3) Atrodiet teorētiskās vērtības" y x» aizvietojot faktiskās vērtības regresijas vienādojumā « X».

4) uzzīmējiet grafikus faktiskajām " plkst. un teorētiskās vērtības" y x» efektīvā pazīme (6.1. attēls): r xy =0,47) un neliels novērojumu skaits.

7) Aprēķiniet determinācijas koeficientu: R2=(0,47) 2 =0,22. Izveidotais vienādojums ir sliktas kvalitātes.

Jo aprēķini regresijas analīzes laikā ir diezgan apjomīgi, ieteicams izmantot īpašas programmas ("Statistica 10", SPSS uc).

6.2. attēlā parādīta tabula ar regresijas analīzes rezultātiem, kas veikta, izmantojot programmu "Statistica 10".

6.2. attēls. Regresijas analīzes rezultāti, kas veikti, izmantojot programmu "Statistica 10"

5. Literatūra:

1. Gmurman V.E. Varbūtību teorija un matemātiskā statistika: Proc. rokasgrāmata universitātēm / V.E. Gmurmans. - M.: Augstskola, 2003. - 479 lpp.

2. Koičubekovs B.K. Biostatistika: mācību grāmata. - Almati: Evero, 2014. - 154 lpp.

3. Lobotskaya N.L. Augstākā matemātika. / N.L. Lobotskaja, Yu.V. Morozovs, A.A. Dunajevs. - Minska: Augstskola, 1987. - 319 lpp.

4. Mediķis V.A., Tokmačevs M.S., Fišmens B.B. Statistika medicīnā un bioloģijā: rokasgrāmata. 2 sējumos / Red. Yu.M. Komarovs. T. 1. Teorētiskā statistika. - M.: Medicīna, 2000. - 412 lpp.

5. Statistiskās analīzes metožu pielietošana sabiedrības veselības un veselības aprūpes pētījumos: mācību grāmata / red. Kučerenko V.Z. - 4. izdevums, pārskatīts. un papildu - M.: GEOTAR - Mediji, 2011. - 256 lpp.

Pēc tam, kad korelācijas analīze ir atklājusi statistisko sakarību esamību starp mainīgajiem lielumiem un novērtējusi to tuvuma pakāpi, viņi parasti pāriet uz noteikta atkarības veida matemātisko aprakstu, izmantojot regresijas analīzi. Šim nolūkam tiek atlasīta funkciju klase, kas saista efektīvo rādītāju y un argumentus x 1, x 2, ..., x ar informatīvākajiem argumentiem, tiek atlasītas saites parametru nezināmo vērtību aplēses. vienādojums tiek aprēķināts un iegūtā vienādojuma īpašības tiek analizētas.

Funkciju f (x 1, x 2, ..., x k), kas apraksta efektīvās pazīmes y vidējās vērtības atkarību no dotajām argumentu vērtībām, sauc par regresijas funkciju (vienādojumu). Terminu "regresija" (lat. - regresija - atkāpšanās, atgriešanās pie kaut kā) ieviesa angļu psihologs un antropologs F. Galtons, un tas ir saistīts tikai un vienīgi ar specifiku vienam no pirmajiem konkrētajiem piemēriem, kurā šis jēdziens tika izmantots. Tātad, apstrādājot statistikas datus saistībā ar augšanas iedzimtības analīzi, F. Galtons atklāja, ka, ja tēvi no visu tēvu vidējā auguma atšķiras par x collām, tad viņu dēli atšķiras no visu dēlu vidējā auguma mazāk nekā x. collas. Atklāto tendenci sauca par "regresiju līdz vidējam stāvoklim". Kopš tā laika statistikas literatūrā plaši tiek lietots termins "regresija", lai gan daudzos gadījumos tas neprecīzi raksturo statistiskās atkarības jēdzienu.

Lai precīzi aprakstītu regresijas vienādojumu, ir jāzina efektīvā rādītāja y sadalījuma likums. Statistikas praksē parasti ir nepieciešams aprobežoties ar piemērotu aproksimāciju meklēšanu nezināmai patiesajai regresijas funkcijai, jo pētniekam nav precīzu zināšanu par analizētā rezultāta rādītāja y varbūtības sadalījuma nosacīto likumu noteiktām vērtībām. argumenta x.

Apsveriet sakarību starp patieso f(x) = M(y1x), modeļa regresiju? un regresijas y punktu. Ļaujiet efektīvajam rādītājam y būt saistītam ar argumentu x ar attiecību:

kur ir nejaušs mainīgais ar normāls likums sadalījumi, kur Me = 0 un D e = y 2 . Patiesā regresijas funkcija šajā gadījumā ir: f(x) = M(y/x) = 2x 1,5.

Pieņemsim, ka mēs nezinām precīzu patiesā regresijas vienādojuma formu, bet mums ir deviņi novērojumi par divdimensiju gadījuma lielumu, kas saistīts ar attiecību yi = 2x1,5 + e un parādīts attēlā. 1

1. attēls - patiesības f (x) un teorētiskā savstarpējā izkārtošanās? regresijas modeļi

Punktu izvietojums att. 1 ļauj aprobežoties ar formas lineāro atkarību klasi? = pie 0 + pie 1 x. Izmantojot mazāko kvadrātu metodi, atrodam regresijas vienādojuma y = b 0 +b 1 x novērtējumu. Salīdzinājumam, attēlā. 1 parāda patiesās regresijas funkcijas y \u003d 2x 1,5 grafikus, teorētiskās aproksimējošās regresijas funkcijas? = pie 0 + pie 1 x .

Tā kā mēs esam kļūdījušies, izvēloties regresijas funkcijas klasi, un tas ir diezgan izplatīts statistikas pētījumu praksē, mūsu statistiskie secinājumi un aprēķini izrādīsies kļūdaini. Un neatkarīgi no tā, cik daudz mēs palielinātu novērojumu apjomu, mūsu izlases novērtējums y nebūs tuvu patiesajai regresijas funkcijai f(x). Ja pareizi izvēlējāmies regresijas funkciju klasi, tad neprecizitāte f (x) aprakstā, izmantojot? var izskaidrot tikai ar ierobežoto izlases lielumu.

Lai no sākotnējiem statistikas datiem vislabāk atjaunotu efektīvā rādītāja y(x) un nezināmās regresijas funkcijas f(x) = M(y/x) nosacīto vērtību, visbiežāk tiek izmantoti šādi atbilstības kritēriji (zaudējumu funkcijas). .

Mazākā kvadrāta metode. Saskaņā ar to efektīvā rādītāja y novēroto vērtību kvadrātā novirze (i = 1,2,..., n) no modeļa vērtībām tiek samazināta līdz minimumam. = f(x i), kur x i ir argumentu vektora vērtība i-tajā novērojumā:

Mazāko moduļu metode. Saskaņā ar to efektīvā indikatora novēroto vērtību absolūto noviržu summa no modulārajām vērtībām tiek samazināta līdz minimumam. Un mēs saņemam = f(x i), vidējā absolūtā vidējā regresija? |y i - f(х i)| > min.

Regresijas analīze ir nejauša lieluma y atkarības no mainīgajiem x j = (j = 1,2, ..., k) statistiskās analīzes metode, kas regresijas analīzē tiek uzskatīta par ne. nejaušie mainīgie, neatkarīgi no patiesā sadalījuma likuma x j.

Parasti tiek pieņemts, ka gadījuma mainīgajam y ir normālā sadalījuma likums ar nosacītu matemātisko gaidu y, kas ir argumentu x/ (/ = 1, 2, ..., k) funkcija un konstante, kas nav atkarīga no argumenti, dispersija y 2 .

Kopumā regresijas analīzes lineārajam modelim ir šāda forma:

Y = Y k j=0 V j c j(x 1 , x 2 . . .. ,x k)+E

kur c j ir kāda funkcija no tā mainīgajiem - x 1 , x 2 . . .. ,x k , E ir gadījuma lielums ar nulli matemātisko cerību un dispersiju y 2 .

Regresijas analīzē regresijas vienādojuma veidu izvēlas, pamatojoties uz pētāmās parādības fizisko raksturu un novērojumu rezultātiem.

Regresijas vienādojuma nezināmo parametru aplēses parasti tiek atrastas ar mazāko kvadrātu metodi. Tālāk mēs sīkāk aplūkosim šo problēmu.

Divdimensiju lineārās regresijas vienādojums. Ļaujiet, pamatojoties uz pētāmās parādības analīzi, tiek pieņemts, ka "vidējā" y ir lineārā funkcija no x, t.i., ir regresijas vienādojums

y \u003d M (y / x) \u003d pie 0 + pie 1 x)

kur M(y1x) ir gadījuma lieluma y nosacītā matemātiskā sagaidāmā vērtība konkrētam x; pie 0 un pie 1 - nezināmi vispārējās populācijas parametri, kas jānovērtē pēc izlases novērojumu rezultātiem.

Pieņemsim, ka, lai novērtētu parametrus pie 0 un 1, n izmēra paraugs tiek ņemts no divdimensiju vispārējās populācijas (x, y), kur (x, y,) ir i-tā novērojuma rezultāts (i = 1, 2,..., n) . Šajā gadījumā regresijas analīzes modelim ir šāda forma:

y j = pie 0 + pie 1 x+e j .

kur e j .- neatkarīgi normāli sadalīti gadījuma lielumi ar nulli matemātisko cerību un dispersiju y 2 , t.i., M e j . = 0;

D e j .= y 2 visiem i = 1, 2,..., n.

Saskaņā ar mazāko kvadrātu metodi, kā nezināmo parametru aplēses pie 0 un 1, ir jāņem tādas parauga raksturlielumu vērtības b 0 un b 1, kas samazina vērtību kvadrātu noviržu summu. efektīvā pazīme y i no nosacījuma matemātiskās cerības? i

Aplūkosim metodoloģiju mārketinga raksturlielumu ietekmes uz uzņēmuma peļņu noteikšanai, izmantojot septiņpadsmit tipisku uzņēmumu piemēru ar vidējiem izmēriem un ekonomiskās aktivitātes rādītājiem.

Risinot problēmu, tika ņemtas vērā šādas pazīmes, kas anketas aptaujas rezultātā tika identificētas kā nozīmīgākās (svarīgākās):

* uzņēmuma inovatīvā darbība;

* preču klāsta plānošana;

* cenu politikas veidošana;

* sabiedriskās attiecības;

* mārketinga sistēma;

* darbinieku stimulēšanas sistēma.

Pamatojoties uz faktoru salīdzināšanas sistēmu, tika izveidotas kvadrātveida blakusmatricas, kurās tika aprēķinātas relatīvo prioritāšu vērtības katram faktoram: uzņēmuma inovatīvā darbība, preču klāsta plānošana, cenu politika, reklāma, sabiedriskās attiecības, pārdošanas sistēma, darbinieku stimulēšanas sistēma.

Prioritāšu aplēses faktoram "attiecības ar sabiedrību" iegūtas uzņēmuma speciālistu aptaujas rezultātā. Tiek pieņemti šādi apzīmējumi: > (labāks), > (labāks vai tāds pats), = (vienāds),< (хуже или одинаково), <

Tālāk tika atrisināta uzņēmuma mārketinga līmeņa visaptveroša novērtējuma problēma. Aprēķinot rādītāju, tika noteikta aplūkojamo konkrēto pazīmju nozīme (svars) un atrisināta konkrēto rādītāju lineārās konvolūcijas problēma. Datu apstrāde tika veikta pēc īpaši izstrādātām programmām.

Tālāk tiek aprēķināts visaptverošs uzņēmuma mārketinga līmeņa novērtējums - mārketinga koeficients, kas tiek ievadīts 1. tabulā. Papildus tabulā ir iekļauti uzņēmumu kopumā raksturojošie rādītāji. Tabulas dati tiks izmantoti regresijas analīzei. Rezultāts ir peļņa. Kopā ar mārketinga koeficientu kā faktoru zīmes tika izmantoti šādi rādītāji: bruto produkcijas apjoms, pamatlīdzekļu izmaksas, darbinieku skaits, specializācijas koeficients.

1. tabula. Sākotnējie dati regresijas analīzei


Balstoties uz tabulas datiem un uz faktoriem ar nozīmīgākajām korelācijas koeficientu vērtībām, tika izveidotas peļņas atkarības no faktoriem regresijas funkcijas.

Regresijas vienādojums mūsu gadījumā būs šāds:

Regresijas vienādojuma koeficienti runā par iepriekš apskatīto faktoru kvantitatīvo ietekmi uz peļņas apjomu. Tie parāda, cik tūkstošu rubļu mainās tā vērtība, kad faktora zīme mainās par vienu vienību. Kā izriet no vienādojuma, mārketinga kombinācijas attiecības palielināšana par vienu vienību dod peļņas pieaugumu par 1547,7 tūkstošiem rubļu. Tas liecina, ka mārketinga aktivitāšu uzlabošanā ir milzīgs potenciāls uzņēmumu ekonomisko rādītāju uzlabošanai.

Mārketinga efektivitātes pētījumā interesantākā un svarīgākā faktoru pazīme ir X5 faktors - mārketinga koeficients. Saskaņā ar statistikas teoriju esošā daudzkārtējās regresijas vienādojuma priekšrocība ir spēja novērtēt katra faktora, tostarp mārketinga faktora, izolēto ietekmi.

Arī veiktās regresijas analīzes rezultāti tiek izmantoti plašāk nekā vienādojuma parametru aprēķināšanai. Kritērijs uzņēmumu klasificēšanai (Kef,) kā salīdzinoši labāks vai salīdzinoši sliktāks ir balstīts uz rezultāta relatīvo rādītāju:

kur Y facti ir i-tā uzņēmuma faktiskā vērtība, tūkstoši rubļu;

Y aprēķināts - i-tā uzņēmuma peļņas vērtība, kas iegūta, aprēķinot pēc regresijas vienādojuma

Runājot par problēmu, kas tiek atrisināta, vērtību sauc par "efektivitātes koeficientu". Uzņēmuma darbību var uzskatīt par efektīvu gadījumos, kad koeficienta vērtība ir lielāka par vienu. Tas nozīmē, ka faktiskā peļņa ir lielāka par vidējo peļņu paraugā.

Faktiskās un aprēķinātās peļņas vērtības ir parādītas tabulā. 2.

2. tabula. Efektīvās pazīmes analīze regresijas modelī

Tabulas analīze liecina, ka mūsu gadījumā uzņēmumu 3, 5, 7, 9, 12, 14, 15, 17 darbību aplūkojamajā periodā var uzskatīt par veiksmīgu.

Regresijas analīzes galvenā iezīme ir tā, ka to var izmantot, lai iegūtu specifisku informāciju par pētāmo mainīgo attiecību formu un raksturu.

Regresijas analīzes posmu secība

Īsi apskatīsim regresijas analīzes posmus.

    Uzdevuma formulēšana. Šajā posmā tiek veidotas provizoriskas hipotēzes par pētāmo parādību atkarību.

    Atkarīgo un neatkarīgo (skaidrojošo) mainīgo definīcija.

    Statistikas datu vākšana. Dati ir jāapkopo par katru no regresijas modelī iekļautajiem mainīgajiem.

    Hipotēzes formulēšana par savienojuma formu (vienkārša vai daudzkārtēja, lineāra vai nelineāra).

    Definīcija regresijas funkcijas (sastāv no regresijas vienādojuma parametru skaitlisko vērtību aprēķināšanas)

    Regresijas analīzes precizitātes novērtējums.

    Iegūto rezultātu interpretācija. Regresijas analīzes rezultāti tiek salīdzināti ar sākotnējām hipotēzēm. Tiek izvērtēta iegūto rezultātu pareizība un ticamība.

    Atkarīgā mainīgā nezināmu vērtību prognozēšana.

Ar regresijas analīzes palīdzību ir iespējams atrisināt prognozēšanas un klasifikācijas problēmu. Prognozējošās vērtības tiek aprēķinātas, regresijas vienādojumā aizstājot skaidrojošo mainīgo vērtības. Klasifikācijas problēma tiek atrisināta šādi: regresijas taisne sadala visu objektu kopu divās klasēs, un tā kopas daļa, kurā funkcijas vērtība ir lielāka par nulli, pieder vienai klasei, bet daļa, kurā tā ir mazāka. nekā nulle pieder citai klasei.

Regresijas analīzes uzdevumi

Apsveriet galvenos regresijas analīzes uzdevumus: atkarības formas noteikšana, noteikšana regresijas funkcijas, atkarīgā mainīgā nezināmo vērtību aprēķins.

Atkarības formas noteikšana.

Mainīgo attiecību raksturs un forma var veidot šādus regresijas veidus:

    pozitīva lineāra regresija (izteikta kā vienmērīgs funkcijas pieaugums);

    pozitīva vienmērīgi paātrinoša regresija;

    pozitīva vienmērīgi pieaugoša regresija;

    negatīva lineārā regresija (izteikta kā vienmērīgs funkcijas kritums);

    negatīva vienmērīgi paātrināta samazinoša regresija;

    negatīva vienmērīgi samazinoša regresija.

Tomēr aprakstītās šķirnes parasti nav sastopamas tīrā veidā, bet gan kombinācijā ar otru. Šajā gadījumā runā par kombinētām regresijas formām.

Regresijas funkcijas definīcija.

Otrs uzdevums ir noskaidrot galveno faktoru vai cēloņu ietekmi uz atkarīgo mainīgo, visām pārējām lietām esot vienādām un izslēdzot ietekmi uz nejaušo elementu atkarīgo mainīgo. regresijas funkcija definēts kā viena vai otra veida matemātisks vienādojums.

Atkarīgā mainīgā nezināmo vērtību novērtējums.

Šīs problēmas risinājums ir reducēts līdz viena no šāda veida problēmas risināšanai:

    Atkarīgā mainīgā vērtību novērtēšana sākotnējo datu aplūkotajā intervālā, t.i. trūkstošās vērtības; tas atrisina interpolācijas problēmu.

    Atkarīgā mainīgā nākotnes vērtību novērtēšana, t.i. atrast vērtības ārpus norādītā sākotnējo datu intervāla; tas atrisina ekstrapolācijas problēmu.

Abas problēmas tiek atrisinātas, regresijas vienādojumā aizstājot atrastos neatkarīgo mainīgo vērtību parametru aprēķinus. Vienādojuma atrisināšanas rezultāts ir mērķa (atkarīgā) mainīgā vērtības novērtējums.

Apskatīsim dažus pieņēmumus, uz kuriem balstās regresijas analīze.

Linearitātes pieņēmums, t.i. tiek pieņemts, ka sakarība starp aplūkotajiem mainīgajiem ir lineāra. Tātad šajā piemērā mēs izveidojām izkliedes diagrammu un varējām redzēt skaidru lineāru sakarību. Ja mainīgo lielumu izkliedes diagrammā redzam skaidru lineāras attiecības neesamību, t.i. pastāv nelineāra sakarība, jāizmanto nelineāras analīzes metodes.

Normalitātes pieņēmums pārpalikumi. Tas pieņem, ka starpības sadalījums starp prognozētajām un novērotajām vērtībām ir normāls. Lai vizuāli noteiktu sadalījuma raksturu, varat izmantot histogrammas pārpalikumi.

Izmantojot regresijas analīzi, jāņem vērā tās galvenais ierobežojums. Tas sastāv no tā, ka regresijas analīze ļauj atklāt tikai atkarības, nevis attiecības, kas ir šo atkarību pamatā.

Regresijas analīze ļauj novērtēt saistību pakāpi starp mainīgajiem lielumiem, aprēķinot mainīgā lieluma paredzamo vērtību, pamatojoties uz vairākām zināmām vērtībām.

Regresijas vienādojums.

Regresijas vienādojums izskatās šādi: Y=a+b*X

Izmantojot šo vienādojumu, mainīgais Y tiek izteikts kā konstante a un taisnes (vai slīpuma) b slīpums, kas reizināts ar mainīgā X vērtību. Konstante a tiek saukta arī par krustpunktu, un slīpums ir regresija. koeficients vai B koeficients.

Vairumā gadījumu (ja ne vienmēr) ir vērojama zināma novērojumu izkliede par regresijas taisni.

Atlikums ir atsevišķa punkta (novērojuma) novirze no regresijas līnijas (paredzamā vērtība).

Lai atrisinātu regresijas analīzes problēmu programmā MS Excel, izvēlnē atlasiet apkalpošana"Analīzes pakotne" un regresijas analīzes rīks. Norādiet X un Y ievades intervālus. Y ievades intervāls ir atkarīgo datu diapazons, kas tiek analizēts, un tajā jāietver viena kolonna. Ievades intervāls X ir analizējamo neatkarīgo datu diapazons. Ievades diapazonu skaits nedrīkst pārsniegt 16.

Procedūras izvadē izvades diapazonā mēs saņemam norādīto ziņojumu tabula 8.3a-8,3 v.

REZULTĀTI

8.3.a tabula. Regresijas statistika

Regresijas statistika

Vairāki R

R-kvadrāts

Normalizēts R kvadrāts

standarta kļūda

Novērojumi

Vispirms apsveriet šeit sniegto aprēķinu augšējo daļu tabula 8.3a, - regresijas statistika.

Vērtība R-kvadrāts, ko sauc arī par noteiktības mēru, raksturo iegūtās regresijas līnijas kvalitāti. Šo kvalitāti izsaka sākotnējo datu un regresijas modeļa (aprēķināto datu) atbilstības pakāpe. Noteiktības mērs vienmēr ir intervālā .

Vairumā gadījumu vērtība R-kvadrāts ir starp šīm vērtībām, ko sauc par ekstrēmām, t.i. starp nulli un vienu.

Ja vērtība R kvadrātā tuvu vienotībai, tas nozīmē, ka konstruētais modelis izskaidro gandrīz visu atbilstošo mainīgo mainīgumu. Un otrādi, vērtība R kvadrātā, tuvu nullei, nozīmē konstruētā modeļa sliktu kvalitāti.

Mūsu piemērā noteiktības mērs ir 0,99673, kas norāda uz ļoti labu regresijas līnijas atbilstību sākotnējiem datiem.

daudzskaitlī R - daudzkārtējās korelācijas koeficients R - izsaka neatkarīgo mainīgo (X) un atkarīgo mainīgo (Y) atkarības pakāpi.

Vairāki R vienāda ar determinācijas koeficienta kvadrātsakni, šī vērtība ņem vērtības diapazonā no nulles līdz vienam.

Vienkāršā lineārās regresijas analīzē daudzskaitlī R vienāds ar Pīrsona korelācijas koeficientu. Tiešām, daudzskaitlī R mūsu gadījumā tas ir vienāds ar Pīrsona korelācijas koeficientu no iepriekšējā piemēra (0,998364).

8.3b tabula. Regresijas koeficienti

Likmes

standarta kļūda

t-statistika

Y-krustojums

Mainīgais X 1

* Tiek dota aprēķinu saīsināta versija

Tagad apsveriet šeit sniegto aprēķinu vidējo daļu tabula 8.3b. Šeit ir dots regresijas koeficients b (2,305454545) un nobīde pa y asi, t.i. konstante a (2,694545455).

Pamatojoties uz aprēķiniem, mēs varam uzrakstīt regresijas vienādojumu šādi:

Y= x*2,305454545+2,694545455

Mainīgo lielumu attiecības virziens tiek noteikts, pamatojoties uz regresijas koeficientu (koeficients b) zīmēm (negatīvām vai pozitīvām).

Ja regresijas koeficienta zīme ir pozitīva, attiecības starp atkarīgo mainīgo un neatkarīgo mainīgo būs pozitīvas. Mūsu gadījumā regresijas koeficienta zīme ir pozitīva, līdz ar to arī sakarība ir pozitīva.

Ja regresijas koeficienta zīme ir negatīva, attiecības starp atkarīgo un neatkarīgo mainīgo ir negatīvas (apgrieztas).

IN tabula 8.3c. tiek prezentēti izejas rezultāti pārpalikumi. Lai šie rezultāti tiktu parādīti pārskatā, palaižot rīku "Regresija", ir jāaktivizē izvēles rūtiņa "Atlikumi".

ATLIKUŠA IZSTĀŠANA

8.3c tabula. Paliek

Novērošana

Paredzēts Y

Paliek

Standarta atlikumi

Izmantojot šo atskaites daļu, mēs varam redzēt katra punkta novirzes no konstruētās regresijas taisnes. Lielākā absolūtā vērtība atlikumu mūsu gadījumā - 0,778, mazākais - 0,043. Lai labāk interpretētu šos datus, mēs izmantosim sākotnējo datu grafiku un konstruēto regresijas līniju, kas parādīta attēlā. rīsi. 8.3. Kā redzat, regresijas līnija ir diezgan precīzi "pielāgota" sākotnējo datu vērtībām.

Jāņem vērā, ka aplūkojamais piemērs ir diezgan vienkāršs un ne vienmēr ir iespējams kvalitatīvi izveidot lineāro regresijas taisni.

Rīsi. 8.3. Sākotnējie dati un regresijas līnija

Problēma par atkarīgā mainīgā nezināmo nākotnes vērtību aplēsēm, pamatojoties uz neatkarīgā mainīgā zināmajām vērtībām, palika neapskatīta, t.i. prognozēšanas uzdevums.

Izmantojot regresijas vienādojumu, prognozēšanas problēma tiek reducēta līdz vienādojuma Y= x*2,305454545+2,694545455 atrisināšanai ar zināmām x vērtībām. Tiek parādīti atkarīgā mainīgā Y prognozēšanas rezultāti sešus soļus uz priekšu tabulā 8.4.

8.4. tabula. Y mainīgā prognozēšanas rezultāti

J (paredzēts)

Tādējādi, izmantojot regresijas analīzi Microsoft Excel pakotnē, mēs:

    izveidoja regresijas vienādojumu;

    noteikta atkarības forma un attiecības virziens starp mainīgajiem - pozitīva lineāra regresija, kas izpaužas vienmērīgā funkcijas pieaugumā;

    noteica attiecību virzienu starp mainīgajiem lielumiem;

    novērtēja iegūtās regresijas līnijas kvalitāti;

    varēja redzēt aprēķināto datu novirzes no sākotnējās kopas datiem;

    prognozēja atkarīgā mainīgā nākotnes vērtības.

Ja regresijas funkcija ir definēts, interpretēts un pamatots, un regresijas analīzes precizitātes novērtējums atbilst prasībām, varam pieņemt, ka konstruētais modelis un paredzamās vērtības ir pietiekami uzticamas.

Šādā veidā iegūtās prognozētās vērtības ir vidējās vērtības, kuras var sagaidīt.

Šajā rakstā mēs apskatījām galvenās īpašības aprakstošā statistika un starp tiem tādi jēdzieni kā vidējā vērtība,mediāna,maksimums,minimums un citas datu variācijas pazīmes.

Notika arī īsa koncepcijas diskusija emisijas. Aplūkotie raksturlielumi attiecas uz tā saukto pētniecisko datu analīzi, tās secinājumi var attiekties nevis uz kopējo populāciju, bet tikai uz datu paraugu. Izpētes datu analīze tiek izmantota, lai izdarītu primāros secinājumus un izvirzītu hipotēzes par populāciju.

Tika apskatīti arī korelācijas un regresijas analīzes pamati, to uzdevumi un praktiskās izmantošanas iespējas.