Tehnika optimaalse väärtuse määramiseks regressiooni abil. Regressioonanalüüs. Vigade allikad prognoosimisel

Kaasaegne politoloogia lähtub positsioonist kõigi ühiskonnas toimuvate nähtuste ja protsesside seoste kohta. Pole võimalik mõista sündmusi ja protsesse, ennustada ja juhtida poliitilise elu nähtusi, uurimata ühiskonna poliitilises sfääris eksisteerivaid seoseid ja sõltuvusi. Poliitikauuringute üks levinumaid ülesandeid on uurida seoseid mõne vaadeldava muutuja vahel. Aitab seda probleemi lahendada terve klass statistilisi analüüsimeetodeid kombineerituna üldnimetus"regressioonanalüüs" (või, nagu seda nimetatakse ka "korrelatsioon-regressioonanalüüs"). Kui aga korrelatsioonianalüüs võimaldab hinnata kahe muutuja vahelise seose tugevust, siis regressioonanalüüsi abil on võimalik määrata selle seose tüüp, ennustada mis tahes muutuja väärtuse sõltuvust mõne teise muutuja väärtusest.

Kõigepealt meenutagem, mis on korrelatsioon. Korrelatiivne nimetatakse statistilise seose kõige olulisemaks erijuhtumiks, mis seisneb selles, et ühe muutuja võrdsed väärtused vastavad erinevatele keskmised väärtused teine. Atribuudi x väärtuse muutumisel muutub loomulikult atribuudi y keskmine väärtus, samas kui igal üksikjuhul atribuudi väärtus juures(erineva tõenäosusega) võib võtta palju erinevaid väärtusi.

Mõiste “korrelatsioon” ilmumine statistikas (ja politoloogia meelitab oma probleemide lahendamiseks statistika saavutusi, mis on seega politoloogiaga seotud distsipliin) on seotud inglise bioloogi ja statistiku Francis Galtoni nimega, kes pakkus välja 19. teoreetiline alus korrelatsiooni- ja regressioonianalüüs. Mõiste "korrelatsioon" oli teaduses tuntud juba varem. Eelkõige paleontoloogias 18. sajandil. seda rakendas prantsuse teadlane Georges Cuvier. Ta tutvustas nn korrelatsiooniseadust, mille abil oli väljakaevamistel leitud loomade jäänuste järgi võimalik taastada nende välimus.

Selle teadlase nime ja tema korrelatsiooniseadusega on seotud tuntud lugu. Nii tõmbasid tudengid, kes otsustasid kuulsale professorile vingerpussi mängida, ülikoolivahepäevadel ühe õpilase peale sarvede ja kabjadega kitsenaha. Ta ronis Cuvier' magamistoa aknast sisse ja hüüdis: "Ma söön su ära." Professor ärkas üles, vaatas siluetti ja vastas: “Kui sul on sarved ja kabjad, siis oled rohusööja ega saa mind ära süüa. Ja korrelatsiooniseaduse mittetundmise eest saate kahekohalise. Ta pöördus ümber ja jäi magama. Nali on nali, kuid selles näites näeme mitme korrelatsioon-regressioonanalüüsi kasutamise erijuhtu. Siin tuletas professor kahe vaadeldud tunnuse (sarvede ja sõrgade olemasolu) väärtuste teadmiste põhjal korrelatsiooniseadusele tuginedes kolmanda tunnuse keskmise väärtuse (klass, kuhu see loom kuulub, on rohusööja). Sel juhul me ei räägi selle muutuja konkreetsest väärtusest (st see loom võib võtta erinevaid tähendusi nominaalskaalal - see võib olla kits, jäär ja pull ...).

Liigume nüüd edasi mõiste "regressioon" juurde. Rangelt võttes pole see nende tähendusega seotud statistilised ülesanded mis selle meetodi abil lahendatakse. Mõiste selgitust saab anda vaid tunnustevaheliste seoste uurimise meetodite kujunemisloo teadmiste põhjal. Üks esimesi sedalaadi uuringute näiteid oli statistikute F. Galtoni ja K. Pearsoni töö, kes püüdsid leida mustrit isade ja nende laste kasvu vahel kahe jälgitava märgi järgi (kus X- isa pikkus ja U- laste kasv). Oma uuringus kinnitasid nad esialgset hüpoteesi, et keskmiselt kasvatavad pikad isad keskmiselt pikki lapsi. Sama põhimõte kehtib ka madalate isade ja laste kohta. Kui aga teadlased oleksid seal peatunud, poleks nende töid statistikaõpikutes kunagi mainitud. Teadlased leidsid juba mainitud kinnitatud hüpoteesi raames veel ühe mustri. Nad tõestasid, et väga pikad isad toodavad lapsi, kes on keskmiselt pikad, kuid mitte väga erinevad nendest lastest, kelle isad, kuigi keskmisest kõrgemad, ei erine kuigivõrd keskmisest pikkusest. Sama kehtib ka väga väikese kasvuga isade kohta (lahknedes lühikese rühma keskmisest) - nende lapsed keskmiselt ei erinenud pikkuselt eakaaslastest, kelle isad olid lihtsalt lühikesed. Nad nimetasid seda regulaarsust kirjeldavat funktsiooni regressioonifunktsioon. Pärast seda uuringut hakati kõiki sarnaseid funktsioone kirjeldavaid ja sarnaselt konstrueeritud võrrandeid nimetama regressioonivõrranditeks.

Regressioonanalüüs on üks mitme muutujaga statistilise andmeanalüüsi meetoditest, mis ühendab statistiliste tehnikate komplekti, mis on mõeldud ühe sõltuva ja mitme (või ühe) sõltumatu muutuja vaheliste suhete uurimiseks või modelleerimiseks. Sõltuvat muutujat nimetatakse statistikas aktsepteeritud traditsiooni kohaselt vastuseks ja seda tähistatakse kui V Sõltumatuid muutujaid nimetatakse ennustajateks ja neid tähistatakse kui x. Analüüsi käigus on mõned muutujad vastusega nõrgalt seotud ja jäetakse lõpuks analüüsist välja. Ülejäänud sõltuvaga seotud muutujaid võib nimetada ka teguriteks.

Regressioonanalüüs võimaldab ennustada ühe või mitme muutuja väärtusi sõltuvalt teisest muutujast (näiteks kalduvus ebatavaliseks poliitiliseks käitumiseks sõltuvalt haridustasemest) või mitmest muutujast. Arvutatakse arvutis. Regressioonivõrrandi koostamiseks, mis võimaldab mõõta juhitava tunnuse sõltuvusastet faktoritest, on vaja kaasata professionaalsed matemaatikud-programmeerijad. Regressioonanalüüs võib pakkuda hindamatut teenust poliitilise olukorra arengu ennustavate mudelite koostamisel, sotsiaalsete pingete põhjuste hindamisel ja teoreetiliste eksperimentide läbiviimisel. Regressioonanalüüsi kasutatakse aktiivselt selleks, et uurida mitmete sotsiaaldemograafiliste parameetrite mõju kodanike valimiskäitumisele: sugu, vanus, elukutse, elukoht, rahvus, sissetuleku tase ja laad.

Seoses regressioonanalüüsiga mõisted sõltumatu Ja sõltuv muutujad. Sõltumatu muutuja on muutuja, mis selgitab või põhjustab muutusi teises muutujas. Sõltuv muutuja on muutuja, mille väärtus on seletatav esimese muutuja mõjuga. Näiteks 2004. aasta presidendivalimistel olid määravad tegurid, s.o. sõltumatuteks muutujateks olid sellised näitajad nagu riigi elanikkonna finantsolukorra stabiliseerumine, kandidaatide populaarsuse tase ja tegur ametisolekul. Sel juhul võib kandidaatidele antud häälte protsenti pidada sõltuvaks muutujaks. Samamoodi on muutujate paaris “valija vanus” ja “valimisaktiivsuse tase” esimene sõltumatu, teine ​​sõltuv.

Regressioonanalüüs võimaldab teil lahendada järgmised probleemid:

  • 1) tuvastab Ci vahelise statistiliselt olulise seose olemasolu või puudumise x;
  • 2) koostab regressioonifunktsiooni parimad (statistilises mõttes) hinnangud;
  • 3) vastavalt etteantud väärtustele X koostage ennustus tundmatu jaoks Kell
  • 4) hindab iga teguri mõju erikaalu X peal Kell ja vastavalt sellele välistada mudelist ebaolulised omadused;
  • 5) tuvastades muutujate vahelisi põhjuslikke seoseid, hallata osaliselt P väärtusi, kohandades selgitavate muutujate väärtusi x.

Regressioonianalüüsi seostatakse vajadusega valida uuritava indikaatori väärtust mõjutavad vastastikku sõltumatud muutujad, määrata regressioonivõrrandi vorm ja hinnata parameetreid kasutades statistilised meetodid esmaste sotsioloogiliste andmete töötlemine. Seda tüüpi analüüs põhineb suhte vormi, suuna ja läheduse (tiheduse) ideel. Eristama leiliruum Ja mitmekordne regressioon olenevalt uuritud tunnuste arvust. Praktikas tehakse regressioonanalüüsi tavaliselt koos korrelatsioonianalüüsiga. Regressioonivõrrand kirjeldab suuruste vahelist arvulist seost, mida väljendatakse tendentsina, et üks muutuja suureneb või väheneb, samal ajal kui teine ​​suureneb või väheneb. Samal ajal razl ja h a yut l härmatis Ja mittelineaarne regressioon. Kirjeldades poliitilised protsessid mõlemad regressioonivariandid tuvastatakse võrdselt.

Huvijoonis poliitiliste artiklite vastastikuse sõltuvuse jaotamiseks ( U) ja vastajate haridus (X) on lineaarne regressioon (joonis 30).

Riis. kolmkümmend.

Valimisaktiivsuse taseme jaotuse hajuvusskeem ( U) ja vastaja vanus (A) (tingimuslik näide) on mittelineaarne regressioon (joonis 31).


Riis. 31.

Kahe tunnuse (A "ja Y) seose kirjeldamiseks paaris regressioonimudelis kasutage lineaarvõrrand

kus a, on võrrandi vea juhuslik väärtus koos tunnuste varieerumisega, st. võrrandi kõrvalekalle "lineaarsusest".

Koefitsientide hindamiseks A Ja b kasutada vähimruutude meetodit, mis eeldab, et hajuvusdiagrammi iga punkti ruuduhälbete summa regressioonijoonest peaks olema minimaalne. Koefitsiendid a h b saab arvutada võrrandisüsteemi abil:

Vähimruutude hindamise meetod annab sellised koefitsientide hinnangud A Ja b, mille puhul sirge koordinaatidega punkti läbib X Ja y, need. on suhe juures = kirves + b. Regressioonivõrrandi graafilist esitust nimetatakse teoreetiline regressioonisirge. Kell lineaarne sõltuvus regressioonikordaja kujutab graafikul teoreetilise regressioonisirge x-telje kalde puutujat. Koefitsiendi juures olev märk näitab suhte suunda. Kui see on suurem kui null, on seos otsene, kui see on väiksem, siis pöördvõrdeline.

Järgnev näide uuringust "Political Petersburg-2006" (tabel 56) näitab lineaarset seost kodanike arusaamade vahel oma eluga rahulolu tasemest olevikus ja ootuste vahel elukvaliteedi muutustele tulevikus. Seos on otsene, lineaarne (standardiseeritud regressioonikoefitsient on 0,233, olulisuse tase 0,000). Sel juhul ei ole regressioonikordaja kõrge, kuid see ületab statistiliselt olulise näitaja alampiiri (Pearsoni koefitsiendi statistiliselt olulise näitaja ruudu alumine piir).

Tabel 56

Kodanike elukvaliteedi mõju olevikus ootustele

(Peterburi, 2006)

* Sõltuv muutuja: "Kuidas teie arvates teie elu järgmise 2-3 aasta jooksul muutub?"

Poliitilises elus sõltub uuritava muutuja väärtus kõige sagedamini korraga mitmest tunnusest. Näiteks poliitilise aktiivsuse taset ja olemust mõjutavad üheaegselt riigi poliitiline režiim, poliitilised traditsioonid, inimeste poliitilise käitumise iseärasused antud piirkonnas ja vastaja sotsiaalne mikrogrupp, tema vanus, haridus, sissetulekute tase, poliitiline orientatsioon jne. Sel juhul peate kasutama võrrandit mitmekordne regressioon, millel on järgmine vorm:

kus koefitsient b.- osalise regressiooni koefitsient. See näitab iga sõltumatu muutuja panust sõltumatu (tulemuse) muutuja väärtuste määramisel. Kui osalise regressiooni koefitsient on nullilähedane, siis võime järeldada, et sõltumatute ja sõltuvate muutujate vahel otsest seost ei ole.

Sellise mudeli saab arvutada arvutis maatriksalgebra abil. Mitmekordne regressioon võimaldab kajastada sotsiaalsete sidemete mitmefaktorilist olemust ja selgitada iga teguri mõju astet individuaalselt ja kõik koos sellest tulenevale tunnusele.

Koefitsient tähistatud b, nimetatakse lineaarseks regressioonikordajaks ja näitab variatsiooni vahelise seose tugevust teguri märk X ja efektiivse funktsiooni variatsioon Y See koefitsient mõõdab seose tugevust tunnuste absoluutsetes mõõtühikutes. Tunnuste korrelatsiooni lähedust saab aga väljendada ka saadud tunnuse standardhälbe kaudu (sellist koefitsienti nimetatakse korrelatsioonikordajaks). Erinevalt regressioonikoefitsiendist b korrelatsioonikoefitsient ei sõltu tunnuste aktsepteeritud mõõtühikutest ja seetõttu on see võrreldav kõigi tunnuste puhul. Tavaliselt peetakse ühendust tugevaks, kui /> 0,7, keskmise tihedusega - 0,5 g juures 0,5.

Nagu teate, on lähim seos funktsionaalne ühendus, kui iga üksik väärtus on Y saab väärtusele unikaalselt määrata x. Seega, mida lähemal on korrelatsioonikordaja 1-le, seda lähemal on seos funktsionaalsele. Regressioonanalüüsi olulisuse tase ei tohiks ületada 0,001.

Korrelatsioonikordajat on pikka aega peetud tunnuste seose läheduse peamiseks näitajaks. Hiljem sai aga selliseks näitajaks determinatsioonikoefitsient. Selle koefitsiendi tähendus on järgmine - see peegeldab saadud tunnuse kogu dispersiooni osakaalu Kell, mis on seletatav tunnuse dispersiooniga x. See leitakse korrelatsioonikordaja lihtsalt ruudustamisel (muutub 0-lt 1-le) ja omakorda peegeldab lineaarse seose osakaalu 0-st (0%). 1 (100%) iseloomulikud väärtused jah määratud atribuudi väärtustega x. See on salvestatud kui ma 2, ja saadud regressioonanalüüsi tabelites SPSS-paketis - ilma ruuduta.

Tähistame mitmekordse regressioonivõrrandi koostamise põhiprobleeme.

  • 1. Regressioonivõrrandis sisalduvate tegurite valik. Selles etapis koostab teadlane esmalt üldise loetelu peamistest põhjustest, mis teooria kohaselt määravad uuritava nähtuse. Seejärel peab ta valima regressioonivõrrandi tunnused. Peamine valikureegel on, et analüüsi kaasatud tegurid peaksid omavahel võimalikult vähe korreleeruma; ainult sel juhul on võimalik teatud faktori-atribuudile omistada mõju kvantitatiivne mõõt.
  • 2. Mitme regressioonivõrrandi vormi valimine(praktikas kasutatakse sagedamini lineaarset või lineaarlogaritmilist). Nii et mitmekordse regressiooni kasutamiseks peab uurija kõigepealt koostama hüpoteetilise mudeli mitme sõltumatu muutuja mõjust saadud muutujale. Et saadud tulemused oleksid usaldusväärsed, on vajalik, et mudel vastaks täpselt tegelikule protsessile, s.t. muutujate vaheline seos peab olema lineaarne, tähelepanuta ei saa jätta ainsatki olulist sõltumatut muutujat, samamoodi ei saa analüüsi kaasata ühtki muutujat, mis ei ole otseselt seotud uuritava protsessiga. Lisaks peavad kõik muutujate mõõtmised olema ülitäpsed.

Ülaltoodud kirjeldusest tuleneb selle meetodi rakendamiseks mitmeid tingimusi, ilma milleta on võimatu jätkata mitmekordse regressioonanalüüsi (MRA) protseduuri. Ainult kõigi järgmiste punktide järgimine võimaldab korrektselt regressioonianalüüsi läbi viia.

Regressioonanalüüsi peamine eesmärk seisneb seose analüütilise vormi määramises, mille puhul resultanttunnuse muutus on tingitud ühe või mitme faktorimärgi mõjust ning konstantse ja keskmise väärtusena võetakse kõigi teiste tegurite hulk, mis samuti resultantatribuuti mõjutavad.
Regressioonanalüüsi ülesanded:
a) Sõltuvuse vormi kindlakstegemine. Nähtuste omavahelise seose olemuse ja vormi osas on positiivne lineaarne ja mittelineaarne ning negatiivne lineaarne ja mittelineaarne regressioon.
b) Regressioonifunktsiooni defineerimine üht või teist tüüpi matemaatilise võrrandi kujul ja selgitavate muutujate mõju kindlaksmääramine sõltuvale muutujale.
c) Hindamine tundmatud väärtused sõltuv muutuja. Regressioonifunktsiooni kasutades saate sõltuva muutuja väärtused reprodutseerida selgitavate muutujate etteantud väärtuste intervallis (st lahendada interpolatsiooniülesanne) või hinnata protsessi kulgu väljaspool määratud intervalli (st lahendada ekstrapoleerimisülesanne). Tulemuseks on sõltuva muutuja väärtuse hinnang.

Paar regressioon - kahe muutuja y ja x seose võrrand: y=f(x), kus y on sõltuv muutuja (tulemusmärk); x - sõltumatu, selgitav muutuja (omadus-tegur).

On lineaarsed ja mittelineaarsed regressioonid.
Lineaarne regressioon: y = a + bx + ε
Mittelineaarsed regressioonid jagunevad kahte klassi: regressioonid, mis on analüüsis sisalduvate selgitavate muutujate suhtes mittelineaarsed, kuid hinnanguliste parameetrite suhtes lineaarsed, ja regressioonid, mis on hinnanguliste parameetrite suhtes mittelineaarsed.
Regressioonid, mis on seletavates muutujates mittelineaarsed:

Regressioonid, mis on hinnangulistes parameetrites mittelineaarsed:

  • võimsus y=a x b ε
  • eksponentsiaalne y=a b x ε
  • eksponentsiaalne y=e a+b x ε
Regressioonivõrrandi konstrueerimine taandatakse selle parameetrite hindamisele. Parameetrites lineaarsete regressioonide parameetrite hindamiseks kasutatakse vähimruutude meetodit (LSM). LSM võimaldab saada selliseid parameetrite hinnanguid, mille korral efektiivtunnuse y tegelike väärtuste ruutude hälvete summa teoreetilistest väärtustest y x on minimaalne, s.t.
.
Lineaarseks taandatavate lineaarsete ja mittelineaarsete võrrandite jaoks on a ja b jaoks lahendatud järgmine süsteem:

Saate kasutada sellest süsteemist tulenevaid valmis valemeid:

Uuritud nähtuste vahelise seose tihedust hinnatakse lineaarse regressiooni lineaarse paari korrelatsioonikordaja r xy (-1≤r xy ≤1) abil:

ja korrelatsiooniindeks p xy – mittelineaarse regressiooni jaoks (0≤p xy ≤1):

Konstrueeritud mudeli kvaliteedi hinnangu annab määramiskoefitsient (indeks), samuti keskmine lähendusviga.
Keskmine lähendusviga on arvutatud väärtuste keskmine kõrvalekalle tegelikest väärtustest:
.
Lubatud väärtuste piir A - mitte rohkem kui 8-10%.
Keskmine elastsustegur E näitab, mitu protsenti keskmiselt muutub tulemus y oma keskmisest väärtusest, kui tegur x muutub selle keskmisest väärtusest 1% võrra:
.

Dispersioonanalüüsi ülesanne on analüüsida sõltuva muutuja dispersiooni:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
kus ∑(y-y)² on hälvete ruudu summa;
∑(y x -y)² – regressioonist tingitud kõrvalekallete ruudu summa ("selgitatud" või "faktoriaalne");
∑(y-y x)² – hälvete ruudu jääksumma.
Regressiooniga seletatava dispersiooni osakaalu efektiivse tunnuse y summaarses dispersioonis iseloomustab määramise koefitsient (indeks) R2:

Determinatsioonikordaja on koefitsiendi või korrelatsiooniindeksi ruut.

F-test - regressioonivõrrandi kvaliteedi hindamine - seisneb hüpoteesi testimises Aga regressioonivõrrandi statistilise ebaolulisuse ja seose tiheduse näitaja kohta. Selleks võrreldakse tegelikku F-fakti ja Fisheri F-kriteeriumi väärtuste kriitilist (tabelikujulist) F-tabelit. F-faktuur määratakse ühe vabadusastme jaoks arvutatud faktoriaal- ja jääkvariatsioonide väärtuste suhtest:
,
kus n on rahvastiku ühikute arv; m on muutujate x parameetrite arv.
F tabel on kriteeriumi maksimaalne võimalik väärtus juhuslike tegurite mõjul antud vabadusastmete ja olulisuse taseme a korral. Olulisuse tase a – õige hüpoteesi tagasilükkamise tõenäosus, eeldusel, et see on tõene. Tavaliselt võetakse a väärtuseks 0,05 või 0,01.
Kui F tabel< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F on fakt, siis hüpoteesi H kohta ei lükata ümber ja tunnistatakse regressioonivõrrandi statistiline ebaolulisus, ebausaldusväärsus.
Regressiooni- ja korrelatsioonikordajate statistilise olulisuse hindamiseks arvutatakse iga näitaja Studenti t-test ja usaldusvahemikud. Esitatakse hüpotees H näitajate juhuslikkuse kohta, s.t. nende ebaolulisest erinevusest nullist. Regressiooni- ja korrelatsioonikordajate olulisuse hindamine Studenti t-testi abil viiakse läbi nende väärtuste võrdlemisel juhusliku vea suurusega:
; ; .
Lineaarse regressiooni parameetrite ja korrelatsioonikordaja juhuslikud vead määratakse valemitega:



Võrreldes t-statistika tegelikke ja kriitilisi (tabelikujulisi) väärtusi - t tabl ja t fact - aktsepteerime või lükkame tagasi hüpoteesi H o.
Fisheri F-testi ja Studenti t-statistika vahelist seost väljendab võrdsus

Kui t tabel< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t asjaolu, et hüpoteesi H umbes ei lükata tagasi ja tunnistatakse a, b või r xy moodustumise juhuslikkus.
Usaldusvahemiku arvutamiseks määrame iga näitaja piirvea D:
Δ a =t tabel m a , Δ b =t tabel m b .
Usaldusvahemike arvutamise valemid on järgmised:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γb = bΔb; γb = b-Δb; γb =b+Δb
Kui null jääb usaldusvahemiku piiridesse, s.t. Kui alumine piir on negatiivne ja ülemine piir on positiivne, siis eeldatakse, et hinnanguline parameeter on null, kuna see ei saa samaaegselt võtta nii positiivseid kui ka negatiivseid väärtusi.
Prognoositav väärtus y p määratakse, asendades vastava (prognoositava) väärtuse x p regressioonivõrrandis y x =a+b·x . Prognoosi m y x keskmine standardviga arvutatakse:
,
Kus
ja ehitatakse usaldusvahemik prognoos:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p; γ y x max=y p +Δ y p
kus Δ y x =t tabel ·m y x .

Lahenduse näide

Ülesanne number 1. Uurali piirkonna seitsme territooriumi jaoks 199X on teada kahe märgi väärtused.
Tabel 1.

Nõutud: 1. Et iseloomustada y sõltuvust x-st, arvuta järgmiste funktsioonide parameetrid:
a) lineaarne;
b) võimsus (varem on vaja läbi viia muutujate lineariseerimise protseduur, võttes mõlema osa logaritmi);
c) demonstratiivne;
d) võrdkülgne hüperbool (peate ka välja mõtlema, kuidas seda mudelit eellineariseerida).
2. Hinnake iga mudelit keskmise lähendusvea A ja Fisheri F-testi abil.

Lahendus (valik nr 1)

Lineaarse regressiooni parameetrite a ja b arvutamiseks y=a+b·x (arvutuse saab teha kalkulaatori abil).
lahendada normaalvõrrandi süsteemi suhtes A Ja b:
Algandmete põhjal arvutame ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 y2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kokku405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
kolmap väärtus (kokku/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89 + 0,35 54,9 ≈ 76,88

Regressioonivõrrand: y= 76,88 - 0,35X. Päeva keskmise tõusuga palgad 1 hõõrumise eest. toidukaupade ostmiseks tehtavate kulutuste osakaalu vähendatakse keskmiselt 0,35% punkti võrra.
Arvutage paari korrelatsiooni lineaarne koefitsient:

Suhtlemine on mõõdukas, vastupidine.
Määrame determinatsioonikoefitsiendi: r² xy =(-0,35)=0,127
Tulemuse 12,7% kõikumine on seletatav x-teguri varieerumisega. Tegelike väärtuste asendamine regressioonivõrrandis X, määrame y x teoreetilised (arvutatud) väärtused. Leiame keskmise lähendusvea A väärtuse:

Arvutatud väärtused erinevad tegelikest keskmiselt 8,1%.
Arvutame F-kriteeriumi:

Saadud väärtus viitab vajadusele nõustuda hüpoteesiga H 0 ilmnenud sõltuvuse juhuslikkuse ning võrrandi parameetrite ja ühenduse tiheduse näitaja statistilise ebaolulisuse kohta.
1b. Võimsuse mudeli y=a x b konstrueerimisele eelneb muutujate lineariseerimise protseduur. Näites tehakse lineariseerimine võrrandi mõlema poole logaritmi abil:
lg y=lg a + b lg x
Y=C+b Y
kus Y=lg(y), X=lg(x), C=lg(a).

Arvutusteks kasutame tabelis olevaid andmeid. 1.3.
Tabel 1.3

YX YX Y2 x2 y xy-y x(y-yx)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kokku12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Keskmine väärtus1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Arvutage C ja b:

C=Y -b X = 1,7605 + 0,298 1,7370 = 2,278126
Saame lineaarvõrrandi: Y=2,278-0,298 X
Pärast selle võimendamist saame: y=10 2,278 x -0,298
Asendades selles võrrandis tegelikud väärtused X, saame tulemuse teoreetilised väärtused. Nende põhjal arvutame välja näitajad: ühenduse tihedus - korrelatsiooniindeks p xy ja keskmine lähendusviga A .

Võimsuse mudeli omadused näitavad, et see kirjeldab seost mõnevõrra paremini kui lineaarfunktsioon.

1c. Eksponentkõvera y \u003d a b x võrrandi konstrueerimisele eelneb muutujate lineariseerimise protseduur, kui võetakse võrrandi mõlema osa logaritm:
lg y=lg a + x lg b
Y=C+B x
Arvutusteks kasutame tabeliandmeid.

Yx Yx Y2 x2y xy-y x(y-yx)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kokku12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
kolmap zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Regressiooniparameetrite väärtused A ja IN ulatus:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Saadakse lineaarvõrrand: Y=1,887-0,0023x. Potentseerime saadud võrrandit ja kirjutame selle tavalisel kujul:
y x = 10 1,887 10 -0,0023 x = 77,1 0,9947 x
Hindame seose tihedust korrelatsiooniindeksi p xy kaudu:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Kokku405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Keskmine väärtus57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

1. Esimest korda võttis mõiste "regressioon" kasutusele biomeetria rajaja F. Galton (XIX sajand), kelle ideed töötas välja tema järgija K. Pearson.

Regressioonanalüüs- statistilise andmetöötluse meetod, mis võimaldab mõõta seost ühe või mitme põhjuse (faktoriaalsed tunnused) ja tagajärje (efektiivne märk) vahel.

märk- see on uuritava nähtuse või protsessi peamine eristav tunnus, tunnus.

Tõhus märk - uuritud näitaja.

Faktori märk- indikaator, mis mõjutab efektiivse tunnuse väärtust.

Regressioonanalüüsi eesmärk on hinnata efektiivse tunnuse keskmise väärtuse funktsionaalset sõltuvust ( juures) faktoriaalist ( x 1, x 2, ..., x n), väljendatud kujul regressioonivõrrandid

juures= f(x 1, x 2, ..., x n). (6.1)

Regressiooni on kahte tüüpi: paaris- ja mitmekordne.

Paaris (lihtne) regressioon- vormi võrrand:

juures= f(x). (6.2)

Paaripõhises regressioonis saadud tunnust käsitletakse ühe argumendi funktsioonina, s.o. üks tegur.

Regressioonianalüüs sisaldab järgmisi samme:

funktsiooni tüübi määratlus;

regressioonikordajate määramine;

Efektiivse tunnuse teoreetiliste väärtuste arvutamine;

Regressioonikordajate statistilise olulisuse kontrollimine;

Regressioonivõrrandi statistilise olulisuse kontrollimine.

Mitmekordne regressioon- vormi võrrand:

juures= f(x 1, x 2, ..., x n). (6.3)

Tulemuslikku tunnust käsitletakse mitme argumendi funktsioonina, s.t. palju tegureid.

2. Funktsiooni tüübi õigeks määramiseks on vaja teoreetiliste andmete põhjal leida ühenduse suund.

Ühenduse suuna järgi jaguneb regressioon järgmisteks osadeks:

· otsene regressioon, mis tekib tingimusel, et sõltumatu väärtuse suurenemise või vähenemisega " X" sõltuva suuruse väärtused" kell" ka vastavalt suurendada või vähendada;

· vastupidine regressioon, mis tekib tingimusel, et sõltumatu väärtuse suurenemisel või vähenemisel "X" sõltuv väärtus" kell" väheneb või suureneb vastavalt.

Seoste iseloomustamiseks kasutatakse järgmist tüüpi paaris regressioonivõrrandeid:

· y=a+bxlineaarne;

· y=e ax + b – eksponentsiaalne;

· y=a+b/x – hüperboolne;

· y=a+b 1 x+b 2 x 2 – paraboolne;

· y=ab x – eksponentsiaalne ja jne.

Kus a, b 1, b 2- võrrandi koefitsiendid (parameetrid); juures- tõhus märk; X- teguri märk.

3. Regressioonivõrrandi konstrueerimine taandatakse selle koefitsientide (parameetrite) hindamiseks, selleks kasutatakse vähima ruudu meetod(MNK).

Vähimruutude meetod võimaldab teil saada selliseid parameetrite hinnanguid, milles on efektiivse tunnuse tegelike väärtuste ruutude hälvete summa " juures"teoreetilisest" y x» on minimaalne, st

Regressioonivõrrandi valikud y=a+bx Vähimruutude meetodi abil hinnatakse valemite abil:

Kus A - vaba koefitsient, b- regressioonikordaja, näitab, kui palju resultantmärk muutub y» faktoriatribuudi muutmisel « x» mõõtühiku kohta.

4. Regressioonikordajate statistilise olulisuse hindamiseks kasutatakse Studenti t-testi.

Regressioonikordajate olulisuse kontrollimise skeem:

1) H 0: a=0, b=0 - regressioonikoefitsiendid erinevad nullist ebaoluliselt.

H 1: a≠ 0, b≠ 0 – regressioonikoefitsiendid erinevad oluliselt nullist.

2) R=0,05 – olulisuse tase.

Kus m b,m a- juhuslikud vead:

; . (6.7)

4) t laud(R; f),

Kus f=n-k- 1 - vabadusastmete arv (tabeli väärtus), n- vaatluste arv, k X".

5) Kui , siis hälbib, s.o. oluline koefitsient.

Kui , siis on aktsepteeritud, s.o. koefitsient on ebaoluline.

5. Konstrueeritud regressioonivõrrandi õigsuse kontrollimiseks kasutatakse Fisheri kriteeriumi.

Regressioonivõrrandi olulisuse kontrollimise skeem:

1) H 0: regressioonivõrrand ei ole oluline.

H 1: regressioonivõrrand on oluline.

2) R=0,05 – olulisuse tase.

3) , (6.8)

kus on vaatluste arv; k- parameetrite arv muutujatega võrrandis " X"; juures- efektiivse tunnuse tegelik väärtus; y x- efektiivtunnuse teoreetiline väärtus; - paari korrelatsiooni koefitsient.

4) F tabel(R; f1; f2),

Kus f 1 \u003d k, f 2 \u003d n-k-1- vabadusastmete arv (tabeliväärtused).

5) Kui F arvutus >F tabel, siis on regressioonivõrrand õigesti valitud ja seda saab praktikas rakendada.

Kui F arvut , siis on regressioonivõrrand valesti valitud.

6. Regressioonanalüüsi kvaliteedi mõõtmise põhinäitaja on määramiskoefitsient (R 2).

Määramiskoefitsient näitab, milline osa sõltuvast muutujast " juures» võetakse analüüsis arvesse ja on põhjustatud analüüsis kaasatud tegurite mõjust.

Määramiskoefitsient (R2) võtab väärtused vahemikus . Regressioonivõrrand on kvalitatiivne, kui R2 ≥0,8.

Determinatsioonikordaja on võrdne korrelatsioonikordaja ruuduga, s.o.

Näide 6.1. Koostage ja analüüsige regressioonivõrrand järgmiste andmete põhjal:

Lahendus.

1) Arvutage korrelatsioonikordaja: . Märkide suhe on otsene ja mõõdukas.

2) Koostage paaris lineaarse regressiooni võrrand.

2.1) Koostage arvutuste tabel.

X juures Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Summa 159,45 558,55
Keskmine 77519,6 22,78 79,79 2990,6

,

Paaritud lineaarse regressiooni võrrand: y x \u003d 25,17 + 0,087x.

3) Leidke teoreetilised väärtused " y x» asendades tegelikud väärtused regressioonivõrrandis « X».

4) Joonistage tegelike " kell" ja teoreetilised väärtused" y x» efektiivne tunnus (joonis 6.1): r xy =0,47) ja väike hulk vaatlusi.

7) Arvutage määramiskoefitsient: R2=(0,47)2 =0,22. Konstrueeritud võrrand on halva kvaliteediga.

Sest arvutused regressioonanalüüsi ajal on üsna mahukad, soovitatav on kasutada spetsiaalseid programme ("Statistica 10", SPSS jne).

Joonisel 6.2 on tabel programmi "Statistica 10" abil tehtud regressioonanalüüsi tulemustega.

Joonis 6.2. Programmi "Statistica 10" abil tehtud regressioonanalüüsi tulemused

5. Kirjandus:

1. Gmurman V.E. Tõenäosusteooria ja matemaatiline statistika: Proc. käsiraamat ülikoolidele / V.E. Gmurman. - M.: Kõrgkool, 2003. - 479 lk.

2. Koichubekov B.K. Biostatistika: õpik. - Almatõ: Evero, 2014. - 154 lk.

3. Lobotskaja N.L. Kõrgem matemaatika. / N.L. Lobotskaja, Yu.V. Morozov, A.A. Dunaev. - Minsk: Kõrgkool, 1987. - 319 lk.

4. Medic V.A., Tokmachev M.S., Fishman B.B. Meditsiini ja bioloogia statistika: juhend. 2 köites / Toim. Yu.M. Komarov. T. 1. Teoreetiline statistika. - M.: Meditsiin, 2000. - 412 lk.

5. Statistilise analüüsi meetodite rakendamine rahvatervise ja tervishoiu uurimisel: õpik / toim. Kucherenko V.Z. - 4. väljaanne, muudetud. ja täiendav - M.: GEOTAR - Meedia, 2011. - 256 lk.

Pärast seda, kui korrelatsioonianalüüs on avastanud statistiliste seoste olemasolu muutujate vahel ja hinnanud nende läheduse astet, jätkatakse tavaliselt teatud tüüpi sõltuvuse matemaatilise kirjeldamisega regressioonanalüüsi abil. Selleks valitakse funktsioonide klass, mis seob efektiivse indikaatori y ja valitakse argumendid x 1, x 2, ..., x kõige informatiivsemate argumentidega, arvutatakse lingi võrrandi parameetrite tundmatute väärtuste hinnangud ja analüüsitakse saadud võrrandi omadusi.

Funktsiooni f (x 1, x 2, ..., x k), mis kirjeldab efektiivse tunnuse y keskmise väärtuse sõltuvust argumentide antud väärtustest, nimetatakse regressioonifunktsiooniks (võrrandiks). Mõiste "regressioon" (lat. - regressioon - taandumine, millegi juurde tagasi pöördumine) võttis kasutusele inglise psühholoog ja antropoloog F. Galton ning see on seotud eranditult ühe esimese konkreetse näite spetsiifikaga, milles seda mõistet kasutati. Niisiis, töödeldes statistilisi andmeid seoses kasvu pärilikkuse analüüsiga, leidis F. Galton, et kui isad kalduvad kõigi isade keskmisest pikkusest kõrvale x tolli, siis nende pojad kalduvad kõrvale kõigi poegade keskmisest pikkusest vähem kui x tolli võrra. Ilmunud suundumust nimetati "taandarenguks keskmisesse olekusse". Sellest ajast alates on terminit "regressioon" statistikakirjanduses laialdaselt kasutatud, kuigi paljudel juhtudel ei iseloomusta see statistilise sõltuvuse mõistet täpselt.

Regressioonivõrrandi täpseks kirjeldamiseks on vaja teada efektiivse näitaja y jaotusseadust. Statistilises praktikas tuleb tavaliselt piirduda sobivate lähenduste otsimisega tundmatu tõelise regressioonifunktsiooni jaoks, kuna uurijal pole täpseid teadmisi analüüsitud tulemusnäitaja y tõenäosusjaotuse tingimuslikust seadusest argumendi x antud väärtuste puhul.

Vaatleme seost tõelise f(x) = M(y1x), mudeli regressiooni vahel? ja regressiooni y skoor. Olgu efektiivne näitaja y seotud argumendiga x suhtega:

kus on juhuslik muutuja tavaline seadus jaotused, kus Me = 0 ja D e = y 2 . Tõeline regressioonifunktsioon on sel juhul: f(x) = M(y/x) = 2x 1,5.

Oletame, et me ei tea tõelise regressioonivõrrandi täpset kuju, kuid meil on üheksa tähelepanekut kahemõõtmelise juhusliku suuruse kohta, mis on seotud suhtega yi = 2x1,5 + e ja mis on näidatud joonisel fig. 1

Joonis 1 – Tõe f (x) ja teoreetilise vastastikune paigutus? regressioonimudelid

Punktide asukoht joonisel fig. 1 võimaldab teil piirduda vormi lineaarsete sõltuvuste klassiga? = 0 juures + 1 x juures. Vähimruutude meetodit kasutades leiame regressioonivõrrandi y = b 0 +b 1 x hinnangu. Võrdluseks joonisel fig. 1 näitab tõelise regressioonifunktsiooni y \u003d 2x 1,5, teoreetilise lähendava regressioonifunktsiooni graafikuid? = 0 juures + 1 x juures.

Kuna tegime regressioonifunktsiooni klassi valikul vea ja see on statistilise uurimistöö praktikas üsna tavaline, siis osutuvad meie statistilised järeldused ja hinnangud ekslikeks. Ja hoolimata sellest, kui palju me vaatluste mahtu suurendame, ei ole meie valimi y hinnang tõelise regressioonifunktsiooni f(x) lähedal. Kui valisime regressioonifunktsioonide klassi õigesti, siis f (x) kirjelduse ebatäpsus kasutades? saab seletada vaid piiratud valimi suurusega.

Efektiivse näitaja y(x) ja tundmatu regressioonifunktsiooni f(x) = M(y/x) tingimusliku väärtuse parimaks taastamiseks statistilistest algandmetest kasutatakse kõige sagedamini järgmisi adekvaatsuse kriteeriume (kaofunktsioone).

Vähima ruudu meetod. Selle kohaselt on efektiivse indikaatori y (i = 1,2,..., n) vaadeldud väärtuste ruudus hälve mudeli väärtustest minimeeritud. = f(x i), kus x i on argumentide vektori väärtus i-ndas vaatluses:

Vähimmoodulite meetod. Selle kohaselt on efektiivse indikaatori vaadeldud väärtuste absoluutsete kõrvalekallete summa moodulväärtustest minimeeritud. Ja me saame = f(x i), keskmine absoluutne keskmine regressioon? |y i - f(х i)| > min.

Regressioonanalüüs on statistilise analüüsi meetod juhusliku suuruse y sõltuvuse kohta muutujatest x j = (j = 1,2, ..., k), mida regressioonanalüüsis peetakse mitte. juhuslikud muutujad, sõltumata tõelisest jaotusseadusest x j.

Tavaliselt eeldatakse, et juhuslikul suurusel y on normaaljaotuse seadus tingimusliku matemaatilise ootusega y, mis on argumentide x/ (/ = 1, 2, ..., k) funktsioon ja argumentidest sõltumatu konstandi dispersioon y 2 .

Üldiselt on regressioonanalüüsi lineaarne mudel järgmine:

Y = Y k j = 0 V j c j(x 1 , x 2 . . .. ,x k)+E

kus c j on selle muutujate x 1, x 2 mingi funktsioon. . .. ,x k , E on juhuslik suurus, mille matemaatiline ootus ja dispersioon y 2 on null.

Regressioonanalüüsis valitakse regressioonivõrrandi tüüp lähtuvalt uuritava nähtuse füüsikalisest olemusest ja vaatlustulemustest.

Regressioonivõrrandi tundmatute parameetrite hinnangud leitakse tavaliselt vähimruutude meetodil. Allpool käsitleme seda probleemi üksikasjalikumalt.

Kahemõõtmeline lineaarse regressiooni võrrand. Olgu uuritava nähtuse analüüsi põhjal oletatud, et "keskmises" y-l on lineaarne funktsioon x-st, st on olemas regressioonivõrrand

y \u003d M (y / x) \u003d 0 + 1 x juures)

kus M(y1x) on juhusliku suuruse y tingimuslik matemaatiline ootus antud x jaoks; 0 ja 1 juures – üldkogumi tundmatud parameetrid, mida tuleks hinnata valimivaatluste tulemuste põhjal.

Oletame, et parameetrite hindamiseks 0 ja 1 juures võetakse kahemõõtmelisest üldpopulatsioonist (x, y) valim suurusega n, kus (x, y,) on i-nda vaatluse tulemus (i = 1, 2,..., n). Sel juhul on regressioonanalüüsi mudelil järgmine vorm:

y j = punktis 0 + punktis 1 x+e j .

kus e j .- sõltumatud normaaljaotusega juhuslikud suurused, mille matemaatiline ootus ja dispersioon y 2 on null, st M e j . = 0;

D e j .= y 2 kõigi i = 1, 2,..., n korral.

Vähimruutude meetodi kohaselt tuleks tundmatute parameetrite hinnangutena 0 ja 1 juures võtta sellised valimi karakteristikute väärtused b 0 ja b 1, mis minimeerivad efektiivse tunnuse y i väärtuste ruutude hälbete summat tingimuslikust. matemaatiline ootus? i

Vaatleme metoodikat turundustunnuste mõju määramiseks ettevõtte kasumile seitsmeteistkümne tüüpilise keskmise suuruse ja majandustegevuse näitajatega ettevõtte näitel.

Probleemi lahendamisel võeti arvesse järgmisi tunnuseid, mis tunnistati ankeetküsitluse tulemusena kõige olulisemaks (olulisemaks):

* ettevõtte uuendustegevus;

* tootevaliku planeerimine;

* hinnapoliitika kujundamine;

* avalikud suhted;

* turundussüsteem;

* töötajate motivatsioonisüsteem.

Faktorite võrdlussüsteemi põhjal koostati ruudukujulised külgnemismaatriksid, milles arvutati iga teguri suhteliste prioriteetide väärtused: ettevõtte uuendustegevus, tootevaliku planeerimine, hinnapoliitika, reklaam, suhtekorraldus, müügisüsteem, töötajate motivatsioonisüsteem.

Faktori "suhted avalikkusega" prioriteetide hinnangud saadi ettevõtte spetsialistide küsitluse tulemusena. Aktsepteeritakse järgmisi nimetusi: > (parem), > (parem või sama), = (võrdne),< (хуже или одинаково), <

Järgmisena lahendati ettevõtte turundustaseme tervikliku hindamise probleem. Näitaja arvutamisel tehti kindlaks vaadeldavate tunnuste olulisus (kaal) ja lahendati konkreetsete näitajate lineaarse konvolutsiooni probleem. Andmetöötlus viidi läbi spetsiaalselt välja töötatud programmide järgi.

Järgmisena arvutatakse ettevõtte turunduse taseme terviklik hinnang - turunduskoefitsient, mis kantakse tabelisse 1. Lisaks on ülaltoodud tabelis toodud ettevõtet kui tervikut iseloomustavad näitajad. Tabelis olevaid andmeid kasutatakse regressioonianalüüsiks. Tulemuseks on kasum. Koos turunduskoefitsiendiga kasutati tegurimärkidena järgmisi näitajaid: kogutoodangu maht, põhivara maksumus, töötajate arv, spetsialiseerumiskoefitsient.

Tabel 1 – algandmed regressioonanalüüsiks


Tabeli andmete ja kõige olulisemate korrelatsioonikoefitsientide väärtustega tegurite põhjal koostati kasumi teguritest sõltumise regressioonifunktsioonid.

Meie puhul on regressioonivõrrand järgmine:

Regressioonivõrrandi koefitsiendid räägivad eespool käsitletud tegurite kvantitatiivsest mõjust kasumi suurusele. Need näitavad, mitu tuhat rubla selle väärtus muutub, kui tegurimärk muutub ühe ühiku võrra. Nagu võrrandist järeldub, suurendab turundusmiksi suhte suurendamine ühe ühiku võrra kasumit 1547,7 tuhande rubla võrra. See viitab sellele, et turundustegevuse parandamisel on suur potentsiaal ettevõtete majandustulemuste parandamiseks.

Turunduse efektiivsuse uuringus on kõige huvitavam ja olulisem tegur X5 tegur - turunduskoefitsient. Vastavalt statistika teooriale on olemasoleva mitme regressiooni võrrandi eeliseks võimalus hinnata iga teguri, sealhulgas turundusteguri isoleeritud mõju.

Ka tehtud regressioonanalüüsi tulemusi kasutatakse laiemalt kui võrrandi parameetrite arvutamisel. Ettevõtete (Kef,) suhteliselt paremaks või suhteliselt halvemaks liigitamise kriteerium põhineb tulemuse suhtelisel näitajal:

kus Y facti on i-nda ettevõtte tegelik väärtus, tuhat rubla;

Y arvutatud - i-nda ettevõtte kasumi väärtus, mis saadakse arvutamisel vastavalt regressioonivõrrandile

Lahendatava probleemi osas nimetatakse väärtust "efektiivsuse teguriks". Ettevõtte tegevust võib pidada tulemuslikuks juhtudel, kui koefitsiendi väärtus on suurem kui üks. See tähendab, et tegelik kasum on suurem kui valimi keskmine kasum.

Tegelikud ja arvestuslikud kasumi väärtused on toodud tabelis. 2.

Tabel 2 – regressioonimudeli efektiivse tunnuse analüüs

Tabeli analüüs näitab, et meie puhul võib ettevõtete 3, 5, 7, 9, 12, 14, 15, 17 tegevust vaadeldaval perioodil lugeda edukaks.

Regressioonanalüüsi põhijooneks on see, et selle abil on võimalik saada konkreetset teavet uuritavate muutujate vahelise seose vormi ja olemuse kohta.

Regressioonanalüüsi etappide järjestus

Vaatleme lühidalt regressioonanalüüsi etappe.

    Ülesande formuleerimine. Selles etapis moodustatakse esialgsed hüpoteesid uuritud nähtuste sõltuvuse kohta.

    Sõltuvate ja sõltumatute (selgitavate) muutujate defineerimine.

    Statistiliste andmete kogumine. Andmeid tuleb koguda iga regressioonimudelis sisalduva muutuja kohta.

    Hüpoteesi püstitamine seose vormi kohta (lihtne või mitmekordne, lineaarne või mittelineaarne).

    Definitsioon regressioonifunktsioonid (koosneb regressioonivõrrandi parameetrite arvväärtuste arvutamisest)

    Regressioonanalüüsi täpsuse hindamine.

    Saadud tulemuste tõlgendamine. Regressioonanalüüsi tulemusi võrreldakse esialgsete hüpoteesidega. Hinnatakse saadud tulemuste õigsust ja usutavust.

    Sõltuva muutuja tundmatute väärtuste ennustamine.

Regressioonanalüüsi abil on võimalik lahendada prognoosimise ja klassifitseerimise probleem. Ennustavad väärtused arvutatakse seletavate muutujate väärtuste asendamisega regressioonivõrrandisse. Klassifitseerimisülesanne lahendatakse nii: regressioonisirge jagab kogu objektide komplekti kahte klassi ning see osa hulgast, kus funktsiooni väärtus on suurem kui null, kuulub ühte klassi ning see osa, kus see on nullist väiksem, kuulub teise klassi.

Regressioonanalüüsi ülesanded

Mõelge regressioonanalüüsi peamistele ülesannetele: sõltuvuse vormi kindlaksmääramine, määramine regressioonifunktsioonid, sõltuva muutuja tundmatute väärtuste hinnang.

Sõltuvuse vormi tuvastamine.

Muutujate vahelise seose olemus ja vorm võivad moodustada järgmist tüüpi regressiooni:

    positiivne lineaarne regressioon (väljendatud funktsiooni ühtlase kasvuna);

    positiivne ühtlaselt kiirenev regressioon;

    positiivne ühtlaselt kasvav regressioon;

    negatiivne lineaarne regressioon (väljendatud funktsiooni ühtlase langusena);

    negatiivne ühtlaselt kiirendatud kahanev regressioon;

    negatiivne ühtlaselt kahanev regressioon.

Kirjeldatud sorte ei leidu aga enamasti puhtal kujul, vaid omavahel kombineerituna. Sel juhul räägitakse regressiooni kombineeritud vormidest.

Regressioonifunktsiooni definitsioon.

Teiseks ülesandeks on välja selgitada peamiste tegurite või põhjuste mõju sõltuvale muutujale, kui kõik muud asjad on võrdsed ja välistatakse mõju juhuslike elementide sõltuvale muutujale. regressioonifunktsioon defineeritud kui üht või teist tüüpi matemaatiline võrrand.

Sõltuva muutuja tundmatute väärtuste hindamine.

Selle probleemi lahendus on taandatud ühe järgmist tüüpi probleemi lahendamiseks:

    Sõltuva muutuja väärtuste hindamine algandmete vaadeldavas intervallis, s.o. puuduvad väärtused; see lahendab interpoleerimise probleemi.

    Sõltuva muutuja tulevikuväärtuste hindamine, s.o. väärtuste leidmine väljaspool algandmete antud intervalli; see lahendab ekstrapoleerimise probleemi.

Mõlemad probleemid lahendatakse sõltumatute muutujate väärtuste parameetrite leitud hinnangute asendamisega regressioonivõrrandisse. Võrrandi lahendamise tulemuseks on siht- (sõltuva) muutuja väärtuse hinnang.

Vaatame mõningaid eeldusi, millele regressioonanalüüs tugineb.

Lineaarsuse eeldus, st. eeldatakse, et vaadeldavate muutujate vaheline seos on lineaarne. Nii et selles näites koostasime hajuvusdiagrammi ja nägime selget lineaarset seost. Kui muutujate hajuvusdiagrammil näeme lineaarse seose selget puudumist, s.t. on olemas mittelineaarne seos, tuleks kasutada mittelineaarseid analüüsimeetodeid.

Normaalsuse eeldus ülejäägid. See eeldab, et prognoositud ja vaadeldud väärtuste erinevuse jaotus on normaalne. Jaotuse olemuse visuaalseks määramiseks võite kasutada histogramme ülejäägid.

Regressioonanalüüsi kasutamisel tuleks arvesse võtta selle peamist piirangut. See seisneb selles, et regressioonanalüüs võimaldab tuvastada ainult sõltuvusi, mitte aga nende sõltuvuste aluseks olevaid seoseid.

Regressioonanalüüs võimaldab hinnata muutujate seose astet, arvutades mitme teadaoleva väärtuse põhjal muutuja eeldatava väärtuse.

Regressioonivõrrand.

Regressioonivõrrand näeb välja selline: Y=a+b*X

Seda võrrandit kasutades väljendatakse muutujat Y konstandi a ja sirge (või kalde) b kalde korrutamisel muutuja X väärtusega. Konstanti a nimetatakse ka lõikepunktiks ja kalle on regressioonikordaja ehk B-tegur.

Enamikul juhtudel (kui mitte alati) esineb regressioonijoone kohta teatud vaatluste hajumine.

Ülejäänud on üksiku punkti (vaatluse) kõrvalekalle regressioonijoonest (ennustusväärtus).

Regressioonanalüüsi ülesande lahendamiseks MS Excelis vali menüüst Teenindus"Analüüsipakett" ja regressioonianalüüsi tööriist. Määrake sisestusintervallid X ja Y. Y sisendintervall on analüüsitavate sõltuvate andmete vahemik ja see peab sisaldama ühte veergu. Sisestusintervall X on analüüsitavate sõltumatute andmete vahemik. Sisestusvahemike arv ei tohi ületada 16.

Protseduuri väljundis väljundvahemikus saame aruande, mis on antud tabel 8.3a-8,3 V.

TULEMUSED

Tabel 8.3a. Regressioonistatistika

Regressioonistatistika

Mitu R

R-ruut

Normaliseeritud R-ruut

standardviga

Tähelepanekud

Esiteks kaaluge esitatud arvutuste ülemist osa tabel 8.3a, - regressioonistatistika.

Väärtus R-ruut, mida nimetatakse ka kindluse mõõduks, iseloomustab saadud regressioonijoone kvaliteeti. Seda kvaliteeti väljendab algandmete ja regressioonimudeli (arvutatud andmete) vastavuse määr. Kindluse mõõt on alati intervalli sees.

Enamasti väärtus R-ruut on nende väärtuste vahel, mida nimetatakse äärmuslikuks, s.o. nulli ja ühe vahel.

Kui väärtus R-ruutühtsuse lähedal, tähendab see, et konstrueeritud mudel selgitab peaaegu kogu vastavate muutujate varieeruvuse. Vastupidi, väärtus R-ruut, nullilähedane, tähendab konstrueeritud mudeli halba kvaliteeti.

Meie näites on kindluse mõõduks 0,99673, mis näitab regressioonijoone väga head sobivust algandmetega.

mitmus R - mitmikkorrelatsiooni koefitsient R - väljendab sõltumatute muutujate (X) ja sõltuva muutuja (Y) sõltuvusastet.

Mitu R võrdne määramiskoefitsiendi ruutjuurega, võtab see väärtus väärtusi vahemikus nullist üheni.

Lihtsa lineaarse regressiooni analüüsiga mitmus R võrdne Pearsoni korrelatsioonikordajaga. Tõesti, mitmus R meie puhul on see võrdne eelmise näite Pearsoni korrelatsioonikordajaga (0,998364).

Tabel 8.3b. Regressioonikoefitsiendid

Koefitsiendid

standardviga

t-statistika

Y-ristmik

Muutuja X 1

* Esitatakse arvutuste kärbitud versioon

Nüüd kaaluge esitatud arvutuste keskmist osa tabel 8.3b. Siin on antud regressioonikordaja b (2,305454545) ja nihe piki y-telge, s.o. konstant a (2,694545455).

Arvutuste põhjal saame regressioonivõrrandi kirjutada järgmiselt:

Y= x*2,305454545+2,694545455

Muutujate vahelise seose suund määratakse regressioonikordajate (koefitsient b) märkide (negatiivsete või positiivsete) põhjal.

Kui regressioonikordaja märk on positiivne, on seos sõltuva muutuja ja sõltumatu muutuja vahel positiivne. Meie puhul on regressioonikordaja märk positiivne, järelikult on ka seos positiivne.

Kui regressioonikordaja märk on negatiivne, on sõltuva muutuja ja sõltumatu muutuja vaheline seos negatiivne (pöördvõrdeline).

IN tabel 8.3c. esitatakse väljundtulemused ülejäägid. Nende tulemuste aruandes kuvamiseks on vaja "Regressiooni" tööriista käivitamisel aktiveerida märkeruut "Jääkud".

JÄÄB VÄLJAVÕTE

Tabel 8.3c. Jäänused

Vaatlus

Ennustas Y

Jäänused

Standardsaldod

Aruande seda osa kasutades näeme iga punkti kõrvalekaldeid konstrueeritud regressioonijoonest. Suurim absoluutväärtus ülejäänud osa meie puhul - 0,778, väikseim - 0,043. Nende andmete paremaks tõlgendamiseks kasutame algandmete graafikut ja konstrueeritud regressioonijoont, mis on esitatud joonisel fig. riis. 8.3. Nagu näete, on regressioonijoon üsna täpselt "sobitatud" algandmete väärtustega.

Tuleb arvestada, et vaadeldav näide on üsna lihtne ja lineaarset regressioonisirget pole kaugeltki alati võimalik kvalitatiivselt konstrueerida.

Riis. 8.3. Algandmed ja regressioonisirge

Arvestamata jäi sõltumatu muutuja teadaolevate väärtuste põhjal sõltuva muutuja teadmata tulevikuväärtuste hindamise probleem, s.t. prognoosimisülesanne.

Regressioonivõrrandi kasutamisel taandatakse prognoosimisülesanne võrrandi Y= x*2,305454545+2,694545455 lahendamiseks teadaolevate väärtustega x. Esitatakse sõltuva muutuja Y kuus sammu ette ennustamise tulemused tabelis 8.4.

Tabel 8.4. Y muutuja prognoosi tulemused

Y (ennustuslik)

Seega Microsoft Exceli paketis regressioonanalüüsi kasutamise tulemusena:

    koostas regressioonivõrrandi;

    kehtestas sõltuvuse vormi ja muutujatevahelise seose suuna - positiivne lineaarne regressioon, mis väljendub funktsiooni ühtlases kasvus;

    kehtestas muutujatevahelise seose suuna;

    hindas saadud regressioonisirge kvaliteeti;

    oskasid näha arvutuslike andmete kõrvalekaldeid algkogumi andmetest;

    ennustas sõltuva muutuja tulevasi väärtusi.

Kui regressioonifunktsioon on defineeritud, tõlgendatud ja põhjendatud ning regressioonanalüüsi täpsuse hinnang vastab nõuetele, võib eeldada, et konstrueeritud mudel ja prognoositavad väärtused on piisavalt usaldusväärsed.

Sel viisil saadud prognoositud väärtused on keskmised väärtused, mida võib oodata.

Selles artiklis vaatlesime peamisi omadusi kirjeldav statistika ja nende hulgas sellised mõisted nagu keskmine väärtus,mediaan,maksimaalselt,miinimum ja muud andmete varieerumise omadused.

Samuti arutati lühidalt kontseptsiooni heitkogused. Vaadeldavad tunnused viitavad nn uurimuslikule andmeanalüüsile, selle järeldused ei pruugi kehtida üldkogumile, vaid ainult andmevalimile. Uurimuslikku andmeanalüüsi kasutatakse esmaste järelduste tegemiseks ja populatsiooni kohta hüpoteeside kujundamiseks.

Samuti käsitleti korrelatsioon- ja regressioonanalüüsi aluseid, nende ülesandeid ja praktilise kasutusvõimalusi.