Kuidas teha regressioonanalüüsi. Regressioonanalüüs on statistiline meetod juhusliku suuruse sõltuvuse uurimiseks muutujatest. Lahendus Exceli tabeli abil

Regressioon- ja korrelatsioonanalüüs – statistilised uurimismeetodid. Need on kõige levinumad viisid, kuidas näidata parameetri sõltuvust ühest või mitmest sõltumatust muutujast.

Allpool konkreetselt praktilisi näiteid Vaatleme neid kahte majandusteadlaste seas väga populaarset analüüsi. Toome ka näite tulemuste saamisest nende kombineerimisel.

Regressioonianalüüs Excelis

Näitab mõne väärtuse (sõltumatu, sõltumatu) mõju sõltuvale muutujale. Näiteks kuidas sõltub majanduslikult aktiivse elanikkonna arv ettevõtete arvust, väärtusest palgad ja muud parameetrid. Või: kuidas mõjutavad SKT taset välisinvesteeringud, energiahinnad jne.

Analüüsi tulemus võimaldab seada prioriteedid. Ja põhiteguritest lähtuvalt prognoosida, planeerida prioriteetsete valdkondade arengut, teha juhtimisotsuseid.

Regressioon toimub:

  • lineaarne (y = a + bx);
  • paraboolne (y = a + bx + cx 2);
  • eksponentsiaalne (y = a * exp(bx));
  • võimsus (y = a*x^b);
  • hüperboolne (y = b/x + a);
  • logaritmiline (y = b * 1n(x) + a);
  • eksponentsiaalne (y = a * b^x).

Vaatleme Excelis regressioonimudeli loomise ja tulemuste tõlgendamise näidet. Võtame lineaarne tüüp regressioon.

Ülesanne. 6 ettevõttes analüüsiti keskmist kuupalka ja lahkunud töötajate arvu. Vajalik on määrata pensionile jäävate töötajate arvu sõltuvus keskmisest palgast.

Lineaarse regressiooni mudelil on järgmine vorm:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Kus a on regressioonikoefitsiendid, x on mõjutavad muutujad ja k on tegurite arv.

Meie näites on Y tööst lahkunud töötajate näitaja. Mõjuteguriks on palk (x).

Excelis on sisseehitatud funktsioonid, mille abil saab arvutada lineaarse regressioonimudeli parameetreid. Kuid lisandmoodul Analysis ToolPak teeb seda kiiremini.

Aktiveerige võimas analüütiline tööriist:

Pärast aktiveerimist on lisandmoodul saadaval vahekaardil Andmed.

Nüüd tegeleme otse regressioonanalüüsiga.



Kõigepealt pöörame tähelepanu R-ruudule ja koefitsientidele.

R-ruut on määramistegur. Meie näites on see 0,755 ehk 75,5%. See tähendab, et mudeli arvutuslikud parameetrid selgitavad uuritud parameetrite vahelist seost 75,5% võrra. Mida suurem on determinatsioonikoefitsient, seda parem on mudel. Hea – üle 0,8. Kehv - alla 0,5 (sellist analüüsi vaevalt saab mõistlikuks pidada). Meie näites - "pole paha".

Koefitsient 64,1428 näitab, milline on Y, kui kõik muutujad vaadeldavas mudelis on võrdsed 0-ga. See tähendab, et analüüsitava parameetri väärtust mõjutavad ka muud tegurid, mida mudelis ei kirjeldata.

Koefitsient -0,16285 näitab muutuja X osakaalu Y-s. See tähendab, et selle mudeli keskmine kuupalk mõjutab loobujate arvu kaaluga -0,16285 (see on väike mõju). Märk "-" näitab halb mõju: mida kõrgem palk, seda vähem loobub. Mis on õiglane.



Korrelatsioonianalüüs Excelis

Korrelatsioonianalüüs aitab kindlaks teha, kas ühe või kahe valimi näitajate vahel on seos. Näiteks masina tööaja ja remondi maksumuse, seadmete hinna ja töötamise kestuse, laste pikkuse ja kaalu vahel jne.

Kui seos on olemas, siis kas ühe parameetri tõus toob kaasa teise parameetri tõusu (positiivne korrelatsioon) või languse (negatiivne). Korrelatsioonianalüüs aitab analüütikul kindlaks teha, kas ühe näitaja väärtust saab kasutada teise võimaliku väärtuse ennustamiseks.

Korrelatsioonikordaja on tähistatud r. Varieerub vahemikus +1 kuni -1. Erinevate valdkondade korrelatsioonide klassifikatsioon on erinev. Koefitsiendi väärtusega 0 lineaarne sõltuvus ei eksisteeri proovide vahel.

Mõelge, kuidas korrelatsioonikordaja leidmiseks kasutada Excelit.

Paariskoefitsientide leidmiseks kasutatakse funktsiooni CORREL.

Ülesanne: Tehke kindlaks, kas treipingi tööaja ja selle hoolduskulude vahel on seos.

Asetage kursor mis tahes lahtrisse ja vajutage nuppu fx.

  1. Kategoorias "Statistika" valige funktsioon CORREL.
  2. Argument "Massiiv 1" - esimene väärtuste vahemik - masina aeg: A2: A14.
  3. Argument "Array 2" - teine ​​väärtuste vahemik - remondikulud: B2:B14. Klõpsake nuppu OK.

Ühenduse tüübi määramiseks peate vaatama koefitsiendi absoluutarvu (igal tegevusalal on oma skaala).

Mitme parameetri (rohkem kui 2) korrelatsioonianalüüsiks on mugavam kasutada "Andmeanalüüsi" (lisand "Analysis Package"). Loendis peate valima korrelatsiooni ja määrama massiivi. Kõik.

Saadud koefitsiendid kuvatakse korrelatsioonimaatriksis. Nagu see:

Korrelatsioon-regressioonanalüüs

Praktikas kasutatakse neid kahte tehnikat sageli koos.

Näide:


Andmed on nüüd nähtavad regressioonianalüüs.

Kaasaegne politoloogia lähtub positsioonist kõigi ühiskonnas toimuvate nähtuste ja protsesside seoste kohta. Pole võimalik mõista sündmusi ja protsesse, ennustada ja juhtida poliitilise elu nähtusi, uurimata ühiskonna poliitilises sfääris eksisteerivaid seoseid ja sõltuvusi. Poliitikauuringute üks levinumaid ülesandeid on uurida seoseid mõne vaadeldava muutuja vahel. Aitab seda probleemi lahendada terve klass statistilisi analüüsimeetodeid kombineerituna üldnimetus"regressioonanalüüs" (või, nagu seda nimetatakse ka "korrelatsioon-regressioonanalüüs"). Kui aga korrelatsioonianalüüs võimaldab hinnata kahe muutuja vahelise seose tugevust, siis regressioonanalüüsi abil on võimalik määrata selle seose tüüp, ennustada mis tahes muutuja väärtuse sõltuvust mõne teise muutuja väärtusest. .

Kõigepealt meenutagem, mis on korrelatsioon. Korrelatiivne nimetatakse statistilise seose kõige olulisemaks erijuhtumiks, mis seisneb selles, et ühe muutuja võrdsed väärtused vastavad erinevatele keskmised väärtused teine. Atribuudi x väärtuse muutumisel muutub loomulikult atribuudi y keskmine väärtus, samas kui igal üksikjuhul atribuudi väärtus juures(erineva tõenäosusega) võib võtta palju erinevaid väärtusi.

Mõiste "korrelatsioon" ilmumine statistikas (ja politoloogia meelitab oma probleemide lahendamiseks statistika saavutusi, mis on seega politoloogiaga seotud distsipliin) on seotud inglise bioloogi ja statistiku Francis Galtoni nimega, kes tegi ettepaneku 19. sajandil. teoreetiline alus korrelatsiooni- ja regressioonianalüüs. Mõiste "korrelatsioon" oli teaduses tuntud juba varem. Eelkõige paleontoloogias 18. sajandil. seda rakendas prantsuse teadlane Georges Cuvier. Ta tutvustas nn korrelatsiooniseadust, mille abil oli väljakaevamistel leitud loomade jäänuste järgi võimalik taastada nende välimus.

Selle teadlase nime ja tema korrelatsiooniseadusega on seotud tuntud lugu. Nii tõmbasid tudengid, kes otsustasid kuulsale professorile vingerpussi mängida, ülikoolivahepäevadel ühe õpilase peale sarvede ja kabjadega kitsenaha. Ta ronis Cuvier' magamistoa aknast sisse ja hüüdis: "Ma söön su ära." Professor ärkas üles, vaatas siluetti ja vastas: “Kui sul on sarved ja kabjad, siis oled rohusööja ega saa mind ära süüa. Ja korrelatsiooniseaduse mittetundmise eest saate kahekohalise. Ta pöördus ümber ja jäi magama. Nali on nali, kuid selles näites näeme mitme korrelatsioon-regressioonanalüüsi kasutamise erijuhtu. Siin tuletas professor kahe vaadeldud tunnuse (sarvede ja sõrgade olemasolu) väärtuste teadmiste põhjal korrelatsiooniseadusele tuginedes kolmanda tunnuse (klass, kuhu see loom kuulub) keskmise väärtuse. on taimtoiduline). Sel juhul me ei räägi selle muutuja konkreetsest väärtusest (st see loom võib võtta erinevaid tähendusi nominaalskaalal - see võib olla kits, jäär ja pull ...).

Liigume nüüd edasi mõiste "regressioon" juurde. Rangelt võttes pole see nende tähendusega seotud statistilised ülesanded mis selle meetodi abil lahendatakse. Mõiste selgitust saab anda vaid tunnustevaheliste seoste uurimise meetodite kujunemisloo teadmiste põhjal. Üks esimesi sedalaadi uuringute näiteid oli statistikute F. Galtoni ja K. Pearsoni töö, kes püüdsid leida mustrit isade ja nende laste kasvu vahel kahe jälgitava märgi järgi (kus X- isa pikkus ja U- laste kasv). Oma uuringus kinnitasid nad esialgset hüpoteesi, et keskmiselt kasvatavad pikad isad keskmiselt pikki lapsi. Sama põhimõte kehtib ka madalate isade ja laste kohta. Kui aga teadlased oleksid seal peatunud, poleks nende töid statistikaõpikutes kunagi mainitud. Teadlased leidsid juba mainitud kinnitatud hüpoteesi raames veel ühe mustri. Nad tõestasid, et väga pikad isad toodavad lapsi, kes on keskmiselt pikad, kuid mitte väga erinevad nendest lastest, kelle isad, kuigi keskmisest kõrgemad, ei erine kuigivõrd keskmisest pikkusest. Sama kehtib ka väga väikese kasvuga isade kohta (lahknedes lühikese rühma keskmisest) - nende lapsed keskmiselt ei erinenud pikkuselt eakaaslastest, kelle isad olid lihtsalt lühikesed. Nad nimetasid seda regulaarsust kirjeldavat funktsiooni regressioonifunktsioon. Pärast seda uuringut hakati kõiki sarnaseid funktsioone kirjeldavaid ja sarnaselt konstrueeritud võrrandeid nimetama regressioonivõrranditeks.

Regressioonanalüüs on üks mitme muutujaga statistilise andmeanalüüsi meetoditest, mis ühendab statistiliste tehnikate komplekti, mis on mõeldud ühe sõltuva ja mitme (või ühe) sõltumatu muutuja vaheliste suhete uurimiseks või modelleerimiseks. Sõltuvat muutujat nimetatakse statistikas aktsepteeritud traditsiooni kohaselt vastuseks ja seda tähistatakse kui V Sõltumatuid muutujaid nimetatakse ennustajateks ja neid tähistatakse kui x. Analüüsi käigus on mõned muutujad vastusega nõrgalt seotud ja jäetakse lõpuks analüüsist välja. Ülejäänud sõltuvaga seotud muutujaid võib nimetada ka teguriteks.

Regressioonanalüüs võimaldab ennustada ühe või mitme muutuja väärtusi sõltuvalt teisest muutujast (näiteks kalduvus ebatavaliseks poliitiliseks käitumiseks sõltuvalt haridustasemest) või mitmest muutujast. Arvutatakse arvutis. Regressioonivõrrandi koostamiseks, mis võimaldab mõõta juhitava tunnuse sõltuvusastet faktoritest, on vaja kaasata professionaalsed matemaatikud-programmeerijad. Regressioonanalüüs võib pakkuda hindamatut teenust poliitilise olukorra arengu ennustavate mudelite koostamisel, sotsiaalsete pingete põhjuste hindamisel ja teoreetiliste eksperimentide läbiviimisel. Regressioonanalüüsi kasutatakse aktiivselt selleks, et uurida mitmete sotsiaaldemograafiliste parameetrite mõju kodanike valimiskäitumisele: sugu, vanus, elukutse, elukoht, rahvus, sissetuleku tase ja laad.

Seoses regressioonanalüüsiga mõisted sõltumatu Ja sõltuv muutujad. Sõltumatu muutuja on muutuja, mis selgitab või põhjustab muutusi teises muutujas. Sõltuv muutuja on muutuja, mille väärtus on seletatav esimese muutuja mõjuga. Näiteks 2004. aasta presidendivalimistel olid määravad tegurid, s.o. sõltumatuteks muutujateks olid sellised näitajad nagu riigi elanikkonna finantsolukorra stabiliseerumine, kandidaatide populaarsuse tase ja tegur ametisolekul. Sel juhul võib kandidaatidele antud häälte protsenti pidada sõltuvaks muutujaks. Samamoodi on muutujate paaris “valija vanus” ja “valimisaktiivsuse tase” esimene sõltumatu, teine ​​sõltuv.

Regressioonanalüüs võimaldab teil lahendada järgmised probleemid:

  • 1) tuvastab Ci vahelise statistiliselt olulise seose olemasolu või puudumise x;
  • 2) koostab regressioonifunktsiooni parimad (statistilises mõttes) hinnangud;
  • 3) vastavalt etteantud väärtustele X koostage ennustus tundmatu jaoks Kell
  • 4) hindab iga teguri mõju erikaalu X peal Kell ja vastavalt sellele välistada mudelist ebaolulised omadused;
  • 5) tuvastades muutujate vahelisi põhjuslikke seoseid, hallata osaliselt P väärtusi, kohandades selgitavate muutujate väärtusi x.

Regressioonanalüüsi seostatakse vajadusega valida uuritava näitaja väärtust mõjutavad vastastikku sõltumatud muutujad, määrata regressioonivõrrandi vorm ja hinnata parameetreid esmaste sotsioloogiliste andmete töötlemiseks statistiliste meetodite abil. Seda tüüpi analüüs põhineb suhte vormi, suuna ja läheduse (tiheduse) ideel. Eristama leiliruum Ja mitmekordne regressioon olenevalt uuritud tunnuste arvust. Praktikas tehakse regressioonanalüüsi tavaliselt koos korrelatsioonianalüüsiga. Regressioonivõrrand kirjeldab suuruste vahelist arvulist seost, mida väljendatakse tendentsina, et üks muutuja suureneb või väheneb, samal ajal kui teine ​​suureneb või väheneb. Samal ajal razl ja h a yut l härmatis Ja mittelineaarne regressioon. Kirjeldades poliitilised protsessid mõlemad regressioonivariandid tuvastatakse võrdselt.

Huvijoonis poliitiliste artiklite vastastikuse sõltuvuse jaotamiseks ( U) ja vastajate haridus (X) on lineaarne regressioon (joonis 30).

Riis. kolmkümmend.

Valimisaktiivsuse taseme jaotuse hajuvusskeem ( U) ja vastaja vanus (A) (tingimuslik näide) on mittelineaarne regressioon (joonis 31).


Riis. 31.

Kahe tunnuse (A "ja Y) seose kirjeldamiseks paaris regressioonimudelis kasutage lineaarvõrrand

kus a, on võrrandi vea juhuslik väärtus koos tunnuste varieerumisega, st. võrrandi kõrvalekalle "lineaarsusest".

Koefitsientide hindamiseks A Ja b kasutada vähimruutude meetodit, mis eeldab, et hajuvusdiagrammi iga punkti ruuduhälbete summa regressioonijoonest peaks olema minimaalne. Koefitsiendid a h b saab arvutada võrrandisüsteemi abil:

Vähimruutude hindamise meetod annab sellised koefitsientide hinnangud A Ja b, mille puhul sirge koordinaatidega punkti läbib X Ja y, need. on suhe juures = kirves + b. Regressioonivõrrandi graafilist esitust nimetatakse teoreetiline regressioonisirge. Lineaarse sõltuvuse korral kujutab regressioonikordaja graafikul teoreetilise regressioonisirge x-telje kalde puutujat. Koefitsiendi juures olev märk näitab ühenduse suunda. Kui see on suurem kui null, on seos otsene, kui see on väiksem, siis pöördvõrdeline.

Järgnev näide uuringust "Political Petersburg-2006" (tabel 56) näitab lineaarset seost kodanike arusaamade vahel oma eluga rahulolu tasemest olevikus ja ootuste vahel elukvaliteedi muutustele tulevikus. Seos on otsene, lineaarne (standardiseeritud regressioonikoefitsient on 0,233, olulisuse tase 0,000). Sel juhul ei ole regressioonikordaja kõrge, kuid see ületab statistiliselt olulise näitaja alampiiri (Pearsoni koefitsiendi statistiliselt olulise näitaja ruudu alumine piir).

Tabel 56

Kodanike elukvaliteedi mõju olevikus ootustele

(Peterburi, 2006)

* Sõltuv muutuja: "Kuidas teie arvates teie elu järgmise 2-3 aasta jooksul muutub?"

Poliitilises elus sõltub uuritava muutuja väärtus kõige sagedamini korraga mitmest tunnusest. Näiteks poliitilise aktiivsuse taset ja olemust mõjutavad üheaegselt riigi poliitiline režiim, poliitilised traditsioonid, inimeste poliitilise käitumise iseärasused antud piirkonnas ja vastaja sotsiaalne mikrogrupp, tema vanus, haridus, sissetulek. tase, poliitiline orientatsioon jne. Sel juhul peate kasutama võrrandit mitmekordne regressioon, millel on järgmine vorm:

kus koefitsient b.- osalise regressiooni koefitsient. See näitab iga sõltumatu muutuja panust sõltumatu (tulemuse) muutuja väärtuste määramisel. Kui osalise regressiooni koefitsient on nullilähedane, siis võime järeldada, et sõltumatute ja sõltuvate muutujate vahel otsest seost ei ole.

Sellise mudeli saab arvutada arvutis maatriksalgebra abil. Mitmekordne regressioon võimaldab kajastada sotsiaalsete sidemete mitmefaktorilist olemust ja selgitada iga teguri mõju astet individuaalselt ja kõik koos sellest tulenevale tunnusele.

Koefitsient tähistatud b, nimetatakse lineaarse regressiooni koefitsiendiks ja see näitab faktori tunnuse varieerumise vahelise seose tugevust X ja variatsioon tõhus funktsioon Y See koefitsient mõõdab seose tugevust tunnuste absoluutsetes mõõtühikutes. Tunnuste korrelatsiooni lähedust saab aga väljendada ka saadud tunnuse standardhälbe kaudu (sellist koefitsienti nimetatakse korrelatsioonikordajaks). Erinevalt regressioonikoefitsiendist b korrelatsioonikoefitsient ei sõltu tunnuste aktsepteeritud mõõtühikutest ja seetõttu on see võrreldav kõigi tunnuste puhul. Tavaliselt peetakse ühendust tugevaks, kui /> 0,7, keskmise tihedusega - 0,5 g juures 0,5.

Nagu teate, on lähim seos funktsionaalne ühendus, kui iga üksik väärtus on Y saab väärtusele unikaalselt määrata x. Seega, mida lähemal on korrelatsioonikordaja 1-le, seda lähemal on seos funktsionaalsele. Regressioonanalüüsi olulisuse tase ei tohiks ületada 0,001.

Korrelatsioonikordajat on pikka aega peetud tunnuste seose läheduse peamiseks näitajaks. Hiljem sai aga selliseks näitajaks determinatsioonikoefitsient. Selle koefitsiendi tähendus on järgmine - see peegeldab saadud tunnuse kogu dispersiooni osakaalu Kell, mis on seletatav tunnuse dispersiooniga x. See leitakse korrelatsioonikordaja lihtsalt ruudustamisel (muutub 0-lt 1-le) ja omakorda peegeldab lineaarse seose osakaalu 0-st (0%). 1 (100%) iseloomulikud väärtused jah määratud atribuudi väärtustega x. See on salvestatud kui ma 2, ja saadud regressioonanalüüsi tabelites SPSS-paketis - ilma ruuduta.

Tähistame mitmekordse regressiooni võrrandi koostamise põhiprobleeme.

  • 1. Regressioonivõrrandis sisalduvate tegurite valik. Selles etapis koostab teadlane esmalt üldise loetelu peamistest põhjustest, mis teooria kohaselt määravad uuritava nähtuse. Seejärel peab ta valima regressioonivõrrandi tunnused. Peamine valikureegel on, et analüüsi kaasatud tegurid peaksid omavahel võimalikult vähe korreleeruma; ainult sel juhul on võimalik teatud faktori-atribuudile omistada mõju kvantitatiivne mõõt.
  • 2. Mitme regressioonivõrrandi vormi valimine(praktikas kasutatakse sagedamini lineaarset või lineaarlogaritmilist). Nii et mitmekordse regressiooni kasutamiseks peab uurija kõigepealt koostama hüpoteetilise mudeli mitme sõltumatu muutuja mõjust saadud muutujale. Et saadud tulemused oleksid usaldusväärsed, on vajalik, et mudel vastaks täpselt tegelikule protsessile, s.t. muutujate vaheline seos peab olema lineaarne, tähelepanuta ei saa jätta ainsatki olulist sõltumatut muutujat, samamoodi ei saa analüüsi kaasata ühtki muutujat, mis ei ole otseselt seotud uuritava protsessiga. Lisaks peavad kõik muutujate mõõtmised olema ülitäpsed.

Ülaltoodud kirjeldusest tuleneb selle meetodi rakendamiseks mitmeid tingimusi, ilma milleta on võimatu jätkata mitmekordse regressioonanalüüsi (MRA) protseduuri. Ainult kõigi järgmiste punktide järgimine võimaldab korrektselt regressioonianalüüsi läbi viia.

Õpingute ajal puutuvad õpilased väga sageli kokku mitmesuguste võrranditega. Ühte neist - regressioonivõrrandit - käsitletakse käesolevas artiklis. Seda tüüpi võrrandit kasutatakse spetsiaalselt matemaatiliste parameetrite vahelise seose omaduste kirjeldamiseks. Seda tüüpi võrdsust kasutatakse statistikas ja ökonomeetrias.

Regressiooni definitsioon

Matemaatikas mõistetakse regressiooni kui teatud suurust, mis kirjeldab andmekogumi keskmise väärtuse sõltuvust mõne teise suuruse väärtustest. Regressioonivõrrand näitab konkreetse tunnuse funktsioonina teise tunnuse keskmist väärtust. Regressioonifunktsioonil on vorm lihtne võrrand y \u003d x, milles y on sõltuv muutuja ja x on sõltumatu muutuja (tunnustegur). Tegelikult väljendatakse regressiooni järgmiselt: y = f (x).

Millised on muutujatevahelised seosed

Üldiselt eristatakse kahte vastandlikku seost: korrelatsioon ja regressioon.

Esimest iseloomustab tingimuslike muutujate võrdsus. Sel juhul pole kindlalt teada, milline muutuja teisest sõltub.

Kui muutujate vahel puudub võrdsus ja tingimused ütlevad, milline muutuja on seletav ja milline sõltuv, siis saame rääkida teist tüüpi seose olemasolust. Lineaarse regressioonivõrrandi koostamiseks on vaja välja selgitada, millist tüüpi seost täheldatakse.

Regressioonide tüübid

Praeguseks on regressiooni 7 erinevat tüüpi: hüperboolne, lineaarne, mitmekordne, mittelineaarne, paariline, pöördvõrdeline, logaritmiliselt lineaarne.

Hüperboolne, lineaarne ja logaritmiline

Lineaarse regressiooni võrrandit kasutatakse statistikas võrrandi parameetrite selgeks selgitamiseks. Tundub, et y = c + m * x + E. Hüperboolne võrrand on kujult regulaarne hüperbool y \u003d c + m / x + E. Logaritmiliselt lineaarne võrrand väljendab seost kasutades logaritmiline funktsioon: In y \u003d In c + t * In x + In E.

Mitmekordne ja mittelineaarne

Kaks keerukamat regressiooni tüüpi on mitmekordne ja mittelineaarne. Mitmekordse regressiooni võrrandit väljendab funktsioon y \u003d f (x 1, x 2 ... x c) + E. Selles olukorras on y sõltuv muutuja ja x selgitav muutuja. Muutuja E on stohhastiline ja sisaldab võrrandi teiste tegurite mõju. Mittelineaarse regressiooni võrrand on veidi vastuoluline. Ühelt poolt ei ole see arvessevõetavate näitajate osas lineaarne, teiselt poolt aga näitajate hindamise rollis lineaarne.

Pöörd- ja paarisregressioonid

Pöördfunktsioon on teatud tüüpi funktsioon, mis tuleb teisendada lineaarseks vormiks. Kõige traditsioonilisemates rakendusprogrammides on see funktsioonina y \u003d 1 / c + m * x + E. Paaritud regressioonivõrrand näitab andmete vahelist seost funktsioonina y = f(x) + E. Nii nagu teised võrrandid, sõltub y x-st ja E on stohhastiline parameeter.

Korrelatsiooni mõiste

See on näitaja, mis näitab seose olemasolu kahe nähtuse või protsessi vahel. Seose tugevust väljendatakse korrelatsioonikordajana. Selle väärtus kõigub vahemikus [-1;+1]. Negatiivne indikaator näitab tagasiside olemasolu, positiivne indikaator näitab otsest tagasisidet. Kui koefitsiendi väärtus on 0, siis seost ei ole. Mida lähemal on väärtus 1-le – seda tugevam on seos parameetrite vahel, mida lähemal 0-le – seda nõrgem.

meetodid

Parameetriliste korrelatsioonimeetoditega saab hinnata seose tihedust. Neid kasutatakse jaotushinnangute alusel normaaljaotuse seadusele alluvate parameetrite uurimiseks.

Lineaarse regressioonivõrrandi parameetrid on vajalikud sõltuvuse tüübi, regressioonivõrrandi funktsiooni tuvastamiseks ja valitud seose valemi näitajate hindamiseks. Korrelatsioonivälja kasutatakse seose tuvastamise meetodina. Selleks tuleb kõik olemasolevad andmed esitada graafiliselt. Ristkülikukujulises kahemõõtmelises koordinaatsüsteemis tuleb joonistada kõik teadaolevad andmed. Nii moodustub korrelatsiooniväli. Kirjeldava teguri väärtus on märgitud piki abstsissi, sõltuva teguri väärtused aga piki ordinaati. Kui parameetrite vahel on funktsionaalne seos, reastuvad need joone kujul.

Kui selliste andmete korrelatsioonikoefitsient on alla 30%, võime rääkida peaaegu täielikust ühenduse puudumisest. Kui see on vahemikus 30% kuni 70%, näitab see keskmise lähedusega linkide olemasolu. 100% indikaator näitab funktsionaalset ühendust.

Mittelineaarset regressioonivõrrandit, nagu ka lineaarset, tuleb täiendada korrelatsiooniindeksiga (R).

Korrelatsioon mitme regressiooni korral

Determinatsioonikoefitsient on mitmikkorrelatsiooni ruudu näitaja. Ta räägib esitatud näitajate kogumi seose tihedusest uuritava tunnusega. See võib rääkida ka parameetrite mõju olemusest tulemusele. Mitmekordse regressiooni võrrandit hinnatakse selle indikaatori abil.

Mitmekordse korrelatsiooniindeksi arvutamiseks on vaja arvutada selle indeks.

Vähima ruudu meetod

See meetod on regressioonitegurite hindamise viis. Selle olemus seisneb teguri sõltuvusest funktsioonist saadud hälvete ruudu summa minimeerimises.

Sellist meetodit kasutades saab hinnata paaris lineaarse regressiooni võrrandit. Seda tüüpi võrrandeid kasutatakse paaris lineaarse seose näitajate tuvastamisel.

Võrrandi valikud

Lineaarse regressioonifunktsiooni igal parameetril on konkreetne tähendus. Paariline lineaarse regressiooni võrrand sisaldab kahte parameetrit: c ja m. Parameeter t näitab funktsiooni y lõppnäitaja keskmist muutust, tingimusel et muutuja x väheneb (suurenemine) ühe kokkuleppelise ühiku võrra. Kui muutuja x on null, on funktsioon võrdne parameetriga c. Kui muutuja x ei ole null, siis ei ole teguril c majanduslikult mõtet. Ainus mõju funktsioonile on märk teguri c ees. Kui on miinus, siis võime öelda tulemuse aeglase muutumise kohta võrreldes teguriga. Kui pluss on, näitab see tulemuse kiirendatud muutust.

Iga parameetrit, mis muudab regressioonivõrrandi väärtust, saab väljendada võrrandi kaudu. Näiteks tegur c on kujul c = y - mx.

Grupeeritud andmed

On olemas sellised ülesande tingimused, kus kogu teave on rühmitatud atribuudi x järgi, kuid samal ajal näidatakse teatud rühma jaoks sõltuva indikaatori vastavad keskmised väärtused. Sel juhul iseloomustavad keskmised väärtused, kuidas indikaator sõltub x-st. Seega aitab rühmitatud info leida regressioonivõrrandit. Seda kasutatakse suhteanalüüsina. Sellel meetodil on aga omad puudused. Kahjuks on keskmised sageli väliste kõikumiste all. Need kõikumised ei peegelda suhte mustreid, vaid maskeerivad selle "müra". Keskmised näitavad seoste mustreid palju halvemini kui lineaarse regressiooni võrrand. Neid saab aga võtta aluseks võrrandi leidmisel. Korrutades konkreetse populatsiooni suuruse vastava keskmisega, saate grupisisese y summa. Järgmiseks peate kõik laekunud summad välja lööma ja leidma lõpliku indikaatori y. Natuke keerulisem on arvutusi teha summanäitaja xy abil. Kui intervallid on väikesed, võime tinglikult võtta indikaatori x kõigi ühikute jaoks (grupi sees) samaks. Korrutage see y summaga, et leida x ja y korrutiste summa. Edasi lüüakse kõik summad kokku ja saadakse kogusumma xy.

Mitme paari võrrandi regressioon: suhte tähtsuse hindamine

Nagu varem mainitud, on mitmekordse regressiooni funktsioon kujul y = f (x 1 ,x 2 ,…,x m)+E. Kõige sagedamini kasutatakse sellist võrrandit toote nõudluse ja pakkumise, tagasiostetud aktsiate intressitulu probleemi lahendamiseks, tootmiskulude funktsiooni põhjuste ja tüübi uurimisel. Seda kasutatakse aktiivselt ka mitmesugustes makromajanduslikes uuringutes ja arvutustes, kuid mikroökonoomika tasandil kasutatakse seda võrrandit veidi harvemini.

Mitmekordse regressiooni põhiülesanne on koostada tohutul hulgal teavet sisaldav andmemudel, et täpsemalt kindlaks teha, milline on iga teguri mõju eraldiseisvalt ja tervikuna modelleeritavale näitajale ja selle koefitsientidele. Regressioonivõrrand võib võtta mitmesuguseid väärtusi. Sel juhul kasutatakse seose hindamiseks tavaliselt kahte tüüpi funktsioone: lineaarset ja mittelineaarset.

Lineaarne funktsioon on kujutatud sellise seose kujul: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Sel juhul loetakse a2, a m "puhta" regressiooni koefitsientideks. Need on vajalikud parameetri y keskmise muutuse iseloomustamiseks iga vastava parameetri x muutusega (vähenemise või suurenemisega) ühe ühiku võrra, teiste näitajate stabiilse väärtuse tingimusel.

Mittelineaarsetel võrranditel on näiteks astmefunktsiooni kuju y=ax 1 b1 x 2 b2 ...x m bm . Sel juhul nimetatakse näitajaid b 1, b 2 ..... b m - elastsuskoefitsientideks, need näitavad, kuidas tulemus muutub (kui palju%) vastava näitaja x suurenemisel (vähenemisel) 1% võrra. ja muude tegurite stabiilse näitajaga.

Milliseid tegureid tuleks mitmekordse regressiooni koostamisel arvesse võtta

Mitmekordse regressiooni õigeks konstrueerimiseks tuleb välja selgitada, millistele teguritele tuleks erilist tähelepanu pöörata.

Majandustegurite ja modelleeritava vahelise seose olemusest on vaja teatud arusaama. Kaasatavad tegurid peavad vastama järgmistele kriteeriumidele:

  • Peab olema mõõdetav. Objekti kvaliteeti kirjeldava teguri kasutamiseks tuleks sellele igal juhul anda kvantitatiivne vorm.
  • Ei tohiks olla tegurite vastastikust korrelatsiooni ega funktsionaalset seost. Sellised toimingud põhjustavad enamasti pöördumatuid tagajärgi - tavaliste võrrandite süsteem muutub tingimusteta ja see toob kaasa selle ebausaldusväärsuse ja hägused hinnangud.
  • Hiiglasliku korrelatsiooninäitaja puhul ei ole võimalik välja selgitada tegurite isoleeritud mõju näitaja lõpptulemusele, mistõttu muutuvad koefitsiendid tõlgendamatuks.

Ehitusmeetodid

Võrrandi tegurite valimise selgitamiseks on tohutult palju meetodeid ja viise. Kõik need meetodid põhinevad aga koefitsientide valikul korrelatsiooniindeksi abil. Nende hulgas on:

  • Välistamismeetod.
  • Lülitage meetod sisse.
  • Astmeline regressioonanalüüs.

Esimene meetod hõlmab kõigi koefitsientide väljasõelumist koondkomplektist. Teine meetod hõlmab paljude täiendavate tegurite kasutuselevõttu. Noh, kolmas on tegurite kõrvaldamine, mida võrrandile varem rakendati. Igal neist meetoditest on õigus eksisteerida. Neil on oma plussid ja miinused, kuid nad saavad omal moel lahendada mittevajalike näitajate väljasõelumise. Reeglina on iga üksiku meetodi abil saadud tulemused üsna lähedased.

Mitmemõõtmelise analüüsi meetodid

Sellised tegurite määramise meetodid põhinevad omavahel seotud tunnuste individuaalsete kombinatsioonide arvestamisel. Nende hulka kuuluvad diskriminantanalüüs, mustrituvastus, põhikomponentide analüüs ja klastrianalüüs. Lisaks on olemas ka faktoranalüüs, kuid see ilmnes komponentmeetodi väljatöötamise tulemusena. Kõiki neid rakendatakse teatud asjaoludel, teatud tingimustel ja teguritel.

1. Esimest korda võttis mõiste "regressioon" kasutusele biomeetria rajaja F. Galton (XIX sajand), kelle ideed töötas välja tema järgija K. Pearson.

Regressioonanalüüs- statistilise andmetöötluse meetod, mis võimaldab mõõta seost ühe või mitme põhjuse (faktoriaalsed tunnused) ja tagajärje (efektiivne märk) vahel.

märk- see on uuritava nähtuse või protsessi peamine eristav tunnus, tunnus.

Tõhus märk - uuritud näitaja.

Faktori märk- indikaator, mis mõjutab efektiivse tunnuse väärtust.

Regressioonanalüüsi eesmärk on hinnata efektiivse tunnuse keskmise väärtuse funktsionaalset sõltuvust ( juures) faktoriaalist ( x 1, x 2, ..., x n), väljendatud kujul regressioonivõrrandid

juures= f(x 1, x 2, ..., x n). (6.1)

Regressiooni on kahte tüüpi: paaris- ja mitmekordne.

Paaris (lihtne) regressioon- vormi võrrand:

juures= f(x). (6.2)

Paaripõhises regressioonis saadud tunnust käsitletakse ühe argumendi funktsioonina, s.o. üks tegur.

Regressioonianalüüs sisaldab järgmisi samme:

funktsiooni tüübi määratlus;

regressioonikordajate määramine;

Efektiivse tunnuse teoreetiliste väärtuste arvutamine;

Regressioonikordajate statistilise olulisuse kontrollimine;

Regressioonivõrrandi statistilise olulisuse kontrollimine.

Mitmekordne regressioon- vormi võrrand:

juures= f(x 1, x 2, ..., x n). (6.3)

Tulemuslikku tunnust käsitletakse mitme argumendi funktsioonina, s.t. palju tegureid.

2. Funktsiooni tüübi õigeks määramiseks on vaja teoreetiliste andmete põhjal leida ühenduse suund.

Ühenduse suuna järgi jaguneb regressioon järgmisteks osadeks:

· otsene regressioon, mis tekib tingimusel, et sõltumatu väärtuse suurenemise või vähenemisega " X" sõltuva suuruse väärtused" kell" ka vastavalt suurendada või vähendada;

· vastupidine regressioon, mis tekib tingimusel, et sõltumatu väärtuse suurenemisel või vähenemisel "X" sõltuv väärtus" kell" väheneb või suureneb vastavalt.

Seoste iseloomustamiseks kasutatakse järgmist tüüpi paaris regressioonivõrrandeid:

· y=a+bxlineaarne;

· y=e ax + b – eksponentsiaalne;

· y=a+b/x – hüperboolne;

· y=a+b 1 x+b 2 x 2 – paraboolne;

· y=ab x – eksponentsiaalne ja jne.

Kus a, b1, b2- võrrandi koefitsiendid (parameetrid); juures- tõhus märk; X- teguri märk.

3. Regressioonivõrrandi konstrueerimine taandatakse selle koefitsientide (parameetrite) hindamiseks, selleks kasutatakse vähima ruudu meetod(MNK).

Vähimruutude meetod võimaldab teil saada selliseid parameetrite hinnanguid, milles on efektiivse tunnuse tegelike väärtuste ruutude hälvete summa " juures"teoreetilisest" y x» on minimaalne, st

Regressioonivõrrandi valikud y=a+bx Vähimruutude meetodi abil hinnatakse valemite abil:

Kus A - vaba koefitsient, b- regressioonikordaja, näitab, kui palju resultantmärk muutub y» faktoriatribuudi muutmisel « x» mõõtühiku kohta.

4. Regressioonikordajate statistilise olulisuse hindamiseks kasutatakse Studenti t-testi.

Regressioonikordajate olulisuse kontrollimise skeem:

1) H 0: a=0, b=0 - regressioonikoefitsiendid erinevad nullist ebaoluliselt.

H 1: a≠ 0, b≠ 0 – regressioonikoefitsiendid erinevad oluliselt nullist.

2) R=0,05 – olulisuse tase.

Kus m b,m a- juhuslikud vead:

; . (6.7)

4) t laud(R; f),

Kus f=n-k- 1 - vabadusastmete arv (tabeli väärtus), n- vaatluste arv, k X".

5) Kui , siis hälbib, s.o. oluline koefitsient.

Kui , siis on aktsepteeritud, s.o. koefitsient on ebaoluline.

5. Konstrueeritud regressioonivõrrandi õigsuse kontrollimiseks kasutatakse Fisheri kriteeriumi.

Regressioonivõrrandi olulisuse kontrollimise skeem:

1) H 0: regressioonivõrrand ei ole oluline.

H 1: regressioonivõrrand on oluline.

2) R=0,05 – olulisuse tase.

3) , (6.8)

kus on vaatluste arv; k- parameetrite arv muutujatega võrrandis " X"; juures- efektiivse tunnuse tegelik väärtus; y x- efektiivtunnuse teoreetiline väärtus; - paari korrelatsiooni koefitsient.

4) F tabel(R; f1; f2),

Kus f 1 \u003d k, f 2 \u003d n-k-1- vabadusastmete arv (tabeliväärtused).

5) Kui F arvutus >F tabel, siis on regressioonivõrrand õigesti valitud ja seda saab praktikas rakendada.

Kui F arvut , siis on regressioonivõrrand valesti valitud.

6. Regressioonanalüüsi kvaliteedi mõõtmise põhinäitaja on määramiskoefitsient (R 2).

Määramiskoefitsient näitab, milline osa sõltuvast muutujast " juures» võetakse analüüsis arvesse ja on põhjustatud analüüsis kaasatud tegurite mõjust.

Määramiskoefitsient (R2) võtab väärtused vahemikus . Regressioonivõrrand on kvalitatiivne, kui R2 ≥0,8.

Determinatsioonikordaja on võrdne korrelatsioonikordaja ruuduga, s.o.

Näide 6.1. Koostage ja analüüsige regressioonivõrrand järgmiste andmete põhjal:

Lahendus.

1) Arvutage korrelatsioonikordaja: . Märkide suhe on otsene ja mõõdukas.

2) Koostage paaris lineaarse regressiooni võrrand.

2.1) Koostage arvutuste tabel.

X juures Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Summa 159,45 558,55
Keskmine 77519,6 22,78 79,79 2990,6

,

Paaritud lineaarse regressiooni võrrand: y x \u003d 25,17 + 0,087x.

3) Leidke teoreetilised väärtused " y x» asendades tegelikud väärtused regressioonivõrrandis « X».

4) Joonistage tegelike " kell" ja teoreetilised väärtused" y x» efektiivne tunnus (joonis 6.1): r xy =0,47) ja väike hulk vaatlusi.

7) Arvutage määramiskoefitsient: R2=(0,47)2 =0,22. Konstrueeritud võrrand on halva kvaliteediga.

Sest arvutused regressioonanalüüsi ajal on üsna mahukad, soovitatav on kasutada spetsiaalseid programme ("Statistica 10", SPSS jne).

Joonisel 6.2 on tabel programmi "Statistica 10" abil tehtud regressioonanalüüsi tulemustega.

Joonis 6.2. Programmi "Statistica 10" abil tehtud regressioonanalüüsi tulemused

5. Kirjandus:

1. Gmurman V.E. Tõenäosusteooria ja matemaatiline statistika: Proc. käsiraamat ülikoolidele / V.E. Gmurman. - M.: Kõrgkool, 2003. - 479 lk.

2. Koichubekov B.K. Biostatistika: õpik. - Almatõ: Evero, 2014. - 154 lk.

3. Lobotskaja N.L. Kõrgem matemaatika. / N.L. Lobotskaja, Yu.V. Morozov, A.A. Dunaev. - Minsk: Kõrgkool, 1987. - 319 lk.

4. Medic V.A., Tokmachev M.S., Fishman B.B. Meditsiini ja bioloogia statistika: juhend. 2 köites / Toim. Yu.M. Komarov. T. 1. Teoreetiline statistika. - M.: Meditsiin, 2000. - 412 lk.

5. Statistilise analüüsi meetodite rakendamine rahvatervise ja tervishoiu uurimisel: õpik / toim. Kucherenko V.Z. - 4. väljaanne, muudetud. ja täiendav - M.: GEOTAR - Meedia, 2011. - 256 lk.

Regressioonanalüüsi peamine eesmärk seisneb seose analüütilise vormi määramises, mille puhul resultanttunnuse muutus on tingitud ühe või mitme faktorimärgi mõjust ning konstantseteks ja keskmisteks väärtusteks võetakse kõigi muude tegurite hulk, mis samuti resultantatribuuti mõjutavad. .
Regressioonanalüüsi ülesanded:
a) Sõltuvuse vormi kindlakstegemine. Nähtuste omavahelise seose olemuse ja vormi osas on positiivne lineaarne ja mittelineaarne ning negatiivne lineaarne ja mittelineaarne regressioon.
b) Regressioonifunktsiooni defineerimine üht või teist tüüpi matemaatilise võrrandi kujul ja selgitavate muutujate mõju kindlaksmääramine sõltuvale muutujale.
c) Sõltuva muutuja tundmatute väärtuste hindamine. Regressioonifunktsiooni kasutades saate sõltuva muutuja väärtused reprodutseerida selgitavate muutujate etteantud väärtuste intervallis (st lahendada interpolatsiooniprobleem) või hinnata protsessi kulgu väljaspool määratud intervalli (st. lahendage ekstrapoleerimise probleem). Tulemuseks on sõltuva muutuja väärtuse hinnang.

Paar regressioon - kahe muutuja y ja x seose võrrand: y=f(x), kus y on sõltuv muutuja (tulemusmärk); x - sõltumatu, selgitav muutuja (omadus-tegur).

On lineaarsed ja mittelineaarsed regressioonid.
Lineaarne regressioon: y = a + bx + ε
Mittelineaarsed regressioonid jagunevad kahte klassi: regressioonid, mis on analüüsis sisalduvate selgitavate muutujate suhtes mittelineaarsed, kuid hinnanguliste parameetrite suhtes lineaarsed, ja regressioonid, mis on hinnanguliste parameetrite suhtes mittelineaarsed.
Regressioonid, mis on seletavates muutujates mittelineaarsed:

Regressioonid, mis on hinnangulistes parameetrites mittelineaarsed:

  • võimsus y=a x b ε
  • eksponentsiaalne y=a b x ε
  • eksponentsiaalne y=e a+b x ε
Regressioonivõrrandi konstrueerimine taandatakse selle parameetrite hindamisele. Parameetrites lineaarsete regressioonide parameetrite hindamiseks kasutatakse vähimruutude meetodit (LSM). LSM võimaldab saada selliseid parameetrite hinnanguid, mille korral efektiivtunnuse y tegelike väärtuste ruutude hälvete summa teoreetilistest väärtustest y x on minimaalne, s.t.
.
Lineaarseks taandatavate lineaarsete ja mittelineaarsete võrrandite jaoks on a ja b jaoks lahendatud järgmine süsteem:

Saate kasutada sellest süsteemist tulenevaid valmis valemeid:

Uuritud nähtuste vahelise seose tihedust hinnatakse lineaarse regressiooni lineaarse paari korrelatsioonikordaja r xy (-1≤r xy ≤1) abil:

ja korrelatsiooniindeks p xy – mittelineaarse regressiooni jaoks (0≤p xy ≤1):

Konstrueeritud mudeli kvaliteedi hinnangu annab määramiskoefitsient (indeks), samuti keskmine lähendusviga.
Keskmine lähendusviga on arvutatud väärtuste keskmine kõrvalekalle tegelikest väärtustest:
.
Lubatud väärtuste piir A - mitte rohkem kui 8-10%.
Keskmine elastsustegur E näitab, mitu protsenti keskmiselt muutub tulemus y oma keskmisest väärtusest, kui tegur x muutub selle keskmisest väärtusest 1% võrra:
.

Dispersioonanalüüsi ülesanne on analüüsida sõltuva muutuja dispersiooni:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
kus ∑(y-y)² on hälvete ruudu summa;
∑(y x -y)² – regressioonist tingitud kõrvalekallete ruudu summa ("selgitatud" või "faktoriaalne");
∑(y-y x)² – hälvete ruudu jääksumma.
Regressiooniga seletatava dispersiooni osakaalu efektiivse tunnuse y summaarses dispersioonis iseloomustab määramise koefitsient (indeks) R2:

Determinatsioonikordaja on koefitsiendi või korrelatsiooniindeksi ruut.

F-test - regressioonivõrrandi kvaliteedi hindamine - seisneb hüpoteesi testimises Aga regressioonivõrrandi statistilise ebaolulisuse ja seose tiheduse näitaja kohta. Selleks võrreldakse tegelikku F-fakti ja Fisheri F-kriteeriumi väärtuste kriitilist (tabelikujulist) F-tabelit. F-faktuur määratakse ühe vabadusastme jaoks arvutatud faktoriaal- ja jääkvariatsioonide väärtuste suhtest:
,
kus n on rahvastiku ühikute arv; m on muutujate x parameetrite arv.
F tabel on kriteeriumi maksimaalne võimalik väärtus juhuslike tegurite mõjul antud vabadusastmete ja olulisuse taseme a korral. Olulisuse tase a – õige hüpoteesi tagasilükkamise tõenäosus, eeldusel, et see on tõene. Tavaliselt võetakse a väärtuseks 0,05 või 0,01.
Kui F tabel< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F on fakt, siis hüpoteesi H kohta ei lükata ümber ja tunnistatakse regressioonivõrrandi statistiline ebaolulisus, ebausaldusväärsus.
Regressiooni- ja korrelatsioonikordajate statistilise olulisuse hindamiseks arvutatakse iga näitaja jaoks Studenti t-test ja usaldusvahemikud. Esitatakse hüpotees H näitajate juhuslikkuse kohta, s.t. nende ebaolulisest erinevusest nullist. Regressiooni- ja korrelatsioonikordajate olulisuse hindamine Studenti t-testi abil viiakse läbi nende väärtuste võrdlemisel juhusliku vea suurusega:
; ; .
Lineaarse regressiooni parameetrite ja korrelatsioonikordaja juhuslikud vead määratakse valemitega:



Võrreldes t-statistika tegelikke ja kriitilisi (tabelikujulisi) väärtusi - t tabl ja t fact - aktsepteerime või lükkame tagasi hüpoteesi H o.
Fisheri F-testi ja Studenti t-statistika vahelist seost väljendab võrdsus

Kui t tabel< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t asjaolu, et hüpoteesi H umbes ei lükata tagasi ja tunnistatakse a, b või r xy moodustumise juhuslikkus.
Usaldusvahemiku arvutamiseks määrame iga näitaja piirvea D:
Δ a =t tabel m a , Δ b =t tabel m b .
Usaldusvahemike arvutamise valemid on järgmised:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γb = bΔb; γb = b-Δb; γb =b+Δb
Kui null jääb usaldusvahemiku piiridesse, s.t. Kui alumine piir on negatiivne ja ülemine piir on positiivne, siis eeldatakse, et hinnanguline parameeter on null, kuna see ei saa samaaegselt võtta nii positiivseid kui ka negatiivseid väärtusi.
Prognoositav väärtus y p määratakse, asendades vastava (prognoositava) väärtuse x p regressioonivõrrandis y x =a+b·x . Prognoosi m y x keskmine standardviga arvutatakse:
,
Kus
ja ehitatakse usaldusvahemik prognoos:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p; γ y x max=y p +Δ y p
kus Δ y x =t tabel ·m y x .

Lahenduse näide

Ülesanne number 1. Uurali piirkonna seitsme territooriumi jaoks 199X on teada kahe märgi väärtused.
Tabel 1.

Nõutud: 1. Et iseloomustada y sõltuvust x-st, arvuta järgmiste funktsioonide parameetrid:
a) lineaarne;
b) astmeseadus (varem on vaja läbi viia muutujate lineariseerimise protseduur, võttes mõlema osa logaritmi);
c) demonstratiivne;
d) võrdkülgne hüperbool (peate ka välja mõtlema, kuidas seda mudelit eellineariseerida).
2. Hinnake iga mudelit keskmise lähendusvea A ja Fisheri F-testi abil.

Lahendus (valik nr 1)

Lineaarse regressiooni parameetrite a ja b arvutamiseks y=a+b·x (arvutuse saab teha kalkulaatori abil).
lahendada normaalvõrrandi süsteemi suhtes A Ja b:
Algandmete põhjal arvutame ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 y2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kokku405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
kolmap väärtus (kokku/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89 + 0,35 54,9 ≈ 76,88

Regressioonivõrrand: y= 76,88 - 0,35X. Keskmise päevapalga tõusuga 1 rubla võrra. toidukaupade ostmiseks tehtavate kulutuste osakaalu vähendatakse keskmiselt 0,35% punkti võrra.
Arvutage paari korrelatsiooni lineaarne koefitsient:

Suhtlemine on mõõdukas, vastupidine.
Määrame determinatsioonikoefitsiendi: r² xy =(-0,35)=0,127
Tulemuse 12,7% kõikumine on seletatav x-teguri varieerumisega. Tegelike väärtuste asendamine regressioonivõrrandis X, määrame y x teoreetilised (arvutatud) väärtused. Leiame keskmise lähendusvea A väärtuse:

Arvutatud väärtused erinevad tegelikest keskmiselt 8,1%.
Arvutame F-kriteeriumi:

Saadud väärtus viitab vajadusele nõustuda hüpoteesiga H 0 ilmnenud sõltuvuse juhuslikkuse ning võrrandi parameetrite ja ühenduse tiheduse näitaja statistilise ebaolulisuse kohta.
1b. Võimsuse mudeli y=a x b konstrueerimisele eelneb muutujate lineariseerimise protseduur. Näites tehakse lineariseerimine võrrandi mõlema poole logaritmi abil:
lg y=lg a + b lg x
Y=C+b Y
kus Y=lg(y), X=lg(x), C=lg(a).

Arvutusteks kasutame tabelis olevaid andmeid. 1.3.
Tabel 1.3

YX YX Y2 x2 y xy-y x(y-yx)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kokku12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Keskmine väärtus1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Arvutage C ja b:

C=Y -b X = 1,7605 + 0,298 1,7370 = 2,278126
Saame lineaarvõrrandi: Y=2,278-0,298 X
Pärast selle võimendamist saame: y=10 2,278 x -0,298
Asendades selles võrrandis tegelikud väärtused X, saame tulemuse teoreetilised väärtused. Nende põhjal arvutame välja näitajad: ühenduse tihedus - korrelatsiooniindeks p xy ja keskmine lähendusviga A .

Võimsusmudeli omadused näitavad, et see on mõnevõrra parem lineaarne funktsioon kirjeldab suhet.

1c. Eksponentkõvera y \u003d a b x võrrandi konstrueerimisele eelneb muutujate lineariseerimise protseduur, kui võetakse võrrandi mõlema osa logaritm:
lg y=lg a + x lg b
Y=C+B x
Arvutusteks kasutame tabeliandmeid.

Yx Yx Y2 x2y xy-y x(y-yx)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kokku12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
kolmap zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Regressiooniparameetrite väärtused A ja IN ulatus:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Saadakse lineaarvõrrand: Y=1,887-0,0023x. Potentseerime saadud võrrandit ja kirjutame selle tavalisel kujul:
y x = 10 1,887 10 -0,0023 x = 77,1 0,9947 x
Hindame seose tihedust korrelatsiooniindeksi p xy kaudu:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Kokku405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Keskmine väärtus57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX