Egy technika az optimális érték meghatározására regresszióval. Regresszió analízis. Hibaforrások az előrejelzésben

A modern politikatudomány a társadalom összes jelenségének és folyamatának kapcsolatára vonatkozó álláspontból indul ki. Lehetetlen megérteni az eseményeket és folyamatokat, megjósolni és kezelni a politikai élet jelenségeit a társadalom politikai szférájában fennálló összefüggések és függőségek tanulmányozása nélkül. A politikakutatás egyik leggyakoribb feladata néhány megfigyelhető változó közötti kapcsolat vizsgálata. Segít megoldani ezt a problémát a statisztikai elemzési módszerek egész osztálya, kombinálva gyakori név"regressziós elemzés" (vagy más néven "korrelációs-regressziós elemzés"). Ha azonban a korrelációelemzés lehetővé teszi két változó közötti kapcsolat erősségének felmérését, akkor regressziós elemzéssel meg lehet határozni ennek a kapcsolatnak a típusát, megjósolni bármely változó értékének függését egy másik változó értékétől. .

Először is emlékezzünk arra, hogy mi a korreláció. Korrelatív a statisztikai kapcsolat legfontosabb speciális esetének nevezzük, amely abból áll, hogy egy változó azonos értékei különböző átlagos értékek egy másik. Az x attribútum értékének változásával az y attribútum átlagértéke természetesen változik, míg minden esetben az attribútum értéke nál nél(különböző valószínűséggel) sokféle értéket vehet fel.

A „korreláció” kifejezés megjelenése a statisztikában (és a politikatudomány vonzza a statisztika eredményeit problémáinak megoldására, ami tehát a politikatudományhoz kapcsolódó tudományág) az angol biológus és statisztikus, Francis Galton nevéhez fűződik, aki a 19. században javasolta. elméleti alapja korrelációs és regressziós elemzés. A "korreláció" kifejezés a tudományban korábban is ismert volt. Különösen a paleontológiában még a 18. században. Georges Cuvier francia tudós alkalmazta. Bevezette az úgynevezett korrelációs törvényt, amelynek segítségével az ásatások során talált állatmaradványok szerint vissza lehetett állítani azok megjelenését.

A tudós nevéhez és korrelációs törvényéhez egy jól ismert történet kapcsolódik. Így hát az egyetemi szünidő napjain a diákok, akik úgy döntöttek, hogy trükköznek egy híres professzorral, egy szarvú és patás kecskebőrt húztak az egyik diákra. Bemászott Cuvier hálószobájának ablakába, és azt kiáltotta: – Megeszlek. A professzor felébredt, megnézte a sziluettet, és így válaszolt: „Ha szarvai és patáid vannak, akkor növényevő vagy, és nem tudsz megenni engem. És a korreláció törvényének tudatlanságáért kettőt kapsz. Megfordult és elaludt. A vicc vicc, de ebben a példában egy speciális esetet látunk a többszörös korrelációs-regressziós elemzés használatának. Itt a professzor a két megfigyelt tulajdonság értékének ismeretében (szarv és pata jelenléte), a korrelációs törvény alapján levezette a harmadik tulajdonság átlagértékét (az osztály, amelybe ez az állat tartozik). növényevő). Ebben az esetben nem ennek a változónak a konkrét értékéről beszélünk (tehát ez az állat veheti különféle jelentések névleges léptékben - lehet kecske, kos és bika ...).

Most térjünk át a „regresszió” kifejezésre. Szigorúan véve nem kapcsolódik ezek jelentéséhez statisztikai feladatokat amelyeket ezzel a módszerrel oldanak meg. A fogalom magyarázata csak a jellemzők közötti összefüggések vizsgálatára szolgáló módszerek fejlődéstörténetének ismerete alapján adható. Az ilyen jellegű vizsgálatok egyik első példája F. Galton és K. Pearson statisztikusok munkája volt, akik két megfigyelhető jel alapján próbáltak mintát találni az apák és gyermekeik növekedése között (ahol X- apa magassága és U- gyermekek növekedése). Tanulmányukban megerősítették azt a kezdeti hipotézist, hogy átlagosan a magas apák átlagosan magas gyerekeket nevelnek. Ugyanez az elv vonatkozik az alacsony apákra és gyermekekre is. Ha azonban a tudósok itt megálltak volna, munkáikat soha nem említik volna a statisztikai tankönyvek. A kutatók egy másik mintát találtak a már említett megerősített hipotézisen belül. Bebizonyították, hogy a nagyon magas apák átlagosan magas, de nem nagyon eltérő magasságú gyerekeket szülnek azoktól a gyerekektől, akiknek apja, bár átlag feletti, nem nagyon tér el az átlagos magasságtól. Ugyanez igaz a nagyon kis termetű apákra (eltérve az alacsony csoport átlagától) - gyermekeik átlagosan nem különböztek magasságban azoktól a társaiktól, akiknek apja egyszerűen alacsony volt. Ezt a szabályosságot leíró függvényt nevezték el regressziós függvény. E tanulmány után minden hasonló függvényt leíró és hasonló módon felépített egyenletet regressziós egyenletnek neveztek.

A regresszióanalízis a többváltozós statisztikai adatelemzés egyik módszere, amely egy függő és több (vagy egy) független változó közötti kapcsolatok tanulmányozására vagy modellezésére tervezett statisztikai technikák összességét kombinálja. A függő változót a statisztikában elfogadott hagyomány szerint válasznak nevezzük, és mint jelöljük V A független változókat prediktoroknak nevezzük, és így jelöljük x. Az elemzés során egyes változók gyengén kapcsolódnak a válaszhoz, és végül kikerülnek az elemzésből. A függőhöz kapcsolódó többi változót faktornak is nevezhetjük.

A regressziós elemzés lehetővé teszi egy vagy több változó értékének előrejelzését egy másik változótól függően (például a nem szokványos politikai magatartásra való hajlam az iskolai végzettségtől függően) vagy több változótól függően. Számítása PC-n történik. Egy olyan regressziós egyenlet összeállításához, amely lehetővé teszi a vezérelt jellemző faktorfüggésének mértékét, hivatásos matematikus-programozók bevonása szükséges. A regresszióelemzés felbecsülhetetlen értékű szolgálatot nyújthat egy politikai helyzet alakulására vonatkozó prediktív modellek felépítésében, a társadalmi feszültségek okainak felmérésében, elméleti kísérletek lefolytatásában. A regressziós elemzést aktívan használják számos társadalmi-demográfiai paraméter – nem, életkor, szakma, lakóhely, nemzetiség, jövedelem szintje és jellege – polgárok választási magatartására gyakorolt ​​hatásának tanulmányozására.

A regresszióanalízis kapcsán a fogalmak függetlenÉs függő változók. A független változó olyan változó, amely egy másik változó változását magyarázza vagy okozza. A függő változó olyan változó, amelynek értékét az első változó hatása magyarázza. Például a 2004-es elnökválasztáson a meghatározó tényezők, pl. független változók olyan mutatók voltak, mint az ország lakosságának pénzügyi helyzetének stabilizálódása, a jelöltek népszerűségi szintje és a kötelesség. Ebben az esetben a jelöltekre leadott szavazatok százalékos aránya függő változónak tekinthető. Hasonlóan, a „választó kora” és a „választási aktivitás szintje” változópárban az első független, a második függő.

A regressziós elemzés lehetővé teszi a következő problémák megoldását:

  • 1) állapítsa meg a Ci közötti statisztikailag szignifikáns kapcsolat meglétének vagy hiányának tényét x;
  • 2) készítse el a regressziós függvény legjobb (statisztikai értelemben vett) becsléseit;
  • 3) a megadott értékek szerint x jóslatot készíteni az ismeretlenre Nál nél
  • 4) értékelje az egyes tényezők hatásának fajsúlyát x tovább Nál nélés ennek megfelelően kizárja a jelentéktelen jellemzőket a modellből;
  • 5) a változók közötti ok-okozati összefüggések azonosításával a P értékeinek részbeni kezelése a magyarázó változók értékeinek beállításával x.

A regressziós elemzés összefügg a vizsgált mutató értékét befolyásoló, egymástól független változók kiválasztásával, a regressziós egyenlet formájának meghatározásával és a paraméterek értékelésével. statisztikai módszerek elsődleges szociológiai adatok feldolgozása. Az ilyen típusú elemzés a kapcsolat formájának, irányának és szorosságának (sűrűségének) elgondolásán alapul. Megkülönböztetni gőzszobaÉs többszörös regresszió a vizsgált jellemzők számától függően. A gyakorlatban a regresszióanalízist általában a korrelációs elemzéssel együtt végzik. Regressziós egyenlet a mennyiségek közötti numerikus összefüggést írja le, amely tendenciaként fejeződik ki, hogy az egyik változó nő vagy csökken, míg a másik nő vagy csökken. Ugyanakkor a razl és a h a yut l fagyÉs nemlineáris regresszió. Leíráskor politikai folyamatok a regresszió mindkét változata egyformán kimutatható.

Szórványrajz a politikai cikkek érdeklődési körének megoszlására ( U)és a válaszadók oktatása (X) lineáris regresszió (30. ábra).

Rizs. harminc.

Szórványrajz a választási aktivitás szintjének megoszlására ( U)és a válaszadó életkora (A) (feltételes példa) egy nemlineáris regresszió (31. ábra).


Rizs. 31.

Két jellemző (A "és Y) kapcsolatának leírásához egy páros regressziós modellben használja a lineáris egyenlet

ahol a, az egyenlet hibájának véletlenszerű értéke a jellemzők változásával, azaz. az egyenlet eltérése a "linearitástól".

Az együtthatók értékelésére AÉs b használja a legkisebb négyzetek módszerét, amely feltételezi, hogy a szóródiagram egyes pontjainak a regressziós egyenestől való eltérésének négyzetes összege minimális legyen. Esély a h b az egyenletrendszer segítségével számítható ki:

A legkisebb négyzetek becslésének módszere ilyen becsléseket ad az együtthatókra AÉs b, amelyre az egyenes átmegy a ponton koordinátákkal xÉs y, azok. van kapcsolat nál nél = fejsze + b. A regressziós egyenlet grafikus ábrázolását ún elméleti regressziós egyenes. Nál nél lineáris függőség a regressziós együttható a grafikonon ábrázolja az elméleti regressziós egyenes meredekségének az x tengelyhez mért érintőjét. Az együtthatónál lévő előjel a kapcsolat irányát mutatja. Ha nagyobb, mint nulla, akkor a kapcsolat közvetlen, ha kisebb, akkor inverz.

A „Politikai Pétervár-2006” című tanulmány alábbi példája (56. táblázat) lineáris kapcsolatot mutat be a polgárok életükkel való elégedettségük mértékéről a jelenben és az életminőség jövőbeni változásaival kapcsolatos elvárásai között. A kapcsolat közvetlen, lineáris (a standardizált regressziós együttható 0,233, a szignifikancia szintje 0,000). Ebben az esetben a regressziós együttható nem magas, de meghaladja a statisztikailag szignifikáns mutató alsó határát (a Pearson-együttható statisztikailag szignifikáns mutatója négyzetének alsó határát).

56. táblázat

Az állampolgárok életminőségének hatása a jelenben az elvárásokra

(Szentpétervár, 2006)

* Függő változó: "Szerinted hogyan fog megváltozni az életed a következő 2-3 évben?"

A politikai életben a vizsgált változó értéke legtöbbször egyszerre több jellemzőtől is függ. Például a politikai tevékenység szintjét és jellegét egyszerre befolyásolja az állam politikai rezsimje, a politikai hagyományok, az adott területen élő emberek politikai magatartásának sajátosságai és a megkérdezett társadalmi mikrocsoportja, életkora, iskolai végzettsége, jövedelme. szint, politikai irányultság stb. Ebben az esetben az egyenletet kell használni többszörös regresszió, amelynek a következő formája van:

ahol együttható b.- parciális regressziós együttható. Megmutatja az egyes független változók hozzájárulását a független (eredmény) változó értékeinek meghatározásához. Ha a parciális regressziós együttható közel 0, akkor azt a következtetést vonhatjuk le, hogy a független és a függő változók között nincs közvetlen kapcsolat.

Egy ilyen modell számítása elvégezhető PC-n mátrixalgebra segítségével. A többszörös regresszió lehetővé teszi, hogy tükrözze a társadalmi kapcsolatok többtényezős jellegét, és tisztázza az egyes tényezők egyéni és együttes hatásának mértékét a kapott tulajdonságra.

Együttható jelölve b, lineáris regressziós együtthatónak nevezzük, és a variáció közötti kapcsolat erősségét mutatja tényező jele xés a hatásos jellemző variációja Y Ez az együttható a kapcsolat erősségét a jellemzők abszolút mértékegységeiben méri. A jellemzők korrelációjának szorossága azonban kifejezhető a kapott jellemző szórásával is (az ilyen együtthatót korrelációs együtthatónak nevezzük). Ellentétben a regressziós együtthatóval b a korrelációs együttható nem függ a jellemzők elfogadott mértékegységeitől, ezért bármely jellemzővel összehasonlítható. Általában a csatlakozást akkor tekintik erősnek, ha /> 0,7, közepes tömítettség - 0,5 g-nál 0,5.

Mint tudják, a legszorosabb kapcsolat a funkcionális kapcsolat, amikor minden egyes érték Y egyedileg hozzárendelhető az értékhez x.Így minél közelebb van a korrelációs együttható 1-hez, annál közelebb áll a kapcsolat egy funkcionálishoz. A regressziós elemzés szignifikanciaszintje nem haladhatja meg a 0,001-et.

A korrelációs együtthatót régóta a jellemzők kapcsolatának szorosságának fő mutatójaként tartják számon. Később azonban a determinációs együttható lett ilyen mutató. Ennek az együtthatónak a jelentése a következő - az eredményül kapott jellemző teljes variancia hányadát tükrözi Nál nél, amit a jellemző varianciája magyaráz x. Ezt úgy találjuk meg, hogy a korrelációs együtthatót egyszerűen négyzetre emeljük (0-ról 1-re változik), és viszont egy lineáris kapcsolat esetén a 0-tól (0%-ig) való részesedést tükrözi. 1 (100%) jellemző értékek Y, attribútum értékei határozzák meg x.Úgy van rögzítve én 2,és a kapott regresszióanalízis táblázatokban az SPSS csomagban - négyzet nélkül.

Jelöljük a többszörös regressziós egyenlet megalkotásának főbb problémáit.

  • 1. A regressziós egyenletben szereplő tényezők megválasztása. Ebben a szakaszban a kutató először összeállít egy általános listát azokról a fő okokról, amelyek az elmélet szerint meghatározzák a vizsgált jelenséget. Ezután ki kell választania a regressziós egyenlet jellemzőit. A fő kiválasztási szabály az, hogy az elemzésbe bevont tényezők a lehető legkevésbé korreláljanak egymással; csak ebben az esetben lehet egy bizonyos faktor-attribútumhoz kvantitatív hatásmértéket rendelni.
  • 2. A többszörös regressziós egyenlet formájának kiválasztása(a gyakorlatban gyakrabban használják a lineáris vagy lineáris-logaritmikus). Tehát a többszörös regresszió használatához a kutatónak először fel kell építenie egy hipotetikus modellt több független változónak a kapott változóra gyakorolt ​​hatásáról. Ahhoz, hogy a kapott eredmények megbízhatóak legyenek, szükséges, hogy a modell pontosan illeszkedjen a valós folyamathoz, pl. a változók közötti kapcsolatnak lineárisnak kell lennie, egyetlen szignifikáns független változó sem hagyható figyelmen kívül, ugyanígy egyetlen olyan változó sem kerülhet be az elemzésbe, amely nem kapcsolódik közvetlenül a vizsgált folyamathoz. Ezenkívül a változók minden mérésének rendkívül pontosnak kell lennie.

A fenti leírásból a módszer alkalmazásának számos feltétele következik, amelyek nélkül lehetetlen a többszörös regressziós analízis (MRA) eljárása folytatni. Csak az alábbi pontok mindegyikének betartása teszi lehetővé a regressziós elemzés helyes elvégzését.

A regresszióanalízis fő célja a kapcsolat analitikus formájának meghatározásából áll, amelyben az eredő attribútum változása egy vagy több tényezőjel hatására következik be, és az összes többi tényező halmazát, amely szintén befolyásolja az eredő attribútumot, állandó és átlagos értéknek vesszük. .
A regresszióanalízis feladatai:
a) A függőség formájának megállapítása. A jelenségek közötti kapcsolat jellegét és formáját tekintve létezik pozitív lineáris és nemlineáris, valamint negatív lineáris és nemlineáris regresszió.
b) A regressziós függvény meghatározása egy vagy olyan típusú matematikai egyenlet formájában, és a magyarázó változók hatásának megállapítása a függő változóra.
c) Értékelés ismeretlen értékek függő változó. A regressziós függvény segítségével reprodukálhatja a függő változó értékeit a magyarázó változók adott értékeinek intervallumán belül (azaz megoldhatja az interpolációs feladatot), vagy kiértékelheti a folyamat menetét a megadott intervallumon kívül (pl. oldja meg az extrapolációs problémát). Az eredmény a függő változó értékének becslése.

Páros regresszió - két y és x változó kapcsolatának egyenlete: y=f(x), ahol y a függő változó (eredményjel); x - független, magyarázó változó (feature-faktor).

Léteznek lineáris és nemlineáris regressziók.
Lineáris regresszió: y = a + bx + ε
A nemlineáris regressziók két osztályba sorolhatók: azok a regressziók, amelyek az elemzésben szereplő magyarázó változók tekintetében nem lineárisak, de a becsült paraméterek tekintetében lineárisak, és a becsült paraméterek tekintetében nem lineárisak.
A magyarázó változókban nem lineáris regressziók:

A becsült paraméterekben nem lineáris regressziók:

  • teljesítmény y=a x b ε
  • exponenciális y=a b x ε
  • exponenciális y=e a+b x ε
A regressziós egyenlet felépítése a paramétereinek becslésére redukálódik. A lineáris regressziók paramétereinek becsléséhez a legkisebb négyzetek módszerét (LSM) használjuk. Az LSM lehetővé teszi olyan paraméterbecslések megszerzését, amelyek mellett az y effektív jellemző tényleges értékeinek négyzetes eltéréseinek összege az y x elméleti értékektől minimális, pl.
.
Lineárisra redukálható lineáris és nemlineáris egyenleteknél a következő rendszert kell megoldani a és b esetén:

Használhat kész képleteket, amelyek ebből a rendszerből következnek:

A vizsgált jelenségek közötti kapcsolat szorosságát a lineáris regresszióhoz tartozó r xy lineáris párkorrelációs együtthatóval becsüljük meg (-1≤r xy ≤1):

és p xy korrelációs index – a nemlineáris regresszióhoz (0≤p xy ≤1):

A megszerkesztett modell minőségének értékelését a meghatározási együttható (index), valamint az átlagos közelítési hiba adja.
Az átlagos közelítési hiba a számított értékek átlagos eltérése a tényleges értékektől:
.
A megengedett értékhatár A - legfeljebb 8-10%.
Az E átlagos rugalmassági együttható azt mutatja meg, hogy az y eredmény átlagosan hány százalékkal változik átlagosan az átlagos értékéhez képest, ha az x tényező 1%-kal változik az átlagos értékéhez képest:
.

A varianciaanalízis feladata a függő változó varianciájának elemzése:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
ahol ∑(y-y)² az eltérések négyzetes összege;
∑(y x -y)² - a regresszióból eredő eltérések négyzetes összege ("magyarázott" vagy "tényező");
∑(y-y x)² - az eltérések négyzetes maradék összege.
A regresszióval magyarázott variancia részarányát az y effektív jellemző teljes varianciájában az R2 meghatározás együtthatójával (indexével) jellemezzük:

A determinációs együttható az együttható vagy korrelációs index négyzete.

Az F-teszt - a regressziós egyenlet minőségének értékelése - a hipotézis teszteléséből áll, de a regressziós egyenlet statisztikai jelentéktelenségéről és a kapcsolat szorosságának mutatójáról. Ehhez a tényleges F tény és a Fisher F-kritérium értékeinek kritikus (táblázatos) F táblázatának összehasonlítása történik. Az F tényt az egy szabadságfokra számított faktoriális és reziduális variancia értékeinek arányából határozzuk meg:
,
ahol n a lakossági egységek száma; m az x változók paramétereinek száma.
Az F táblázat a kritérium maximális lehetséges értéke véletlenszerű tényezők hatására adott szabadsági fokra és szignifikanciaszintre a. A szignifikancia szint - a helyes hipotézis elutasításának valószínűsége, feltéve, hogy igaz. Általában a értéke 0,05 vagy 0,01.
Ha F táblázat< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F tény, akkor a H hipotézist nem utasítjuk el, és felismerjük a regressziós egyenlet statisztikai jelentéktelenségét, megbízhatatlanságát.
A regressziós és korrelációs együtthatók statisztikai szignifikanciájának értékeléséhez a Student-féle t-próbát és az egyes mutatók konfidenciaintervallumát kiszámítjuk. A mutatók véletlenszerűségére vonatkozóan egy H hipotézist teszünk fel, azaz. a nullától való jelentéktelen különbségükről. A regressziós és korrelációs együtthatók szignifikanciájának értékelése Student-féle t-próbával úgy történik, hogy az értékeket összehasonlítjuk a véletlen hiba nagyságával:
; ; .
A lineáris regressziós paraméterek és a korrelációs együttható véletlenszerű hibáit a következő képletek határozzák meg:



A t-statisztika tényleges és kritikus (táblázatos) értékeit - t tabl és t fact - összehasonlítva elfogadjuk vagy elvetjük a H o hipotézist.
A Fisher-féle F-próba és a Student-féle t-statisztika közötti kapcsolatot az egyenlőség fejezi ki

Ha t táblázat< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t az a tény, hogy a H kb hipotézist nem utasítjuk el, és felismerjük az a, b vagy r xy képződésének véletlenszerűségét.
A konfidenciaintervallum kiszámításához minden mutatóhoz meghatározzuk a D határhibát:
Δ a =t táblázat m a, Δ b =t táblázat m b.
A konfidenciaintervallumok kiszámításának képlete a következő:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γb = bΔb; γb = b-Δb; γb =b+Δb
Ha a nulla a konfidenciaintervallum határain belül esik, pl. Ha az alsó határ negatív és a felső határ pozitív, akkor a becsült paramétert nullának kell tekinteni, mivel nem vehet fel egyszerre pozitív és negatív értéket.
Az y p előrejelzési értéket úgy határozzuk meg, hogy a megfelelő (előrejelzett) x p értéket behelyettesítjük az y x =a+b·x regressziós egyenletbe. Az m y x előrejelzés átlagos standard hibáját számítjuk ki:
,
Ahol
és épül megbízhatósági intervallum előrejelzés:
γ y x =y p Δ y p ; y y x min=y p -Δ y p; γ y x max=y p +Δ y p
ahol Δ y x =t táblázat m y x .

Megoldási példa

1. számú feladat. Az uráli régió hét területén 199X-ben két jel értéke ismert.
Asztal 1.

Kívánt: 1. Az y x-től való függésének jellemzéséhez számítsa ki a következő függvények paramétereit!
a) lineáris;
b) hatványtörvény (korábban mindkét rész logaritmusának felvételével kellett végrehajtani a változók linearizálását);
c) demonstratív;
d) egyenlő oldalú hiperbola (azt is ki kell találnia, hogyan lehet előre linearizálni ezt a modellt).
2. Értékelje az egyes modelleket az átlagos A közelítési hibával és a Fisher-féle F-próbával.

Megoldás (1. lehetőség)

Az y=a+b·x lineáris regresszió a és b paramétereinek kiszámításához (a számítás elvégezhető számológéppel).
tekintetében oldja meg a normálegyenletrendszert AÉs b:
A kiindulási adatok alapján kiszámítjuk ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 y2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Teljes405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Házasodik érték (Össz./n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
xx8,1
s 5,74 5,86 xxxxxx
s232,92 34,34 xxxxxx


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Regressziós egyenlet: y= 76,88 - 0,35X. A napi átlag növekedésével bérek 1 dörzsölésért. az élelmiszerek vásárlására fordított kiadások aránya átlagosan 0,35%-ponttal csökken.
Számítsa ki a párkorrelációs lineáris együtthatót:

A kommunikáció mérsékelt, fordított.
Határozzuk meg a determinációs együtthatót: r² xy =(-0,35)=0,127
Az eredmény 12,7%-os eltérését az x tényező változása magyarázza. A tényleges értékek behelyettesítése a regressziós egyenletbe x, meghatározzuk y x elméleti (számított) értékeit. Határozzuk meg az átlagos A közelítési hiba értékét:

A számított értékek átlagosan 8,1%-kal térnek el a tényleges értékektől.
Számítsuk ki az F-kritériumot:

A kapott érték azt jelzi, hogy el kell fogadni a feltárt függőség véletlenszerűségére vonatkozó H 0 hipotézist, valamint az egyenlet paramétereinek statisztikai jelentéktelenségét és a kapcsolat szorosságát jelző mutatót.
1b. Az y=a x b hatványmodell felépítését a változók linearizálási eljárása előzi meg. A példában a linearizálás az egyenlet mindkét oldalának logaritmusával történik:
lg y=lg a + b lg x
Y=C+b Y
ahol Y=lg(y), X=lg(x), C=lg(a).

A számításokhoz a táblázat adatait használjuk. 1.3.
1.3. táblázat

Yx YX Y2 x2 y xy-y x(y-yx)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Teljes12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Átlagos érték1,7605 1,7370 3,0572 3,1011 3,0194 xx28,27 8,0
σ 0,0425 0,0484 xxxxxxx
σ20,0018 0,0023 xxxxxxx

Számítsd ki C-t és b-t:

C=Y-b X = 1,7605+0,298 1,7370 = 2,278126
Lineáris egyenletet kapunk: Y=2,278-0,298 X
Potencírozása után a következőt kapjuk: y=10 2,278 x -0,298
Ebben az egyenletben behelyettesítve a tényleges értékeket X, megkapjuk az eredmény elméleti értékeit. Ezek alapján kiszámítjuk a mutatókat: a kapcsolat szorossága - a p xy korrelációs index és az átlagos közelítési hiba A .

A hatványmodell jellemzői azt mutatják, hogy valamivel jobban írja le a kapcsolatot, mint a lineáris függvény.

1v. Az y \u003d a b x exponenciális görbe egyenletének felépítését a változók linearizálásának eljárása előzi meg, ha az egyenlet mindkét részének logaritmusát vesszük:
lg y=lg a + x lg b
Y=C+B x
A számításokhoz a táblázat adatait használjuk.

Yx Yx Y2 x2y xy-y x(y-yx)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Teljes12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Házasodik zn.1,7605 54,9 96,5711 3,1011 3048,34 xx28,68 8,0
σ 0,0425 5,86 xxxxxxx
σ20,0018 34,339 xxxxxxx

Az A és a regressziós paraméterek értékei BAN BENösszege:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Lineáris egyenletet kapunk: Y=1,887-0,0023x. Potencírozzuk a kapott egyenletet, és a szokásos formában írjuk fel:
y x = 10 1,887 10 -0,0023x = 77,1 0,9947 x
A kapcsolat szorosságát a p xy korrelációs indexen keresztül becsüljük meg:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Teljes405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Átlagos érték57,9 0,0184 1,0723 0,000345 3383,68 xx27,84 8,1 σ 5,74 0,002145 xxxxxxx σ232,9476 0,000005 xx

1. A "regresszió" kifejezést először a biometria alapítója, F. Galton vezette be (XIX. század), akinek az ötleteit követője, K. Pearson dolgozta ki.

Regresszió analízis- statisztikai adatfeldolgozási módszer, amely lehetővé teszi egy vagy több ok (faktoriális előjel) és egy következmény (hatásjel) közötti kapcsolat mérését.

jel- ez a vizsgált jelenség vagy folyamat fő megkülönböztető jegye, jellemzője.

Hatékony jel - vizsgált mutató.

Tényező jel- az effektív jellemző értékét befolyásoló mutató.

A regressziós elemzés célja az effektív jellemző átlagértékének funkcionális függésének értékelése ( nál nél) faktoriálisból ( x 1, x 2, ..., x n), így fejezve ki regressziós egyenletek

nál nél= f(x 1, x 2, ..., x n). (6.1)

A regressziónak két típusa van: páros és többszörös.

Páros (egyszerű) regresszió- formaegyenlet:

nál nél= f(x). (6.2)

A páronkénti regresszióban kapott jellemzőt egy argumentum függvényének tekintjük, azaz. egy tényező.

A regressziós elemzés a következő lépéseket tartalmazza:

a függvénytípus meghatározása;

regressziós együtthatók meghatározása;

Az effektív jellemző elméleti értékeinek kiszámítása;

A regressziós együtthatók statisztikai szignifikanciájának ellenőrzése;

A regressziós egyenlet statisztikai szignifikanciájának ellenőrzése.

Többszörös regresszió- formaegyenlet:

nál nél= f(x 1, x 2, ..., x n). (6.3)

Az eredő jellemzőt több argumentum függvényének tekintjük, pl. sok tényező.

2. A függvény típusának helyes meghatározásához elméleti adatok alapján meg kell találni a kapcsolat irányát.

A kapcsolat iránya szerint a regresszió a következőkre oszlik:

· közvetlen regresszió, amelyek azzal a feltétellel merülnek fel, hogy a független érték növekedésével vagy csökkenésével" X" a függő mennyiség értékei" nál nél" ennek megfelelően növelni vagy csökkenteni is;

· fordított regresszió, amelyek azzal a feltétellel merülnek fel, hogy a független érték növekedésével vagy csökkenésével "X" függő érték" nál nél" ennek megfelelően csökken vagy nő.

Az összefüggések jellemzésére a következő típusú páros regressziós egyenleteket használjuk:

· y=a+bxlineáris;

· y=e ax + b – exponenciális;

· y=a+b/x – hiperbolikus;

· y=a+b 1 x+b 2 x 2 – parabola;

· y=ab x – exponenciális satöbbi.

Ahol a, b1, b2- az egyenlet együtthatói (paraméterei); nál nél- hatásos jel; x- faktor jel.

3. A regressziós egyenlet felépítése az együtthatók (paraméterek) becslésére redukálódik, ehhez a legkisebb négyzetes módszer(MNK).

A legkisebb négyzetek módszere lehetővé teszi a paraméterek olyan becslését, amelyben az effektív jellemző tényleges értékeinek négyzetes eltéréseinek összege " nál nél"elméletiből" y x» minimális, azaz

Regressziós egyenlet opciók y=a+bx a legkisebb négyzetek módszerével a következő képletekkel becsüljük meg:

Ahol A - szabad együttható, b- regressziós együttható, megmutatja, hogy az eredő előjel mennyit fog változni y» a faktorattribútum megváltoztatásakor « x» mértékegységenként.

4. A regressziós együtthatók statisztikai szignifikanciájának felmérésére Student-féle t-próbát alkalmazunk.

A regressziós együtthatók szignifikanciájának ellenőrzési sémája:

1) H 0: a=0, b=0 - a regressziós együtthatók jelentéktelen mértékben különböznek a nullától.

H 1: a≠ 0, b≠ 0 - a regressziós együtthatók jelentősen eltérnek a nullától.

2) R=0,05 – szignifikancia szint.

Ahol m b,m a- véletlenszerű hibák:

; . (6.7)

4) t asztal(R; f),

Ahol f=n-k- 1 - a szabadságfokok száma (táblázati érték), n- megfigyelések száma, k X".

5) Ha , akkor eltér, azaz. jelentős együttható.

Ha , akkor elfogadják, i.e. együttható jelentéktelen.

5. A megszerkesztett regressziós egyenlet helyességének ellenőrzésére a Fisher-kritériumot használjuk.

A regressziós egyenlet jelentőségének ellenőrzésére szolgáló séma:

1) H 0: a regressziós egyenlet nem szignifikáns.

H 1: a regressziós egyenlet szignifikáns.

2) R=0,05 – szignifikancia szint.

3) , (6.8)

hol a megfigyelések száma; k- a paraméterek száma a változókkal ellátott egyenletben " X"; nál nél- az effektív jellemző tényleges értéke; y x- az effektív jellemző elméleti értéke; - párkorrelációs együttható.

4) F táblázat(R; f 1; f2),

Ahol f 1 \u003d k, f 2 \u003d n-k-1- szabadsági fokok száma (táblázati értékek).

5) Ha F calc >F táblázat, akkor a regressziós egyenlet helyesen van megválasztva és a gyakorlatban is alkalmazható.

Ha F számolt: , akkor a regressziós egyenlet rosszul lett kiválasztva.

6. A regressziós elemzés minőségének mérőszámát tükröző fő mutató az determinációs együttható (R 2).

Meghatározási együttható megmutatja, hogy a függő változó mekkora hányadát nál nél» figyelembe veszik az elemzésben, és az elemzésbe bevont tényezők hatása okozza.

Meghatározási együttható (R2) tartományba eső értékeket vesz fel. A regressziós egyenlet kvalitatív, ha R2 ≥0,8.

A determinációs együttható egyenlő a korrelációs együttható négyzetével, azaz.

6.1. példa. A következő adatok alapján állítsa össze és elemezze a regressziós egyenletet:

Megoldás.

1) Számítsa ki a korrelációs együtthatót: . A jelek közötti kapcsolat közvetlen és mérsékelt.

2) Készítsen páros lineáris regressziós egyenletet.

2.1) Készítsen számítási táblázatot!

x nál nél HU x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Összeg 159,45 558,55
Átlagos 77519,6 22,78 79,79 2990,6

,

Páros lineáris regressziós egyenlet: y x \u003d 25,17 + 0,087x.

3) Keresse meg az elméleti értékeket" y x» a regressziós egyenletben a tényleges értékek behelyettesítésével « x».

4) Ábrázolja a tényleges " nál nél"és elméleti értékek" y x» effektív jellemző (6.1. ábra): r xy =0,47) és kis számú megfigyelés.

7) Számítsa ki a determinációs együtthatót: R2=(0,47)2 =0,22. A megszerkesztett egyenlet rossz minőségű.

Mert A regressziós elemzés során végzett számítások meglehetősen terjedelmesek, ajánlott speciális programok használata ("Statistica 10", SPSS stb.).

A 6.2. ábrán egy táblázat látható a „Statistica 10” programmal végzett regressziós elemzés eredményeivel.

6.2. ábra. A "Statistica 10" programmal végzett regressziós elemzés eredményei

5. Irodalom:

1. Gmurman V.E. Valószínűségszámítás és matematikai statisztika: Proc. kézikönyv egyetemeknek / V.E. Gmurman. - M.: Felsőiskola, 2003. - 479 p.

2. Koichubekov B.K. Biostatisztika: Tankönyv. - Almaty: Evero, 2014. - 154 p.

3. Lobotskaya N.L. Felső matematika. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Minszk: Felsőiskola, 1987. - 319 p.

4. Medic V.A., Tokmachev M.S., Fishman B.B. Statisztikák az orvostudományban és a biológiában: Útmutató. 2 kötetben / Szerk. Yu.M. Komarov. T. 1. Elméleti statisztika. - M.: Orvostudomány, 2000. - 412 p.

5. Statisztikai elemzési módszerek alkalmazása a népegészségügy és az egészségügy tanulmányozására: tankönyv / szerk. Kucherenko V.Z. - 4. kiadás, átdolgozva. és további - M.: GEOTAR - Média, 2011. - 256 p.

Miután a korrelációelemzés feltárta a változók közötti statisztikai összefüggések meglétét, és felmérte szorosságuk mértékét, általában egy adott típusú függőség matematikai leírására térnek át regressziós elemzéssel. Ebből a célból kiválasztunk egy függvényosztályt, amely az y effektív mutatót és az x 1, x 2, ..., x argumentumokat a leginformatívabb argumentumokhoz köti, kiválasztja a hivatkozás paramétereinek ismeretlen értékeinek becslését. egyenlet kiszámítása és a kapott egyenlet tulajdonságainak elemzése történik.

Az y effektív jellemző átlagértékének az argumentumok adott értékétől való függését leíró f (x 1, x 2, ..., x k) függvényt regressziós függvénynek (egyenletnek) nevezzük. A "regresszió" kifejezést (lat. - regresszió - visszavonulás, visszatérés valamihez) F. Galton angol pszichológus és antropológus vezette be, és kizárólag az egyik első konkrét példa sajátosságaihoz kapcsolódik, amelyben ezt a fogalmat használták. Tehát a növekedés öröklődésének elemzésével kapcsolatos statisztikai adatokat feldolgozva F. Galton azt találta, hogy ha az apák x hüvelykkel térnek el az összes apa átlagos magasságától, akkor a fiaik kevesebb mint x-el térnek el az összes fiú átlagos magasságától. hüvelyk. A feltárt tendenciát "átlagos állapotba való visszalépésnek" nevezték. Azóta a "regresszió" kifejezést széles körben használják a statisztikai irodalomban, bár sok esetben nem jellemzi pontosan a statisztikai függőség fogalmát.

A regressziós egyenlet pontos leírásához ismerni kell az y effektív mutató eloszlási törvényét. A statisztikai gyakorlatban általában arra kell szorítkozni, hogy az ismeretlen valódi regressziós függvényre megfelelő közelítéseket keressünk, mivel a kutató nem ismeri pontosan az elemzett y eredménymutató valószínűség-eloszlásának feltételes törvényét adott értékekre. az x argumentumból.

Tekintsük az igaz f(x) = M(y1x) összefüggést, a modell regresszióját? és a regresszió y pontszáma. Legyen az y effektív mutató az x argumentumhoz viszonyítva az aránnyal:

ahol van egy valószínűségi változó normális törvény eloszlások, ahol Me = 0 és D e = y 2 . A valódi regressziós függvény ebben az esetben: f(x) = M(y/x) = 2x 1,5.

Tegyük fel, hogy nem ismerjük a valódi regressziós egyenlet pontos formáját, de kilenc megfigyelésünk van egy kétdimenziós valószínűségi változóról, amely az yi = 2x1,5 + e arányban van összefüggésben, és az ábrán látható. 1

1. ábra - Az f (x) igazság és az elméleti kölcsönös elrendezése? regressziós modellek

ábra pontjainak elhelyezkedése. 1 lehetővé teszi, hogy korlátozza magát az űrlap lineáris függőségének osztályára? = 0-nál + 1-nél. A legkisebb négyzetek módszerét használva megtaláljuk az y = b 0 +b 1 x regressziós egyenlet becslését. Összehasonlításképpen az ábrán. Az 1. ábra az y \u003d 2x 1,5 valódi regressziós függvény grafikonját mutatja, az elméleti közelítő regressziós függvényt? = 0-nál + 1-nél.

Mivel hibát követtünk el a regressziós függvény osztályának megválasztásakor, és ez a statisztikai kutatások gyakorlatában elég gyakori, statisztikai következtetéseink és becsléseink tévesnek bizonyulnak. És bármennyire növeljük is a megfigyelések mennyiségét, az y-ra vonatkozó mintabecslésünk nem lesz közel az f(x) valódi regressziós függvényhez. Ha helyesen választottuk meg a regressziós függvények osztályát, akkor az f (x) leírásában szereplő pontatlanság? csak a korlátozott mintaszámmal magyarázható.

Az y(x) effektív mutató feltételes értékének és az f(x) = M(y/x) ismeretlen regressziós függvénynek a kiindulási statisztikai adatokból történő legjobb visszaállítása érdekében leggyakrabban az alábbi megfelelőségi kritériumokat (veszteségfüggvényeket) alkalmazzuk .

Legkisebb négyzet alakú módszer. Eszerint az y effektív mutató megfigyelt értékeinek négyzetes eltérése (i = 1,2,..., n) a modellértékektől minimálisra csökken. = f(x i), ahol x i az i-edik megfigyelés argumentumvektorának értéke:

A legkisebb modulok módszere. Eszerint az effektív mutató megfigyelt értékeinek a moduláris értékektől való abszolút eltéréseinek összege minimálisra csökken. És kapunk = f(x i), abszolút medián regresszió? |y i - f(х i)| > min.

A regresszióanalízis egy y valószínűségi változó x j = (j = 1,2, ..., k) változóktól való függésének statisztikai elemzési módszere, amelyet a regressziós elemzésben nem tekintenek Véletlen változók, függetlenül a valódi eloszlási törvénytől x j.

Általában feltételezik, hogy az y valószínűségi változónak van egy normális eloszlási törvénye y feltételes matematikai elvárással, amely az x/ (/ = 1, 2, ..., k) argumentumok és egy állandó függvénye, független a argumentumok, variancia y 2 .

Általánosságban elmondható, hogy a regresszióanalízis lineáris modelljének formája a következő:

Y = Y k j=0 V j c j(x 1 , x 2 . . .. ,x k)+E

ahol c j az - x 1 , x 2 változóinak valamilyen függvénye . . .. ,x k , E egy valószínűségi változó nulla matematikai várakozással és y 2 szórással.

A regresszióanalízis során a regressziós egyenlet típusát a vizsgált jelenség fizikai természete és a megfigyelés eredményei alapján választják ki.

A regressziós egyenlet ismeretlen paramétereinek becslését általában a legkisebb négyzetek módszerével találjuk meg. Az alábbiakban részletesebben foglalkozunk ezzel a problémával.

Kétdimenziós lineáris regressziós egyenlet. Tegyük fel a vizsgált jelenség elemzése alapján, hogy az "átlagban" y rendelkezik lineáris függvény x-ből, azaz van egy regressziós egyenlet

y \u003d M (y / x) \u003d 0-nál + 1 x-nél)

ahol M(y1x) egy y valószínűségi változó feltételes matematikai elvárása adott x-re; 0-nál és 1-nél - az általános sokaság ismeretlen paraméterei, amelyeket a mintamegfigyelések eredményeiből kell megbecsülni.

Tegyük fel, hogy a 0 és 1 paraméterek becsléséhez egy n méretű mintát veszünk egy kétdimenziós általános sokaságból (x, y), ahol (x, y,) az i-edik megfigyelés eredménye (i = 1, 2,..., n) . Ebben az esetben a regresszióelemzési modell a következőképpen alakul:

y j = 0-nál + 1-nél x+e j .

ahol e j .- független normális eloszlású valószínűségi változók nulla matematikai várakozással és y 2 szórással, azaz M e j . = 0;

D e j .= y 2 minden i = 1, 2,..., n esetén.

A legkisebb négyzetek módszere szerint az ismeretlen paraméterek 0-nál és 1-nél történő becsléseként a b 0 és b 1 mintajellemzők olyan értékeit kell venni, amelyek minimálisra csökkentik a 0 és 1-es mintajellemzők négyzetes eltéréseinek összegét. hatásos jellemző y i a feltételes matematikai elvárás? én

Tizenhét tipikus, átlagos méretű és gazdasági tevékenységi mutatókkal rendelkező vállalkozás példáján áttekintjük a marketing jellemzőinek a vállalkozás nyereségére gyakorolt ​​hatásának meghatározásának módszerét.

A probléma megoldása során a következő, kérdőíves felmérés eredményeként a legjelentősebbnek (fontosnak) azonosított jellemzőket vettük figyelembe:

* a vállalkozás innovációs tevékenysége;

* termékválaszték tervezése;

* árpolitika kialakítása;

* közkapcsolatok;

* marketing rendszer;

* munkavállalói ösztönző rendszer.

A faktorok szerinti összehasonlítás rendszere alapján négyzetes szomszédsági mátrixokat állítottak fel, amelyekben az egyes tényezők relatív prioritásainak értékeit számították ki: a vállalkozás innovációs tevékenysége, termékpaletta tervezése, árpolitika, reklám, PR, értékesítési rendszer, munkavállalói ösztönző rendszer.

A „nyilvánossággal való kapcsolatok” tényező prioritásainak becslését a vállalat szakemberei körében végzett felmérés eredményeként kaptuk. A következő elnevezések elfogadottak: > (jobb), > (jobb vagy azonos), = (egyenlő),< (хуже или одинаково), <

Ezt követően megoldódott a vállalkozás marketing szintjének átfogó felmérésének problémája. A mutatószámítás során meghatározásra került a vizsgált jellemzők jelentősége (súlya), és megoldódott az egyes mutatók lineáris konvolúciójának problémája. Az adatfeldolgozás speciálisan kifejlesztett programok szerint történt.

Ezt követően kiszámítják a vállalkozás marketing szintjének átfogó értékelését - a marketing együtthatót, amelyet az 1. táblázatban kell megadni. Ezenkívül a fenti táblázat tartalmazza a vállalkozás egészét jellemző mutatókat. A táblázat adatait a regressziós elemzéshez használjuk fel. Az eredmény profit. Tényezőjelként a marketing együttható mellett a következő mutatókat használtam: a bruttó kibocsátás volumene, a tárgyi eszközök költsége, a foglalkoztatottak száma, a specializációs együttható.

1. táblázat – Kiindulási adatok a regressziós elemzéshez


A táblázatban szereplő adatok és a legjelentősebb korrelációs együttható értékekkel rendelkező tényezők alapján a profit tényezőktől való függésének regressziós függvényeit építettük fel.

Esetünkben a regressziós egyenlet a következőképpen alakul:

A regressziós egyenlet együtthatói a fent tárgyalt tényezőknek a profit nagyságára gyakorolt ​​mennyiségi hatásáról beszélnek. Megmutatják, hogy hány ezer rubelben változik az értéke, ha a tényezőjel egy egységgel változik. Amint az egyenletből következik, a marketingmix arányának egy egységgel történő növelése 1547,7 ezer rubel nyereségnövekedést eredményez. Ez arra utal, hogy a marketingtevékenység javításában óriási lehetőség rejlik a vállalkozások gazdasági teljesítményének javítására.

A marketing hatékonyságának vizsgálatában a legérdekesebb és legfontosabb tényezőjellemző az X5 faktor - a marketing együttható. A statisztika elméletének megfelelően a meglévő többszörös regressziós egyenlet előnye, hogy képes értékelni az egyes tényezők elszigetelt hatását, beleértve a marketingtényezőt is.

Az elvégzett regressziós elemzés eredményeit is szélesebb körben használják, mint az egyenlet paramétereinek kiszámításához. A vállalkozások (Kef,) viszonylag jobb vagy relatíve rosszabb minősítésének kritériuma az eredmény relatív mutatóján alapul:

ahol Y facti az i-edik vállalkozás tényleges értéke, ezer rubel;

Kiszámított Y - az i-edik vállalkozás nyereségének értéke, amelyet a regressziós egyenlet szerinti számítással kapunk

A megoldandó probléma szempontjából az értéket "hatékonysági tényezőnek" nevezik. A vállalkozás tevékenysége akkor tekinthető eredményesnek, ha az együttható értéke egynél nagyobb. Ez azt jelenti, hogy a tényleges nyereség nagyobb, mint a minta átlaga.

A tényleges és számított nyereségértékeket a táblázat tartalmazza. 2.

2. táblázat – A regressziós modell effektív jellemzőjének elemzése

A táblázat elemzése azt mutatja, hogy esetünkben a 3., 5., 7., 9., 12., 14., 15., 17. számú vállalkozások vizsgált időszaki tevékenysége eredményesnek tekinthető.

A regresszióanalízis fő jellemzője, hogy segítségével konkrét információk nyerhetők a vizsgált változók közötti kapcsolat formájáról és természetéről.

A regresszióanalízis szakaszainak sorrendje

Tekintsük röviden a regresszióanalízis szakaszait.

    Feladat megfogalmazása. Ebben a szakaszban kialakulnak az előzetes hipotézisek a vizsgált jelenségek függőségére vonatkozóan.

    Függő és független (magyarázó) változók meghatározása.

    Statisztikai adatok gyűjtése. A regressziós modellben szereplő minden egyes változóhoz adatokat kell gyűjteni.

    Hipotézis megfogalmazása a kapcsolat formájáról (egyszerű vagy többszörös, lineáris vagy nemlineáris).

    Meghatározás regressziós függvények (a regressziós egyenlet paraméterei számértékeinek kiszámításából áll)

    A regressziós elemzés pontosságának értékelése.

    A kapott eredmények értelmezése. A regressziós elemzés eredményeit összevetjük az előzetes hipotézisekkel. A kapott eredmények helyességét és hitelességét értékelik.

    A függő változó ismeretlen értékeinek előrejelzése.

A regressziós elemzés segítségével megoldható az előrejelzés és az osztályozás problémája. A prediktív értékek kiszámítása úgy történik, hogy a magyarázó változók értékét behelyettesítik a regressziós egyenletbe. Az osztályozási probléma így oldható meg: a regressziós egyenes az objektumok teljes halmazát két osztályra osztja, és a halmaz azon része, ahol a függvény értéke nagyobb nullánál, egy osztályba tartozik, és az a része, ahol kisebb. mint nulla egy másik osztályba tartozik.

A regresszióanalízis feladatai

Tekintsük a regresszióanalízis fő feladatait: a függőség formájának megállapítása, meghatározása regressziós függvények, a függő változó ismeretlen értékeinek becslése.

A függőség formájának megállapítása.

A változók közötti kapcsolat jellege és formája a következő típusú regressziót képezheti:

    pozitív lineáris regresszió (a függvény egyenletes növekedéseként kifejezve);

    pozitív egyenletesen gyorsuló regresszió;

    pozitív egyenletesen növekvő regresszió;

    negatív lineáris regresszió (egyenletes függvényesésben kifejezve);

    negatív egyenletesen gyorsított csökkenő regresszió;

    negatív egyenletesen csökkenő regresszió.

A leírt fajták azonban általában nem tiszta formában, hanem egymással kombinálva találhatók meg. Ebben az esetben a regresszió kombinált formáiról beszélünk.

A regressziós függvény definíciója.

A második feladat a fő tényezők vagy okok függő változóra gyakorolt ​​hatásának kiderítése, minden más tényező azonossága mellett, a véletlenszerű elemek függő változójára gyakorolt ​​hatás kizárásával. regressziós függvény egy vagy olyan típusú matematikai egyenletként definiálható.

A függő változó ismeretlen értékeinek becslése.

Ennek a problémának a megoldása a következő típusú problémák egyikének megoldására redukálódik:

    A függő változó értékeinek becslése a kezdeti adatok figyelembe vett intervallumán belül, pl. hiányzó értékek; ez megoldja az interpoláció problémáját.

    A függő változó jövőbeli értékeinek becslése, pl. a kezdeti adatok adott intervallumán kívüli értékek keresése; ez megoldja az extrapoláció problémáját.

Mindkét problémát úgy oldjuk meg, hogy a független változók paramétereinek talált becsléseit behelyettesítjük a regressziós egyenletbe. Az egyenlet megoldásának eredménye a cél (függő) változó értékének becslése.

Nézzünk meg néhány olyan feltevést, amelyekre a regressziós elemzés támaszkodik.

Linearitási feltételezés, i.e. feltételezzük, hogy a vizsgált változók közötti kapcsolat lineáris. Tehát ebben a példában felépítettünk egy szórásdiagramot, és egyértelmű lineáris összefüggést láthattunk. Ha a változók szórásdiagramján a lineáris kapcsolat egyértelmű hiányát látjuk, pl. nemlineáris kapcsolat van, nemlineáris elemzési módszereket kell alkalmazni.

Normalitási feltételezés maradék. Feltételezi, hogy az előre jelzett és a megfigyelt értékek közötti különbség eloszlása ​​normális. Az eloszlás természetének vizuális meghatározásához hisztogramokat használhat maradék.

A regressziós elemzés alkalmazásakor figyelembe kell venni annak fő korlátját. Abból áll, hogy a regressziós elemzés csak a függőségek észlelését teszi lehetővé, a függőségek hátterében álló kapcsolatokat nem.

A regresszióanalízis lehetővé teszi a változók közötti asszociáció mértékének felmérését egy változó várható értékének kiszámításával több ismert érték alapján.

Regressziós egyenlet.

A regressziós egyenlet így néz ki: Y=a+b*X

Ezzel az egyenlettel az Y változót az a konstans és a b egyenes (vagy meredekség) meredeksége és az X változó értékének szorzataként fejezzük ki. Az a konstanst metszéspontnak is nevezik, a meredekség pedig a regresszió. együttható vagy B-tényező.

A legtöbb esetben (ha nem is mindig) a megfigyelések bizonyos szóródásai vannak a regressziós egyenessel kapcsolatban.

Maradék egy egyedi pont (megfigyelés) eltérése a regressziós egyenestől (előre jelzett érték).

A regressziós elemzés problémájának megoldásához MS Excelben válassza ki a menüből Szolgáltatás"Elemzési csomag"és a Regresszióelemző eszköz. Adja meg az X és Y beviteli intervallumokat Az Y bemeneti intervallum az elemzett függő adatok tartománya, és egy oszlopot kell tartalmaznia. Az X bemeneti intervallum az elemezni kívánt független adatok tartománya. A bemeneti tartományok száma nem haladhatja meg a 16-ot.

Az eljárás kimeneténél a kimeneti tartományban a megadott jelentést kapjuk táblázat 8.3a-8,3V.

EREDMÉNYEK

8.3a. táblázat. Regressziós statisztika

Regressziós statisztika

Több R

R-négyzet

Normalizált R-négyzet

standard hiba

Észrevételek

Először vegye figyelembe a számítások felső részét táblázat 8.3a, - regressziós statisztika.

Érték R-négyzet, amelyet a bizonyosság mértékének is neveznek, a kapott regressziós egyenes minőségét jellemzi. Ezt a minőséget az eredeti adatok és a regressziós modell (számított adatok) közötti megfelelés mértéke fejezi ki. A bizonyosság mértéke mindig az intervallumon belül van.

A legtöbb esetben az érték R-négyzet ezen értékek között van, úgynevezett szélsőséges, azaz. nulla és egy között.

Ha az érték R-négyzet közel egységhez, ez azt jelenti, hogy a felépített modell a megfelelő változók szinte minden változékonyságát megmagyarázza. Ezzel szemben az érték R-négyzet, közel nullához, a megépített modell rossz minőségét jelenti.

Példánkban a bizonyosság mértéke 0,99673, ami a regressziós egyenesnek az eredeti adatokhoz való nagyon jó illeszkedését jelzi.

többes szám R - R többszörös korrelációs együttható - a független változók (X) és a függő változók (Y) függésének mértékét fejezi ki.

Több R megegyezik a determinációs együttható négyzetgyökével, ez az érték nullától egyig terjedő tartományban vesz fel értékeket.

Egyszerű lineáris regressziós elemzésben többes szám R egyenlő a Pearson-korrelációs együtthatóval. Igazán, többes szám R esetünkben megegyezik az előző példa Pearson-korrelációs együtthatójával (0,998364).

8.3b. táblázat. Regressziós együtthatók

Esély

standard hiba

t-statisztika

Y kereszteződés

X változó 1

* A számítások csonkolt változatát adjuk meg

Most nézzük meg a számítások középső részét táblázat 8.3b. Itt a b regressziós együttható (2,305454545) és az y tengely menti eltolás adott, azaz. a konstans (2,694545455).

A számítások alapján a következőképpen írhatjuk fel a regressziós egyenletet:

Y= x*2,305454545+2,694545455

A változók közötti kapcsolat irányát a regressziós együtthatók (b együttható) előjelei (negatív vagy pozitív) alapján határozzuk meg.

Ha a regressziós együttható előjele pozitív, akkor a függő változó és a független változó közötti kapcsolat pozitív lesz. Esetünkben a regressziós együttható előjele pozitív, ezért a kapcsolat is pozitív.

Ha a regressziós együttható előjele negatív, akkor a függő változó és a független változó közötti kapcsolat negatív (inverz).

BAN BEN táblázat 8.3c. kimeneti eredményeket mutatnak be maradék. Ahhoz, hogy ezek az eredmények megjelenjenek a jelentésben, a "Regresszió" eszköz indításakor aktiválni kell a "Maradékok" jelölőnégyzetet.

FÉLRE VONATKOZÓ VISSZAVONÁS

8.3c. táblázat. Maradványok

Megfigyelés

Megjósolta Y

Maradványok

Standard egyenlegek

A jelentés ezen részét felhasználva láthatjuk az egyes pontok eltéréseit a megszerkesztett regressziós egyenestől. Legnagyobb abszolút érték maradék esetünkben - 0,778, a legkisebb - 0,043. Ezen adatok jobb értelmezéséhez az eredeti adatok diagramját és a 3. ábrán bemutatott szerkesztett regressziós egyenest használjuk. rizs. 8.3. Amint láthatja, a regressziós egyenes meglehetősen pontosan "illeszthető" az eredeti adatok értékeihez.

Figyelembe kell venni, hogy a vizsgált példa meglehetősen egyszerű, és közel sem mindig lehet minőségileg lineáris regressziós egyenest felállítani.

Rizs. 8.3. Kezdeti adatok és regressziós egyenes

Megfontolatlan maradt a függő változó ismeretlen jövőbeli értékeinek a független változó ismert értékei alapján történő becslésének problémája, pl. előrejelzési feladat.

A regressziós egyenlet birtokában az előrejelzési probléma az Y= x*2,305454545+2,694545455 egyenlet megoldására redukálódik ismert x értékekkel. Bemutatjuk az Y függő változó hat lépéssel előrejelzésének eredményeit táblázatban a 8.4.

8.4. táblázat. Y változó előrejelzési eredményei

Y (jósolt)

Így a Microsoft Excel csomag regressziós elemzésének eredményeként:

    felépített egy regressziós egyenletet;

    megállapította a függőség formáját és a változók közötti kapcsolat irányát - pozitív lineáris regresszió, amely a függvény egyenletes növekedésében fejeződik ki;

    meghatározta a változók közötti kapcsolat irányát;

    értékelte a kapott regressziós egyenes minőségét;

    láthatták a számított adatok eltéréseit az eredeti halmaz adataitól;

    megjósolta a függő változó jövőbeli értékeit.

Ha regressziós függvény definiált, értelmezett és indokolt, és a regressziós elemzés pontosságának értékelése megfelel a követelményeknek, feltételezhetjük, hogy a felépített modell és a prediktív értékek kellően megbízhatóak.

Az így kapott becsült értékek a várható átlagértékek.

Ebben a cikkben áttekintettük a főbb jellemzőket leíró statisztikaés köztük olyan fogalmak, mint átlagos érték,középső,maximális,minimálisés az adatok variációjának egyéb jellemzői.

A koncepció rövid megbeszélésére is sor került kibocsátások. A vizsgált jellemzők az ún. feltáró adatelemzésre vonatkoznak, következtetései nem a teljes sokaságra, hanem csak egy adatmintára vonatkozhatnak. A feltáró adatelemzést elsődleges következtetések levonására és a sokaságra vonatkozó hipotézisek felállítására használják.

A korrelációs és regressziós elemzés alapjait, feladatait és gyakorlati felhasználási lehetőségeit is figyelembe vettük.