Hogyan számítsuk ki a konfidencia intervallumot. Kérdések a tanulók önvizsgálatához

Konstantin Krawchik világosan elmagyarázza, mi a konfidenciaintervallum az orvosi kutatásban, és hogyan kell használni

A "Katren-Style" továbbra is Konstantin Kravchik ciklusát publikálja az orvosi statisztikákról. A szerző két korábbi cikkében olyan fogalmak magyarázatát érintette, mint és.

Konstantin Kravchik

Matematikus-elemző. Szakember a területen statisztikai tanulmányok az orvostudományban és bölcsészettudományok

Moszkva város

Nagyon gyakran a klinikai vizsgálatokról szóló cikkekben találhat egy titokzatos kifejezést: "konfidenciaintervallum" (95% CI vagy 95% CI - konfidencia intervallum). Például egy cikkben ez állhat: "A tanulói t-tesztet a különbségek szignifikanciájának felmérésére használták, 95%-os konfidenciaintervallumot számítva."

Mi a "95%-os konfidencia intervallum" értéke, és miért kell kiszámítani?

Mi az a konfidenciaintervallum? - Ez az a tartomány, amelybe a népesség valódi átlagértékei esnek. És mi van, vannak "valótlan" átlagok? Bizonyos értelemben igen, igen. Ebben kifejtettük, hogy a teljes populációban nem lehet mérni az érdeklődésre számot tartó paramétert, ezért a kutatók megelégszenek egy korlátozott mintával. Ebben a mintában (például testtömeg szerint) van egy átlagérték (egy bizonyos súly), amely alapján a teljes általános sokaság átlagát ítéljük meg. Nem valószínű azonban, hogy a mintában (különösen egy kicsiben) az átlagos tömeg egybeesik az általános sokaság átlagos súlyával. Ezért helyesebb az általános populáció átlagértékeinek tartományának kiszámítása és használata.

Tegyük fel például, hogy a hemoglobin 95%-os konfidencia intervalluma (95% CI) 110 és 122 g/l között van. Ez azt jelenti, hogy 95 %-os valószínűséggel a hemoglobin valódi átlagértéke az általános populációban 110-122 g/l tartományba esik. Más szóval, nem ismerjük az átlagos hemoglobint az általános populációban, de ennek a tulajdonságnak az értéktartományát 95%-os valószínűséggel tudjuk jelezni.

A bizalmi intervallumok különösen fontosak a csoportok közötti átlagok különbsége, vagy az úgynevezett hatásméret szempontjából.

Tegyük fel, hogy összehasonlítottuk két vaskészítmény hatékonyságát: egy régóta forgalomban lévő és egy most bejegyzett vaskészítményt. Terápiás kúra után a vizsgált betegcsoportokban felmértük a hemoglobin koncentrációját, és statisztikai program kiszámoltuk, hogy a két csoport átlagértékei közötti különbség 95%-os valószínűséggel 1,72-14,36 g/l tartományban van (1. táblázat).

Tab. 1. Független minták kritériuma
(a csoportokat hemoglobinszint alapján hasonlítják össze)

Ezt a következőképpen kell értelmezni: az általános populációban az új gyógyszert szedő betegek egy részénél átlagosan 1,72-14,36 g/l-rel lesz magasabb a hemoglobin, mint azoknál, akik már ismert gyógyszert szedtek.

Más szóval, az általános populációban a csoportok hemoglobin átlagértékeinek különbsége 95% -os valószínűséggel ezeken a határokon belül van. A kutatónak kell eldöntenie, hogy ez sok vagy kevés. Mindennek az a lényege, hogy nem egy átlagértékkel dolgozunk, hanem egy értéktartománnyal, ezért megbízhatóbban becsüljük meg egy paraméter különbségét a csoportok között.

A statisztikai csomagokban a kutató döntése alapján a konfidenciaintervallum határai önállóan szűkíthetők vagy bővíthetők. A konfidenciaintervallum valószínűségeinek csökkentésével szűkítjük az átlagok körét. Például 90%-os CI-nél az átlagok tartománya (vagy az átlagkülönbségek) szűkebb lesz, mint 95%-os CI-nél.

Ezzel szemben a valószínűség 99%-ra növelése szélesíti az értékek tartományát. A csoportok összehasonlításakor a CI alsó határa átlépheti a nullát. Például, ha a konfidenciaintervallum határait kiterjesztettük 99 %-ra, akkor az intervallum határai –1 és 16 g/L között mozogtak. Ez azt jelenti, hogy az általános populációban vannak olyan csoportok, amelyek közötti átlagok különbsége a vizsgált tulajdonságnál 0 (M=0).

A megbízhatósági intervallumok statisztikai hipotézisek tesztelésére használhatók. Ha a konfidencia intervallum átlépi a nulla értéket, akkor igaz a nullhipotézis, amely feltételezi, hogy a csoportok nem különböznek a vizsgált paraméterben. A fentebb leírt példa, amikor a határokat 99%-ra bővítettük. Valahol az általános populációban találtunk olyan csoportokat, amelyek semmiben sem különböztek egymástól.

A hemoglobin különbségének 95%-os konfidencia intervalluma, (g/l)


Az ábra a két csoport átlagos hemoglobin-különbségének 95%-os konfidencia intervallumát mutatja vonalként. A vonal átmegy a nulla ponton, ezért a nullával egyenlő átlagok között különbség van, ami megerősíti azt a nullhipotézist, hogy a csoportok nem különböznek egymástól. A csoportok közötti különbség -2 és 5 g/l között van, ami azt jelenti, hogy a hemoglobin vagy 2 g/l-rel csökkenhet, vagy 5 g/l-rel emelkedhet.

A konfidenciaintervallum nagyon fontos mutató. Ennek köszönhetően látható, hogy a csoportok közötti különbségek valóban az átlagok eltéréséből, vagy a nagy mintából származtak-e, mert nagy mintánál nagyobb az esély a különbségek megtalálására, mint egy kicsinél.

A gyakorlatban ez így nézhet ki. 1000 fős mintát vettünk, megmértük a hemoglobinszintet, és megállapítottuk, hogy az átlagok különbségének konfidencia intervalluma 1,2-1,5 g/l. A statisztikai szignifikancia szintje ebben az esetben p

Látjuk, hogy a hemoglobin koncentráció nőtt, de szinte észrevehetetlenül, ezért a statisztikai szignifikancia éppen a mintanagyság miatt jelent meg.

A bizalmi intervallumok nemcsak átlagokra, hanem arányokra (és kockázati arányokra) is számíthatók. Például arra vagyunk kíváncsiak, hogy a kifejlesztett gyógyszer szedése közben milyen arányban értek el remissziót a betegek konfidencia intervalluma. Tételezzük fel, hogy az arányok, azaz az ilyen betegek arányának 95%-os CI-je a 0,60-0,80 tartományba esik. Így elmondhatjuk, hogy gyógyszerünk az esetek 60-80%-ában terápiás hatású.

A megoldás egyik módja statisztikai feladatokat a konfidencia intervallum kiszámítása. A pontbecslés előnyben részesített alternatívájaként használják, ha a minta mérete kicsi. Meg kell jegyezni, hogy a konfidenciaintervallum kiszámításának folyamata meglehetősen bonyolult. De az Excel program eszközei lehetővé teszik némi egyszerűsítést. Nézzük meg, hogyan történik ez a gyakorlatban.

Ezt a módszert különféle statisztikai mennyiségek intervallumbecslésére használják. Ennek a számításnak a fő feladata a pontbecslés bizonytalanságaitól való megszabadulás.

Az Excelben két fő lehetőség van a módszerrel történő kiszámításra: amikor ismert a variancia, és amikor ismeretlen. Az első esetben a függvényt számításokhoz használjuk BIZALOM NORM, és a másodikban BIZALOM.DIÁK.

1. módszer: CONFIDENCE NORM funkció

Operátor BIZALOM NORM, amely a függvények statisztikai csoportjára utal, először az Excel 2010-ben jelent meg. A program korábbi verziói a megfelelőjét használják BIZALOM. Ennek az operátornak az a feladata, hogy kiszámítsa a populáció átlagának normális eloszlású konfidenciaintervallumát.

A szintaxisa a következő:

BIZTONSÁGI NORM(alfa, standard_dev, méret)

"Alfa" a megbízhatósági szint kiszámításához használt szignifikanciaszintet jelző argumentum. A megbízhatósági szint megegyezik a következő kifejezéssel:

(1-"Alfa")*100

"Szabvány eltérés" egy érv, melynek lényege a névből is kiderül. Ez szórás javasolt minta.

"Méret" egy argumentum, amely meghatározza a minta méretét.

Az operátorhoz tartozó összes argumentum megadása kötelező.

Funkció BIZALOM pontosan ugyanazok az érvek és lehetőségek, mint az előző. A szintaxisa a következő:

TRUST(alfa, standard_dev, méret)

Mint látható, a különbségek csak az operátor nevében vannak. Ezt a funkciót az Excel 2010 és az újabb verziók egy speciális kategóriában megtartották kompatibilitási okokból. "Kompatibilitás". Az Excel 2007 és korábbi verzióiban a statisztikai operátorok fő csoportjában van jelen.

A konfidenciaintervallum határát a következő képlet segítségével határozzuk meg:

X+(-)BIZALMI NORM

Ahol x a minta átlaga, amely a kiválasztott tartomány közepén helyezkedik el.

Most nézzük meg, hogyan kell kiszámítani a konfidenciaintervallumot konkrét példa. 12 tesztet végeztek, amelyek különböző eredményeket adtak, amelyeket a táblázatban sorolunk fel. Ez a mi összességünk. A szórása 8. A konfidencia intervallumot 97%-os konfidenciaszinten kell kiszámítanunk.

  1. Válassza ki azt a cellát, ahol az adatfeldolgozás eredménye megjelenik. A gombra kattintva "Funkció beszúrása".
  2. Megjelenik Funkcióvarázsló. Ugrás a kategóriához "Statisztikai"és jelölje ki a nevet "CONFIDENCE.NORM". Ezt követően kattintson a gombra rendben.
  3. Megnyílik az argumentumok ablaka. Mezői természetesen megfelelnek az argumentumok nevének.
    Állítsa a kurzort az első mezőre - "Alfa". Itt meg kell határoznunk a szignifikancia szintjét. Emlékszünk rá, hogy a bizalom szintje 97%. Ugyanakkor azt mondtuk, hogy a kiszámítása a következő:

    (1-bizalmi szint)/100

    Vagyis az érték helyettesítésével a következőt kapjuk:

    Egyszerű számításokkal megtudjuk, hogy az érv "Alfa" egyenlő 0,03 . Írja be ezt az értéket a mezőbe.

    Mint tudják, a szórás egyenlő 8 . Ezért a terepen "Szabvány eltérés" csak írja le ezt a számot.

    A terepen "Méret" meg kell adnia az elvégzett vizsgálatok elemeinek számát. Ahogy emlékszünk, ők 12 . De annak érdekében, hogy a képlet automatizálható legyen, és ne kelljen minden új teszt futtatásakor szerkeszteni, állítsuk ezt az értéket közös szám, és az operátor használatával JELÖLJE BE. Tehát a kurzort a mezőbe tesszük "Méret", majd kattintson a háromszögre, amely a képletsor bal oldalán található.

    Megjelenik a legutóbb használt funkciók listája. Ha az üzemeltető JELÖLJE BE használta a közelmúltban, szerepelnie kell ezen a listán. Ebben az esetben csak a nevére kell kattintania. Ellenkező esetben, ha nem találja, akkor menjen a lényegre "További funkciók...".

  4. Számunkra már ismerősnek tűnik Funkcióvarázsló. Visszatérve a csoporthoz "Statisztikai". Ott kiválasztjuk a nevet "JELÖLJE BE". Kattintson a gombra rendben.
  5. Megjelenik a fenti operátor argumentum ablaka. Ez a funkció a megadott tartományban a számértékeket tartalmazó cellák számának kiszámítására szolgál. A szintaxisa a következő:

    COUNT(érték1, érték2,…)

    Érvelési csoport "Értékek" egy hivatkozás arra a tartományra, amelyben ki szeretné számítani a numerikus adatokkal töltött cellák számát. Összesen 255 ilyen érv lehet, de esetünkben csak egyre van szükségünk.

    Állítsa a kurzort a mezőbe "Érték1"és a bal egérgombot lenyomva tartva válassza ki a lapon azt a tartományt, amely a populációnkat tartalmazza. Ezután a címe megjelenik a mezőben. Kattintson a gombra rendben.

  6. Ezt követően az alkalmazás elvégzi a számítást, és megjeleníti az eredményt abban a cellában, ahol maga. A mi konkrét esetünkben a képlet így alakult:

    BIZTONSÁGI NORM(0,03;8;SZÁM.(B2:B13))

    A számítások összesített eredménye az volt 5,011609 .

  7. De ez még nem minden. Emlékszünk rá, hogy a konfidencia intervallum határát a számítási eredmény átlagos mintaértékének összeadásával és kivonásával számítjuk ki. BIZALOM NORM. Ily módon a konfidenciaintervallum jobb és bal határa kerül kiszámításra. Maga a mintaátlag kiszámítható az operátor segítségével ÁTLAGOS.

    Ez az operátor a kiválasztott számtartomány számtani középértékének kiszámítására szolgál. A következő meglehetősen egyszerű szintaxissal rendelkezik:

    ÁTLAG(szám1, szám2,…)

    Érv "Szám" lehet egyetlen numerikus érték vagy hivatkozás az ezeket tartalmazó cellákra vagy akár teljes tartományokra.

    Tehát válassza ki azt a cellát, amelyben az átlagérték számítása megjelenik, és kattintson a gombra "Funkció beszúrása".

  8. megnyílik Funkcióvarázsló. Vissza a kategóriához "Statisztikai"és válasszon egy nevet a listából "ÁTLAGOS". Mint mindig, kattintson a gombra rendben.
  9. Elindul az argumentumok ablaka. Állítsa a kurzort a mezőbe "1. szám"és a bal egérgomb lenyomásával válassza ki a teljes értéktartományt. Miután a koordináták megjelennek a mezőben, kattintson a gombra rendben.
  10. Azt követően ÁTLAGOS a számítás eredményét egy lapelemre adja ki.
  11. Kiszámoljuk a konfidenciaintervallum jobb határát. Ehhez válasszon ki egy külön cellát, helyezze el a jelet «=» és adja hozzá azoknak a lapelemeknek a tartalmát, amelyekben a függvényszámítás eredményei találhatók ÁTLAGOSÉs BIZALOM NORM. A számítás elvégzéséhez nyomja meg a gombot Belép. Esetünkben a következő képletet kaptuk:

    A számítás eredménye: 6,953276

  12. Ugyanígy számítjuk ki a konfidenciaintervallum bal határát is, csak ezúttal a számítás eredményéből ÁTLAGOS vonjuk le az operátor számításának eredményét BIZALOM NORM. Kiderül, hogy a következő típusú példánk képlete:

    A számítás eredménye: -3,06994

  13. Megpróbáltuk részletesen leírni a konfidenciaintervallum kiszámításának minden lépését, ezért minden képletet részletesen leírtunk. De az összes műveletet kombinálhatja egy képletben. A konfidenciaintervallum jobb korlátjának kiszámítása a következőképpen írható fel:

    ÁTLAG(B2:B13)+BIZALOM(0.03;8,SZÁM.(B2:B13))

  14. A bal oldali szegély hasonló számítása így nézne ki:

    ÁTLAG(B2:B13)-BIZALMAS.NORM(0.03;8;SZÁM.(B2:B13))

2. módszer: TRUST.STUDENT funkció

Ezenkívül az Excelben van egy másik funkció is, amely a konfidencia intervallum kiszámításához kapcsolódik - BIZALOM.DIÁK. Csak az Excel 2010 óta jelent meg. Ez az operátor a sokaság konfidencia intervallumának kiszámítását a Student-féle t-eloszlás segítségével végzi el. Használata nagyon kényelmes abban az esetben, ha a szórás és ennek megfelelően a szórás ismeretlen. Az operátor szintaxisa a következő:

TRUST.STUDENT(alfa,standard_dev,méret)

Mint látható, az operátorok neve ebben az esetben változatlan maradt.

Nézzük meg, hogyan lehet kiszámítani az ismeretlen szórással rendelkező konfidencia intervallum határait ugyanazon sokaság példáján, amelyet az előző módszerben figyelembe vettünk. A bizalom szintje, mint legutóbb, 97%-ot vesz fel.

  1. Válassza ki azt a cellát, amelyben a számítás készül. Kattintson a gombra "Funkció beszúrása".
  2. A nyitottban Funkcióvarázsló menj a kategóriába "Statisztikai". Válasszon egy nevet "BIZALOM.DIÁK". Kattintson a gombra rendben.
  3. Elindul a megadott operátor argumentum ablaka.

    A terepen "Alfa", tekintettel arra, hogy a megbízhatósági szint 97%, felírjuk a számot 0,03 . Másodszor nem foglalkozunk a paraméter kiszámításának elveivel.

    Ezután állítsa a kurzort a mezőbe "Szabvány eltérés". Ez a mutató ezúttal ismeretlen számunkra, és ki kell számítani. Ez egy speciális funkció segítségével történik - STDEV.V. Az operátor ablakának meghívásához kattintson a képletsor bal oldalán található háromszögre. Ha a megnyíló listában nem találjuk a kívánt nevet, akkor lépjen az elemre "További funkciók...".

  4. fut Funkcióvarázsló. Áthelyezés kategóriába "Statisztikai"és jelölje be a nevet "STDEV.B". Ezután kattintson a gombra rendben.
  5. Megnyílik az argumentumok ablaka. operátori feladat STDEV.V a mintavételi szórás definíciója. A szintaxisa így néz ki:

    STDEV.V(szám1,szám2,…)

    Könnyű kitalálni, hogy az érv "Szám" a kiválasztási elem címe. Ha a kijelölés egyetlen tömbbe kerül, akkor egyetlen argumentumot használva megadhat egy hivatkozást erre a tartományra.

    Állítsa a kurzort a mezőbe "1. szám"és mint mindig, a bal egérgombot lenyomva tartva válassza ki a készletet. Miután a koordináták a mezőben vannak, ne rohanjon megnyomni a gombot rendben mert az eredmény hibás lesz. Először vissza kell térnünk az operátori argumentumok ablakhoz BIZALOM.DIÁK hogy a végső érvet. Ehhez kattintson a megfelelő névre a képletsorban.

  6. Újra megnyílik a már ismert függvény argumentum ablaka. Állítsa a kurzort a mezőbe "Méret". Ismét kattintson a számunkra már ismerős háromszögre az operátorok kiválasztásához. Amint érti, szükségünk van egy névre "JELÖLJE BE". Mivel az előző módszernél ezt a függvényt használtuk a számítások során, jelen van ebben a listában, ezért csak kattintson rá. Ha nem találja, kövesse az első módszerben leírt algoritmust.
  7. Belépés az érvek ablakába JELÖLJE BE, vigye a kurzort a mezőbe "1. szám"és az egérgombot lenyomva tartva válassza ki a gyűjteményt. Ezután kattintson a gombra rendben.
  8. Ezt követően a program kiszámítja és megjeleníti a konfidencia intervallum értékét.
  9. A határok meghatározásához ismét ki kell számítanunk a minta átlagát. De tekintettel arra, hogy a számítási algoritmus a képlet segítségével ÁTLAGOS ugyanaz, mint az előző módszernél, és még az eredmény sem változott, erre másodszor nem térünk ki részletesen.
  10. A számítás eredményeinek összeadása ÁTLAGOSÉs BIZALOM.DIÁK, megkapjuk a konfidenciaintervallum megfelelő határát.
  11. Kivonás az operátor számítási eredményeiből ÁTLAGOS számítási eredmény BIZALOM.DIÁK, megvan a konfidenciaintervallum bal oldali korlátja.
  12. Ha a számítást egy képletben írják le, akkor esetünkben a megfelelő határ kiszámítása így fog kinézni:

    ÁTLAG(B2:B13)+DIÁK BIZALMA(0,03,STDV(B2:B13),SZÁM(B2:B13))

  13. Ennek megfelelően a bal oldali szegély kiszámításának képlete így fog kinézni:

    ÁTLAG(B2:B13) – DIÁK BIZALMA(0,03,STDV(B2:B13),SZÁM(B2:B13))

Mint látható, az Excel program eszközei lehetővé teszik a konfidenciaintervallum és határainak kiszámítását jelentősen megkönnyítik. Ebből a célból külön operátorokat használnak az ismert és ismeretlen varianciájú mintákhoz.

Az intervallumbecslésre példa az megbízhatósági intervallum. A konfidenciaintervallum egy olyan szegmens, amelynek középpontja egy numerikus jellemző pontbecslése, beleértve ennek a numerikus jellemzőnek adott valószínűséggel való valódi értékét. Ezt a valószínűséget ún megbízhatósági valószínűség. A konfidenciaintervallum tehát a becslés pontosságának mértéke, a konfidenciavalószínűség pedig a megbízhatóságát jellemzi. A konfidenciaintervallum nagysága attól függ, hogy a kísérletvezető milyen konfidenciavalószínűségi értéket ad meg. Minél magasabb a konfidenciaszint, annál szélesebbnek kell lennie az intervallumnak ahhoz, hogy adott valószínűséggel tartalmazza a numerikus jellemző valódi értékét. Gyakran P d = 0,95 konfidenciaértéket választanak, így azt hiszik, hogy ez az érték elég nagy ahhoz, hogy figyelembe vegyük, hogy a konfidenciaintervallum „majdnem mindig” fedi a valódi értéket. Csak néha, felelősségteljes és nagyon felelősségteljes kutatás esetén feltételezzük, hogy P d = 0,99, illetve 0,999.

A konfidenciaintervallum felépítésének eljárása két lépésből áll:

Valószínűségi állítás írása egyesekről véletlenszerű függvény, amely az értékelés és a számszerű jellemző különbségét vagy arányát tartalmazza. Egy ilyen függvény információt hordoz az említett értékek közelségi fokáról. Ismerni kell a függvény eloszlási törvényét;

A valószínűségi állítást olyan formává alakítjuk, amelyben a numerikus jellemző konfidenciaintervallumának határai explicit formában jelennek meg.

Az alábbi példák ismert eloszlású függvényekre, amelyek kielégítik a szükséges követelményeket:

normális eloszlású, ha X értéke normális eloszlású, és s[X] értéke ismert;

2) (3.25)

c m = N-1 Student-eloszlású, ha X értéke normális eloszlású, és s[X] értéke nem ismert előre, de becslése a (3.23) képlet segítségével a kísérleti adatokból megkapható;

3) (3.26)

amelynek Pearson-eloszlása ​​m = N-1, ha X értéke normális eloszlású.

Emlékezzünk vissza, hogy az m eloszlási paraméterek a szabadságfokok számai. Ezenkívül itt a következő jelöléseket használjuk: - számtani középérték, - a variancia négyzetgyökével egyenlő négyzetgyökérték, [X] - az átlagos keretérték becslése, amelyet a torzítatlan becslés négyzetgyökeként határoznak meg. a variancia, N - mintanagyság.

A Z és t függvények használhatók konfidenciaintervallum megalkotására matematikai elvárás, míg a c 2 függvényt a variancia konfidenciaintervallumának összeállítására használjuk.


Alkossunk konfidenciaintervallumot a matematikai elvárásra, feltéve, hogy rendelkezésünkre áll egy X normál eloszlású mennyiség N megfigyelésének eredménye, és a négyzetközépérték független megfigyelésekből előre ismert. Mivel a Z függvény normális eloszlású, a megfelelő táblázat segítségével meghatározhatja z a értékét úgy, hogy - z a és + z a kívül maradjon az eloszlási görbe alatti terület egy része a összegben, míg a [- z a ,+ z a ] a terület egy része, egyenlő 1 - a . Az imént elmondottak megfelelnek a következő valószínűségi állításnak:

Р(- z a £ £+z a )= 1-a. (3,27)

(A zárójelbe tett egyenlőtlenség teljesülésének valószínűsége 1-a.). Alakítsuk át a zárójelben lévő kifejezést:

Р(-z a )= 1 - a

Az 1-a = Р d értéket Р d konfidenciavalószínűségnek nevezzük A (3.28) szerint ezzel a valószínűségi valószínűséggel az M[X] konfidenciaintervallumát a határértékek adják meg:

. (3.29)

Megjegyzés: Sajnos az asztalok normális eloszlás a különböző könyvekben eltérően épülnek fel. Néha adott a valószínűségi integrál

Ф(z) =

Tegyük fel, hogy sok olyan cikkünk van, amelyek bizonyos jellemzői normális eloszlásúak (például egy tele raktár azonos típusú zöldségekkel, amelyek mérete és súlya változó). Szeretné tudni a teljes árutétel átlagos jellemzőit, de nincs se ideje, se kedve az egyes zöldségek megmérésére és lemérésére. Megérted, hogy erre nincs szükség. De hány darabot kell venni a véletlenszerű ellenőrzéshez? Mielőtt megadnánk néhány hasznos képletet ebben a helyzetben, felidézünk néhány jelölést. Először is, ha megmérnénk a teljes zöldségraktárt (ezt az elemkészletet általános sokaságnak nevezzük), akkor a rendelkezésünkre álló pontossággal megtudnánk a teljes tétel tömegének átlagos értékét. Nevezzük ezt átlagnak X átlagos gén. - Általános átlag. Azt már tudjuk, hogy mi az, ami teljesen meghatározott, ha ismert az átlagértéke és az eltérése s. Igaz, egyelőre nem ismerjük sem az X átlagos gént, sem az általános populáció s-t. Csak néhány mintát tudunk venni, megmérni a szükséges értékeket, és ehhez a mintához számítani az átlagos X avg. értéket és az S vyb szórást is. Ismeretes, hogy ha a mintaellenőrzésünk nagyszámú elemet tartalmaz (általában n-nél több, mint 30), és azokat valóban véletlenszerűen vesszük, akkor a sokaság s-e szinte nem fog eltérni az S mintáktól. normál eloszlás esetén a következő képleteket használhatjuk:

95%-os valószínűséggel

99%-os valószínűséggel

.

BAN BEN Általános nézetР(t) valószínűséggel

A t értéke és a P(t) valószínűség értéke közötti összefüggést, amellyel a konfidenciaintervallumot szeretnénk megismerni, a következő táblázatból vehetjük át:

P(t) 0,683 0,950 0,954 0,990 0,997
t 1,00 1,96 2,00 2,58 3,00

Így meghatároztuk, hogy az általános sokaság átlagértéke milyen tartományban van (adott valószínűséggel).

Ha nem rendelkezünk elég nagy mintával, nem állíthatjuk, hogy a sokaság s = S mintákkal rendelkezik. Ráadásul ebben az esetben problémás a minta normál eloszláshoz való közelsége. Ebben az esetben a képletben s helyett S s-t is használjon:

de t értéke fix valószínűségre P(t) az n mintában lévő elemek számától függ. Minél nagyobb n, annál közelebb lesz a kapott konfidenciaintervallum az (1) képlet által megadott értékhez. A t értékek ebben az esetben egy másik táblázatból származnak (tanulói t-teszt), amelyet alább közölünk:

A Student-féle t-próba értékei a valószínűséghez 0,95 és 0,99 

n P n P
0.95 0.99 0.95 0.99
2 12.71 63.66 18 2.11 2.90
3 4.30 9.93 19 2.10 2.88
4 3.18 5.84 20 2.093 2.861
5 2.78 4.60 25 2.064 2.797
6 2.57 4.03 30 2.045 2.756
7 2.45 3.71 35 2.032 2.720
8 2.37 3.50 40 2.022 2.708
9 2.31 3.36 45 2.016 2.692
10 2.26 3.25 50 2.009 2.679
11 2.23 3.17 60 2.001 2.662
12 2.20 3.11 70 1.996 2.649
13 2.18 3.06 80 1.991 2.640
14 2.16 3.01 90 1.987 2.633
15 2.15 2.98 100 1.984 2.627
16 2.13 2.95 120 1.980 2.617
17 2.12 2.92 >120 1.960 2.576

3. példa A cég munkatársai közül véletlenszerűen választottak ki 30 főt. A minta szerint kiderült, hogy az átlagos fizetés (havonta) 10 ezer rubel, átlagos négyzetes eltéréssel 3 ezer rubel. 0,99 valószínűséggel határozza meg az átlagos fizetést a cégben. Megoldás: Feltétel szerint n = 30, X vö. = 10000, S = 3000, P = 0,99. A konfidenciaintervallum meghatározásához a Student-kritériumnak megfelelő képletet használjuk. Az n \u003d 30 és P \u003d 0,99 táblázat szerint t \u003d 2,756-ot találunk, ezért

azok. kívánt konfidencia intervallum 27484< Х ср.ген < 32516.

Tehát 0,99-es valószínűséggel állítható, hogy az intervallum (27484; 32516) tartalmazza a vállalat átlagkeresetét.
Reméljük, hogy ezt a módszert fogja használni anélkül, hogy minden alkalommal lenne nálad egy táblázat. A számítások automatikusan elvégezhetők Excelben. Az Excel fájlban kattintson az fx gombra a felső menüben. Ezután válassza ki a funkciók közül a "statisztikai" típust, és a mezőben lévő javasolt listából - STEUDRASP. Ezután a promptba a kurzort a "valószínűség" mezőbe helyezve írja be a reciprok valószínűség értékét (vagyis esetünkben a 0,95 valószínűség helyett a 0,05 valószínűséget kell beírni). Úgy tűnik, a táblázat úgy van megalkotva, hogy az eredmény választ adjon arra a kérdésre, hogy mekkora valószínűséggel tévedhetünk. Hasonlóképpen, a „szabadságfok” mezőbe írja be a minta (n-1) értékét.

Konfidenciaintervallum a matematikai elvárásokhoz - ez egy olyan adatból számolt intervallum, amely ismert valószínűséggel tartalmazza a teljes sokaság matematikai elvárását. A matematikai elvárás természetes becslése a megfigyelt értékeinek számtani átlaga. Ezért a továbbiakban az óra során az „átlag”, „átlagérték” kifejezéseket fogjuk használni. A konfidenciaintervallum kiszámításának problémáinál a leggyakrabban a következő válaszra van szükség: „Az átlagos szám [érték egy adott feladatban] konfidenciaintervalluma [alacsonyabb érték] és [magasabb érték] között van”. A konfidenciaintervallum segítségével nemcsak az átlagértékek, hanem az általános sokaság egyik vagy másik jellemzőjének aránya is értékelhető. A leckében elemezzük az átlagértékeket, a szórást, a szórást és a hibát, amelyek révén új definíciókhoz és képletekhez jutunk. Minta- és populációs jellemzők .

Az átlag pont- és intervallumbecslései

Ha az általános sokaság átlagértékét egy számmal (ponttal) becsüljük meg, akkor a megfigyelések mintájából számított fajlagos átlagot tekintjük az általános sokaság ismeretlen átlagának becsléseként. Ebben az esetben a minta átlagértéke az valószínűségi változó- nem esik egybe a teljes népesség átlagértékével. Ezért a minta átlagértékének feltüntetésekor egyidejűleg a mintahibát is jelezni kell. A standard hibát a mintavételi hiba mértékeként használják, amelyet az átlaggal azonos egységekben fejeznek ki. Ezért gyakran használják a következő jelölést: .

Ha az átlag becslését egy bizonyos valószínűséghez kell kötni, akkor az általános érdeklődésre számot tartó sokaság paraméterét nem egyetlen számmal, hanem intervallummal kell becsülni. A konfidenciaintervallum egy olyan intervallum, amelyben bizonyos valószínűséggel P az általános sokaság becsült mutatójának értéke található. Bizalmi intervallum, amelyben valószínűséggel P = 1 - α egy valószínűségi változó, a következőképpen számítható ki:

,

α = 1 - P, amely szinte minden statisztikai témájú könyv mellékletében megtalálható.

A gyakorlatban a sokaság átlaga és variancia nem ismert, ezért a sokaság szórását a minta szórása, a sokaság átlagát pedig a minta átlaga helyettesíti. Így a legtöbb esetben a konfidenciaintervallumot a következőképpen számítják ki:

.

A konfidenciaintervallum képlete használható a sokaság átlagának becslésére, ha

  • ismert az általános sokaság szórása;
  • vagy a sokaság szórása nem ismert, de a minta mérete nagyobb, mint 30.

A minta átlaga a sokaság átlagának elfogulatlan becslése. Viszont a minta szórása nem a populáció varianciájának elfogulatlan becslése. A minta varianciaképletében a sokaság szórásának elfogulatlan becsléséhez a minta mérete a következő n-re kell cserélni n-1.

1. példa Egy város 100 véletlenszerűen kiválasztott kávézójából azt az információt gyűjtik, hogy az átlagos alkalmazottak száma 10,5 fő, szórással 4,6. Határozza meg a kávézói dolgozók számának 95%-ának konfidencia intervallumát!

ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,05 .

Így a 95%-os konfidenciaintervallum a kávézói alkalmazottak átlagos létszámára vonatkozóan 9,6 és 11,4 között volt.

2. példa Egy 64 megfigyelésből álló általános sokaságból vett véletlenszerű minta esetén a következő összértékeket számítottuk ki:

értékek összege a megfigyelésekben,

az értékek átlagtól való eltérésének négyzetes összege .

Számítsa ki a várható érték 95%-os konfidencia intervallumát.

számítsuk ki a szórást:

,

számítsa ki az átlagértéket:

.

Cserélje be a kifejezésben szereplő értékeket a konfidencia intervallumra:

ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,05 .

Kapunk:

Így ennek a mintának a matematikai várakozásának 95%-os konfidencia intervalluma 7,484 és 11,266 között volt.

3. példa Egy 100 megfigyelésből álló általános sokaságból vett véletlenszerű minta esetén 15,2-es átlagértéket és 3,2-es szórást számítottunk. Számítsa ki a várható érték 95%-os, majd a 99%-os konfidencia intervallumát. Ha a minta teljesítménye és variációja változatlan marad, de a konfidenciafaktor növekszik, akkor szűkül vagy szélesedik a konfidenciaintervallum?

Ezeket az értékeket behelyettesítjük a konfidenciaintervallum kifejezésébe:

ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,05 .

Kapunk:

.

Így a minta átlagának 95%-os konfidencia intervalluma 14,57 és 15,82 között volt.

Ismét behelyettesítjük ezeket az értékeket a konfidenciaintervallum kifejezésébe:

ahol a szignifikanciaszint standard normális eloszlásának kritikus értéke α = 0,01 .

Kapunk:

.

Így a minta átlagának 99%-os konfidencia intervalluma 14,37 és 16,02 között volt.

Mint látható, a konfidenciafaktor növekedésével a standard normális eloszlás kritikus értéke is növekszik, ezért az intervallum kezdő- és végpontja távolabb helyezkedik el az átlagtól, így a matematikai elvárás konfidencia intervallumától. növeli.

A fajsúly ​​pont- és intervallumbecslése

A minta valamely jellemzőjének részesedése a részesedés pontbecsléseként értelmezhető p ugyanaz a tulajdonság az általános populációban. Ha ezt az értéket valószínűséggel kell társítani, akkor a fajsúly ​​konfidencia intervallumát kell kiszámítani p valószínûséggel P = 1 - α :

.

4. példa Egy bizonyos városban két jelölt van AÉs B indul a polgármesteri tisztségért. A város 200 lakosát választották ki véletlenszerűen, akiknek 46%-a azt válaszolta, hogy a jelöltre szavazna. A, 26% - a jelöltnek B 28%-uk pedig nem tudja, kire fog szavazni. Határozza meg a jelöltet támogató városlakók arányának 95%-os konfidencia intervallumát! A.