Vlastnosti a omezení metod matematické statistiky. Metody matematické statistiky (2) - Abstrakt. vypočítat výběrový rozptyl a výběrovou směrodatnou odchylku s

1. Základní pojmy a definice

statistika vzorkování populace Bernoulli

Pojem statistiky

Statistika, respektive její výzkumné metody, je široce používána v různých oblastech lidského poznání. Jako každá věda však vyžaduje vymezení předmětu svého studia. V tomto ohledu se rozlišuje statistika zabývající se studiem sociálně-ekonomických jevů, která patří do cyklu společenských věd, a statistika zabývající se zákonitostmi přírodních jevů, která patří do přírodních věd.

Autoři většiny moderních tuzemských vysokoškolských učebnic teorie statistiky (obecná teorie statistiky) chápou statistiku jako předmět společenskovědní, tzn. věda, která má svůj speciální předmět a metodu poznání.

Statistika - sociální věda, která studuje kvantitativní stránku kvalitativně definovaných masových socioekonomických jevů a procesů, jejich strukturu a distribuci, rozmístění v prostoru, pohyb v čase, odhalování existujících kvantitativních závislostí, trendů a zákonitostí a ve specifických podmínkách místa a času.

Předmět statistiky

Statistika jako věda nezkoumá jednotlivá fakta, ale masové socioekonomické jevy a procesy, které působí jako množství jednotlivých faktorů, které mají individuální i obecné charakteristiky.

Objekt statistického výzkumu ve statistice se nazývá statistická populace.

Populace - jedná se o soubor jednotek, které mají hromadný charakter, homogenitu, určitou celistvost, vzájemnou závislost stavu jednotlivých jednotek a přítomnost variací.

Například jako speciální objekty statistického výzkumu, tzn. statistických agregátů, může být na území registrováno mnoho komerčních bank Ruská Federace, hromada akciové společnosti, soubor občanů nějaké země atp. Je důležité si uvědomit, že statistická populace se skládá ze skutečně existujících hmotných objektů.

Každý jednotlivý prvek tohoto souboru se nazývá jednotka statistického souboru.

Jednotky statistické populace se vyznačují společné vlastnosti, na které se odkazuje ve statistikách znamení , tj. Kvalitativní homogenita agregátu je chápána jako podobnost jednotek (předmětů, jevů, procesů) podle některých podstatných znaků, v některých jiných se však liší.

Jednotky populace spolu se znaky společnými všem jednotkám, které určují kvalitativní jistotu populace, mají také individuální vlastnosti a rozdíly, které je od sebe odlišují, tzn. existuje variace funkcí . Je to dáno odlišnou kombinací podmínek, které určují vývoj prvků souboru.

Například úroveň produktivity práce zaměstnanců bank je dána jejich věkem, kvalifikací, přístupem k práci atd.

Právě přítomnost variací předurčuje potřebu statistik. . Variace rysu se může odrazit ve statistickém rozložení jednotek populace.

Statistika jako věda studuje především kvantitativní stránku společenských jevů a procesů v konkrétních podmínkách místa a času, tzn. předmětem statistiky je velikost a kvantitativní korelace socioekonomických jevů, zákonitosti jejich propojení a vývoje.

Statistika vyjadřuje kvantitativní charakteristiku prostřednictvím určitého druhu čísel, kterým se říká statistické ukazatele.

statistický odráží výsledek měření pro jednotky populace a populaci jako celek.

Teoretické základy statistiky jako vědy

Teoretický základ každé vědy, včetně statistiky, tvoří pojmy a kategorie, v jejichž souhrnu jsou vyjádřeny základní principy této vědy.

Statistické agregáty mají určité vlastnosti, jejichž nositeli jsou jednotky populace (jevy), které mají určité vlastnosti. Podle formy vnějšího projevu se znaky dělí na atributivní (popisné, kvalitativní) a kvantitativní. Atributivní (kvalitativní) znaky nejsou přístupné kvantitativnímu (numerickému) vyjádření.

Kvantitativní znaky lze rozdělit na diskrétní a spojité.

Důležité kategorie statistik je také statistickou pravidelností.

statistická pravidelnost - jedná se o formu projevu kauzálního vztahu, vyjádřeného v posloupnosti, pravidelnosti, opakování událostí s dostatečným vysoký stupeň pravděpodobnosti, pokud se příčiny (podmínky), které dávají vzniknout událostem, nemění nebo se mírně mění.

Statistická pravidelnost je stanovena na základě analýzy hromadných dat. To určuje její vztah k zákonu velká čísla.

Podstata zákona velkých čísel spočívá v tom, že v číslech shrnujících výsledek hromadných pozorování se objevují určité zákonitosti, které nelze na malém počtu faktorů zjistit. Zákon velkých čísel je generován vlastnostmi hromadných jevů. Tendence a zákonitosti odhalené pomocí zákona velkých čísel platí pouze jako masové tendence, nikoli však jako zákony pro každý samostatný, individuální případ.

Statistická metoda

Statistika jako věda vyvinula techniky a metody pro studium masových společenských jevů v závislosti na charakteristikách jejího předmětu a úkolech, které jsou při jejím studiu kladeny. Techniky a metody, kterými statistika studuje svůj předmět, tvoří statistickou metodologii.

Statistické metodologické prostředky systém technik, metod a metod zaměřených na studium kvantitativních zákonitostí, které se projevují ve struktuře, dynamice a vztazích socioekonomických jevů.

Úkol statistického výzkumu spočívá v získávání zobecňujících charakteristik a identifikaci vzorců ve společenském životě v konkrétních podmínkách místa a času, které se projevují pouze ve velké mase jevů překonáním nahodilosti vlastní jeho jednotlivým prvkům.

Statistický výzkum se skládá ze tří fází:

statistické pozorování;

shrnutí a seskupování výsledků pozorování;

analýza získaných zobecňujících ukazatelů.

Všechny tři stupně jsou vzájemně propojeny a na každém z nich jsou použity speciální metody, vysvětlované obsahem vykonávané práce.

Koncept selektivního pozorování

Statistická metodika studia hromadných jevů rozlišuje, jak známo, dva způsoby pozorování v závislosti na úplnosti pokrytí objektu: spojitý a nesouvislý. Různé nespojité pozorování jsou selektivní.

Pod selektivním dohledem se rozumí takové nekontinuální pozorování, při kterém jsou jednotky studované populace, vybrané náhodně, podrobeny statistickému zkoumání (pozorování).

Selektivní pozorování si klade za úkol - pro zkoumanou část charakterizujte celý soubor jednotek při dodržení všech pravidel a zásad vedení statistické pozorování a vědecky organizované práce na výběru jednotek.

Metoda vzorkování poskytuje potřebné informace s přijatelnou přesností, když časové a nákladové faktory znemožňují neustálý vývoj.

Charakteristika vzorku a obecné populace

Soubor jednotek vybraných pro šetření ve statistice se obvykle nazývá selektivní a množina jednotek, ze kterých se vybírá - Všeobecné.

Hlavní charakteristiky parametrů obecné a výběrové populace jsou označeny určitými symboly ( tab. 1.1 ).

Tabulka 1.1 Symboly hlavních charakteristik parametrů obecné a výběrové populace

Charakteristický

Populace

Vzorová populace

Objem populace (počet jednotek)

Počet jednotek se zkoumaným znakem

Podíl jednotek se zkoumaným znakem

Průměrná velikost funkce

Kvantitativní rozptyl

Podíl rozptylu

V procesu provádění pozorování vzorku, stejně jako obecně při analýze dat jakéhokoli průzkumu, statistika rozlišuje dva typy chyb: registraci a reprezentativnost.

Chyby registrace může být náhodné (neúmyslné) nebo systematické (tendenční) povahy. Lze se jim vyhnout pomocí správná organizace a provádění dohledu.

Chyby v reprezentativnosti jsou organicky vlastní selektivnímu pozorování a vznikají v důsledku skutečnosti, že vzorek plně nereprodukuje obecný.

Chybám reprezentativnosti se nelze vyhnout, ale pomocí metod teorie pravděpodobnosti založených na použití limitních vět zákona velkých čísel lze tyto chyby redukovat na minimální hodnoty, jejichž hranice jsou nastaveny s dostatečně vysokou přesností;

Chyba vzorkování - jedná se o rozdíl mezi hodnotou parametru v běžné populaci a jeho hodnotou vypočtenou z výsledků výběrového pozorování.

Pro průměrnou hodnotu bude chyba definována takto:

Kde, . (1.1)

Hodnota se nazývá mezní výběrová chyba .

Mezní výběrová chyba je náhodná. Limitní věty zákona velkých čísel jsou věnovány studiu vzorců náhodných výběrových chyb.

Tyto vzory jsou nejúplněji popsány v teorémech L.L. Čebyšev a A.M. Ljapunov.

Věta P. L. Čebyševa : při dostatečně velkém počtu nezávislých pozorování lze s pravděpodobností blízkou jedné (tedy téměř s jistotou) tvrdit, že odchylka výběrového průměru od obecného bude libovolně malá.

Věta dokazuje, že hodnota chyby by neměla překročit.

Hodnota vyjadřující směrodatnou odchylku výběrového průměru od obecného průměru zase závisí na fluktuaci znaku v obecné populaci a počtu vybraných jednotek.

Tato závislost je vyjádřena vzorcem

kde - střední výběrová chyba (závisí na metodě odběru vzorků);

Obecná disperze;

Velikost vzorku.

Je dobře vidět, že při volbě velkého počtu jednotek budou rozdíly mezi prostředky menší, tzn. existuje inverzní vztah mezi střední výběrovou chybou a počtem vzorkovaných jednotek.

Lze dokázat, že zvýšení variability znaku s sebou nese zvýšení směrodatné odchylky a následně i chyby.

Poměr mezi rozptyly obecné a výběrové populace vyjadřuje vzorec

Protože se hodnota pro dostatečně velký blíží, můžeme přibližně předpokládat, že výběrový rozptyl je roven obecnému rozptylu, tzn. .

Proto, ukazuje střední vzorkovací chyba , jaké možné odchylky charakteristik výběrové populace od odpovídajících charakteristik obecné populace. Velikost této chyby však lze s určitou pravděpodobností posoudit. Multiplikátor udává velikost pravděpodobnosti.

A. M. Ljapunov dokázal, že rozložení průměrů vzorku (a následně i jejich odchylky od obecného průměru) s dostatečně velkým počtem nezávislých pozorování je přibližně normální za předpokladu, že obecná populace má konečný průměr a omezený rozptyl.

Matematicky Ljapunovova věta lze napsat takto:

kde - mezní výběrová chyba .

Hodnoty tohoto integrálu pro různé hodnoty koeficientu spolehlivosti byly vypočteny a jsou uvedeny ve speciálních matematických tabulkách.

Například:

t = 1 F(t) = 0,683; t = 1,5 F(t) = 0,866;

t = 2F(t) = 0,954; t = 2,5 F(t) = 0,988;

t = 3 F(t) = 0,997; t = 3,5 F(t) = 0,999.

Lze to číst následovně: s pravděpodobností lze tvrdit, že rozdíl mezi výběrovým souborem a obecným průměrem nepřesahuje jednu hodnotu střední výběrové chyby.

Jinými slovy, v případech, kdy chyba reprezentativnosti nepřekročí meze atd.

Znáte-li výběrovou střední hodnotu prvku a mezní výběrovou chybu, je možné určit hranice (limity), které obsahují obecný průměr:

Bernoulliho teorém uvažuje o vzorkovací chybě pro alternativní rys, který má pouze dva možné výsledky: přítomnost rysu () a jeho nepřítomnost (0).

Platí Bernoulliho věta , že při dostatečně velké velikosti vzorku bude mít pravděpodobnost nesouladu mezi podílem prvku ve výběrové populaci () a podílem prvku v obecné populaci () tendenci k jednotě:

těch. s pravděpodobností libovolně blízkou jedné lze tvrdit, že při dostatečně velké velikosti vzorku se bude četnost znaku (podíl vzorku) lišit libovolně málo od podílu znaku (v obecné populaci).

Z pohledu že pravděpodobnost nesouladu mezi četností a proporcí se řídí zákonem normální distribuce, tuto pravděpodobnost lze zjistit z funkce v závislosti na dané hodnotě.

Průměrná vzorkovací chyba pro alternativní prvek je určena vzorcem

Vzhledem k tomu, že podíl rysu ve vzorku není znám, musí být nahrazen podílem stejného rysu v obecné populaci, tzn. vezměte a vezměte variaci alternativní funkce jako.

Pak je průměrná výběrová chyba vyjádřena vzorcem

Mezní hodnota rozdílu mezi frekvencí a podílem se nazývá mezní výběrová chyba .

Velikost mezní chyby lze posuzovat s určitou pravděpodobností, která závisí na multiplikátoru, od.

Když známe podíl vzorku znaku a mezní výběrovou chybu, je možné určit hranice, které obsahují obecný podíl:

Výsledky výběrové statistické studie do značné míry závisí na úrovni přípravy pozorovacího procesu.

Pod úrovní výcviku v tomto případě to znamená dodržení určitých pravidel a zásad pro koncipování výběrového šetření. Nejdůležitějším prvkem návrhu je sestavení organizačního plánu pro selektivní pozorování.

Organizační plán zahrnuje další otázky:

  • 1. Stanovení cíle a cílů pozorování.
  • 2. Stanovení hranic předmětu studia.
  • 3. Vývoj programu pozorování (sestavení dotazníku, dotazníku, formuláře zprávy atd.) a tvorba jeho materiálů.
  • 4. Stanovení výběrového řízení, způsobu výběru a velikosti vzorku.
  • 5. Školení personálu pro pozorování, reprodukci formulářů, instruktážních dokumentů atd.
  • 6. Výpočet charakteristik vzorku a stanovení výběrových chyb.
  • 7. Distribuce výběrových dat na celou populaci.
  • 2. Hlavní metody tvorby výběrové populace

Spolehlivost charakteristik vypočítaných z výběrových dat je do značné míry určena reprezentativností výběrového souboru, která zase závisí na způsobu výběru jednotek z obecné populace.

Rozlišujte podle vzhledu individuální, skupinový a kombinovaný výběr.

Na individuální výběr ve výběrovém souboru jsou vybrány jednotlivé jednotky běžné populace, s skupinový výběr - skupiny jednotek a kombinovaný výběr zahrnuje kombinaci skupinového a individuálního výběru.

Způsob výběru určuje, zda se vybraná jednotka může nadále účastnit výběrového řízení.

Neopakovatelný nazývá se takový výběr, při kterém se jednotka, která spadla do vzorku, nevrací do populace, ze které se provádí další selekce.

Na opakoval Při výběru se jednotka, která je zařazena do vzorku, po zaregistrování sledovaných charakteristik vrací do původní (obecné) populace, aby se zúčastnila dalšího výběrového řízení.

Při této metodě zůstává velikost obecné populace nezměněna, což vede ke konstantní pravděpodobnosti dostat se do vzorku všech jednotek populace.

V praxi výběrových šetření se nejčastěji používají tyto vzorky:

vlastně náhodný;

mechanické;

typický;

seriál;

kombinovaný.

Vlastní náhodné vzorkování

U takového vzorku se výběr jednotek z obecné populace provádí náhodně nebo náhodně, bez jakýchkoli prvků konzistence. Přitom všechny jednotky běžné populace bez výjimky musí mít naprosto stejné šance na zařazení do vzorku.

Technicky se správný náhodný výběr provádí losováním nebo podle tabulky náhodných čísel.

Vlastní náhodný výběr může být opakovaný i neopakovaný.

Předpokládejme, že jako výsledek výběrového šetření životních podmínek obyvatel města, provedeného na základě náhodného převzorkování, byla získána následující distribuční řada ( tab. 2.1 ).

Tabulka 2.1 Výsledky výběrového šetření životních podmínek obyvatel města

Pro stanovení průměrné výběrové chyby je nutné vypočítat výběrový průměr a rozptyl studovaného znaku (v. 2.2).

Tabulka 2.2 Výpočet průměrné celkové (užitné) plochy bytů na 1 osobu a rozptyl

Celková (užitná) plocha bytů, na 1 osobu, m 2

Počet obyvatel f

Interval x

  • 5,0-10,0
  • 10,0-15,0
  • 15,0-20,0
  • 20,0-25,0
  • 25,0-30,0
  • 30.0 a více
  • 712,5
  • 2550,0
  • 4725,0
  • 4725,0
  • 3575,0
  • 2697,5
  • 5343,75
  • 31875,0
  • 82687,5
  • 106312,5
  • 98312,5
  • 87668,75

Střední vzorkovací chyba je:

Definujme mezní výběrovou chybu s pravděpodobností:

Stanovme si hranice obecného průměru:

Na základě provedeného výběrového šetření lze tedy s pravděpodobností usuzovat, že průměrná velikost celkové plochy na osobu ve městě jako celku se pohybuje od do.

Při výpočtu průměrné chyby náhodného neopakujícího se vzorku je nutné vzít v úvahu opravu pro neopakující se výběr:

Za předpokladu, že je uvedeno v tab. 2.1 data jsou výsledkem neopakujícího se výběru (obecná populace zahrnuje jednotky), pak bude průměrná výběrová chyba o něco menší:

V souladu s tím se také sníží mezní výběrová chyba, což způsobí zúžení hranic obecného průměru.

Použijme data znovu tab. 2.1 za účelem vymezení hranic podílu osob, jejichž zajištění bydlení je nižší.

Podle výsledků průzkumu se počet těchto osob rovnal jedné osobě.

Pojďme definovat zlomek vzorku a rozptyl:

Vypočítejte průměrnou vzorkovací chybu:

Mezní výběrová chyba s danou pravděpodobností je:

Pojďme definovat hranice obecného podílu:

Lze tedy s pravděpodobností tvrdit, že podíl lidí, kteří mají na osobu ve městě jako celku méně, se pohybuje v rozmezí od do.

Mechanický odběr vzorků

Mechanický odběr se používá v případech, kdy je populace nějak objednána, tzn. existuje určitá posloupnost v uspořádání jednotek (seznamy voličů, telefonní čísla respondentů, čísla domů a bytů atd.).

Pro provedení mechanického odběru vzorků se stanoví selekční podíl, který se určí korelací objemů vzorku a obecné populace.

Výběr jednotek se provádí v souladu se stanoveným poměrem v pravidelných intervalech. Například u podílu (vzorku) je vybrána každá jednotka.

Obecnou populaci během mechanického výběru lze seřadit nebo seřadit podle hodnoty studovaného znaku nebo s ním korelovat, což zvýší reprezentativnost vzorku.

V tomto případě se však zvyšuje riziko systematické chyby spojené s podhodnocením hodnoty studovaného znaku (pokud je z každého intervalu zaznamenána první hodnota) nebo jeho nadhodnocením (pokud je z každého intervalu zaznamenána poslední hodnota).

Je vhodné začít s výběrem od poloviny prvního intervalu, například při vzorkování vybrat následující jednotky se stejným intervalem

Pro stanovení průměrné chyby mechanického vzorkování se používá vzorec průměrné chyby pro samonáhodný neopakující se výběr.

typický výběr

Tento způsob výběru se používá v případech, kdy lze všechny jednotky běžné populace rozdělit do několika typických skupin.

Typický výběr zahrnuje výběr jednotek z každé typické skupiny čistě náhodným nebo mechanickým způsobem.

Výběr jednotek v typickém vzorku může být organizován buď v poměru k objemu typických skupin, nebo v poměru k vnitroskupinové diferenciaci znaku.

Při odběru úměrném velikosti typických skupin se počet jednotek, které mají být vybrány z každé skupiny, určí takto:

kde je objem skupiny;

Velikost vzorku ze skupiny.

Průměrná chyba takového vzorku se zjistí podle vzorců:

- (znovuvýběr); (2.1)

- (neopakující se výběr), (2.2)

kde je průměr vnitroskupinových disperzí.

Při odběru úměrném diferenciaci znaku se počet pozorování pro každou skupinu vypočítá podle vzorce:

kde je směrodatná odchylka znaku ve skupině.

Průměrná chyba takového výběru je definována takto:

- (znovuvýběr), (2.4)

- (neopakující se výběr). (2,5)

Uvažujme obě varianty typického vzorku pomocí podmíněného příkladu.

Předpokládejme, že neopakující se typický výběr pracovníků podniku, úměrný velikosti dílen, prováděný za účelem posouzení ztrát v důsledku dočasné invalidity, vedl k následujícím výsledkům ( tab. 2.3 ).

Tabulka 2.3 Výsledky šetření u pracovníků podniku

Stanovme průměrné a mezní výběrové chyby (s pravděpodobností):

Vypočítejte průměr vzorku:

S pravděpodobností můžeme dojít k závěru, že průměrný počet dnů dočasné pracovní neschopnosti jednoho pracovníka v celém podniku je v rozmezí:

Použijme získané vnitroskupinové rozptyly k provedení výběru úměrného diferenciaci znaku.

Určete požadovanou velikost vzorku pro každý workshop:

S přihlédnutím k získaným hodnotám vypočítáme průměrnou výběrovou chybu:

V tomto případě bude průměr a následně i mezní chyba poněkud menší, což ovlivní i hranice obecného průměru.

sériový výběr

Tento způsob výběru je vhodný v případech, kdy jsou jednotky populace seskupeny do malých skupin nebo sérií. Jako takové série, obaly s určitým množstvím hotových výrobků, šarže zboží, studentské skupiny, brigády a další spolky.

Podstata sériového vzorkování spočívá ve vlastním náhodném nebo mechanickém výběru sérií, v rámci kterého se provádí průběžný průzkum jednotek.

Průměrná sériová vzorkovací chyba (při výběru stejné řady) závisí pouze na hodnotě meziskupinového (mezisériového) rozptylu a je určena následujícími vzorci:

(znovuvýběr); (2.6)

(neopakující se výběr), (2.7)

kde je počet vybraných sérií;

Celkový počet epizod.

Meziskupinový rozptyl se vypočítá takto:

kde je průměr řady;

Celkový průměr za celý vzorek.

Kombinovaný výběr

V praxi statistických zjišťování se kromě výše diskutovaných výběrových metod využívá i jejich kombinace.

Je možné kombinovat typové a sériové vzorkování, když jsou série vybírány předepsaným způsobem z několika typických skupin. Je také možná kombinace sériového a správného náhodného výběru, kdy jsou jednotlivé jednotky vybrány v rámci série ve správném náhodném pořadí.

Chyba takového vzorku je určena postupným výběrem.

vícestupňový tzv. selekce, při níž jsou z obecné populace nejprve extrahovány rozšířené skupiny, poté menší a tak dále, dokud nejsou vybrány jednotky, které jsou předmětem průzkumu.

Vícefázové vzorkování zahrnuje zachování stejné výběrové jednotky ve všech fázích její realizace, přičemž jednotky vybrané v každé fázi podléhají zkoumání (v každé další fázi výběru je program zjišťování rozšířen).

Na základě výše uvedeného uvádíme vzorce pro mezní výběrovou chybu pro v praxi nejčastěji používané metody tvorby výběrového souboru ( tab. 2.4 ).

Tabulka 2.4 Mezní výběrová chyba pro některé metody výběru

Matematické statistiky je moderní průmysl matematická věda, která se zabývá statistickým popisem výsledků experimentů a pozorování, jakož i budova matematické modely obsahující pojmy pravděpodobnosti. teoretický základ matematické statistiky slouží teorie pravděpodobnosti.

Ve struktuře matematické statistiky se tradičně rozlišují dvě hlavní sekce: deskriptivní statistika a statistická inference (obrázek 1.1).

Rýže. 1.1. Hlavní sekce matematické statistiky

Deskriptivní statistika se používá pro:

o zobecnění ukazatelů jedné proměnné (statistika náhodného výběru);

o identifikace vztahů mezi dvěma nebo více proměnnými (korelační-regresní analýza).

Popisná statistika umožňuje získat nové informace, rychle je pochopit a komplexně vyhodnotit, to znamená, že plní vědeckou funkci popisu předmětů studia, což odůvodňuje její název. Metody deskriptivní statistiky jsou navrženy tak, aby proměnily soubor jednotlivých empirických dat na systém forem a čísel, které jsou vizuální pro vnímání: frekvenční distribuce; ukazatele trendů, variability, komunikace. Tyto metody počítají statistiky náhodného vzorku, které slouží jako základ pro realizaci statistických inferencí.

Statistická inference dát příležitost:

o vyhodnotit přesnost, spolehlivost a efektivitu vzorových statistik, najít chyby, které se v procesu vyskytují statistické studie(statistické vyhodnocení)

o zobecnit parametry obecné populace získané na základě výběrových statistik (testování statistických hypotéz).

hlavním cílem vědecký výzkum- jedná se o získávání nových poznatků o velké třídě jevů, osob nebo událostí, které se běžně nazývají běžná populace.

Populace je souhrn předmětů studia, vzorek- jeho část, která se utváří určitým vědecky podloženým způsobem 2.

Termín "obecná populace" se používá, pokud jde o velký, ale konečný soubor studovaných objektů. Například o totalitě žadatelů na Ukrajině v roce 2009 nebo o totalitě dětí předškolním věku město Rivne. Obecné populace mohou dosahovat významných objemů, být konečné a nekonečné. V praxi se zpravidla jedná o konečné množiny. A pokud je poměr velikosti obecné populace k velikosti vzorku větší než 100, pak podle Glasse a Stanleyho dávají metody odhadu pro konečnou a nekonečnou populaci v podstatě stejné výsledky. Obecnou sadu lze také nazvat úplnou sadou hodnot některého atributu. Skutečnost, že výběrový soubor patří k obecné populaci, je hlavním podkladem pro posuzování charakteristik obecné populace podle charakteristik vzorku.

Hlavní idea matematická statistika je založena na přesvědčení, že úplné studium všech objektů obecné populace ve většině vědeckých problémů je buď prakticky nemožné, nebo ekonomicky nepraktické, protože vyžaduje mnoho času a značné materiálové náklady. Proto se v matematické statistice používá selektivní přístup, jehož princip je znázorněn na schématu na obr. 1.2.

Například podle technologie tvorby jsou vzorky randomizovány (jednoduché a systematické), stratifikovány, shlukovány (viz část 4).

Rýže. 1.2. Schéma aplikace metod matematické statistiky Podle selektivní přístup použití matematických a statistických metod lze provést v následujícím pořadí (viz obr. 1.2):

o s obecná populace, vlastnosti, které jsou předmětem výzkumu, jisté metody tvoří vzorek- typický, ale omezený počet objektů, na které jsou aplikovány výzkumné metody;

o jako výsledek pozorovacích metod, experimentálních akcí a měření na vzorových objektech jsou získávána empirická data;

o zpracování empirických dat pomocí metod deskriptivní statistiky poskytuje vzorové ukazatele, které se mimochodem nazývají statistici - jako název oboru;

o použití metod statistického vyvozování statistik, přijímat parametry, které charakterizují vlastnosti běžné populace.

Příklad 1.1. Aby bylo možné posoudit stabilitu úrovně znalostí (proměnná X) testování randomizovaného vzorku 3 studentů o objemu n. Testy obsahovaly m úloh, z nichž každá byla hodnocena podle bodového systému: "splněno" "- 1," nesplněno "- 0. průměrný aktuální prospěch žáků zůstal X

3 randomizovaný vzorek(z angl. Random - náhodný) je reprezentativní vzorek, který je tvořen podle strategie náhodných testů.

na úrovni předchozích let / h? Pořadí řešení:

o zjistit smysluplnou hypotézu typu: „pokud se aktuální výsledky testů neliší od minulosti, pak můžeme úroveň znalostí žáků považovat za nezměněnou, a vzdělávací proces- stabilní";

o formulovat adekvátní statistickou hypotézu, např. nulovou hypotézu H 0že „proud GPA X se statisticky neliší od průměru minulých let / h“, tzn. H 0: X = ⁄ r, proti odpovídající alternativní hypotéze X Ф ^;

o stavět empirická rozdělení zkoumané proměnné X;

o definovat(v případě potřeby) korelace, například mezi proměnnou X a další ukazatele, stav regresní linie;

o zkontrolovat shodu empirického rozdělení s normálním zákonem;

o posoudit hodnotu bodových ukazatelů a interval spolehlivosti parametry, například průměr;

o definovat kritéria pro statistické testování hypotézy;

o testovat statistické hypotézy na základě zvolených kritérií;

o formulovat rozhodnutí o statistické nulové hypotéze o určitém hladina významnosti;

o přejít od rozhodnutí přijmout nebo zamítnout statistickou nulovou hypotézu interpretace závěrů ohledně smysluplné hypotézy;

o formulovat smysluplné závěry.

Pokud tedy shrneme výše uvedené postupy, aplikace statistických metod se skládá ze tří hlavních bloků:

Přechod od předmětu reality k abstraktnímu matematickému a statistickému schématu, tedy konstrukce pravděpodobnostního modelu jevu, procesu, vlastnosti;

Provádění výpočtových akcí vhodnými matematickými prostředky v rámci pravděpodobnostního modelu založeného na výsledcích měření, pozorování, experimentů a formulaci statistických závěrů;

Interpretace statistických závěrů o reálné situaci a vhodné rozhodnutí.

Statistické metody pro zpracování a interpretaci dat jsou založeny na teorii pravděpodobnosti. Teorie pravděpodobnosti je základem metod matematické statistiky. Bez použití základních pojmů a zákonů teorie pravděpodobnosti je nemožné zobecnit závěry matematické statistiky, a tedy jejich rozumné využití pro vědecké a praktické účely.

Úkolem deskriptivní statistiky je tedy transformovat soubor výběrových dat do systému ukazatelů - statistika - frekvenční rozdělení, míry centrální tendence a variability, vazebné koeficienty a podobně. Statistika je však ve skutečnosti charakteristikou konkrétního vzorku. Samozřejmě je možné vypočítat rozložení vzorků, průměry vzorků, rozptyly atd., ale taková „analýza dat“ má omezenou vědeckou a vzdělávací hodnotu. „Mechanický“ přenos jakýchkoli závěrů vyvozených na základě takových ukazatelů na jiné populace není správný.

Aby bylo možné přenést vzorové ukazatele nebo jiné, případně na běžnější populace, je nutné mít matematicky zdůvodněné ustanovení o shodě a schopnosti výběrových charakteristik s charakteristikami těchto běžných tzv. obecných populací. Taková ustanovení jsou založena na teoretických přístupech a schématech spojených s pravděpodobnostními modely reality, například na axiomatickém přístupu, v zákoně velkých čísel atd. Pouze s jejich pomocí je možné přenést vlastnosti zjištěné výsledky analýzy omezených empirických informací, ať už do jiných, nebo do rozšířených souborů. Tak konstrukce, zákonitosti fungování, použití pravděpodobnostních modelů, je předmětem matematického oboru zvaného „teorie pravděpodobnosti“, stává se podstatou statistických metod.

V matematické statistice se tedy používají dvě paralelní linie indikátorů: první linie, která je relevantní pro praxi (jedná se o ukázkové indikátory) a druhá, založená na teorii (jedná se o indikátory pravděpodobnostního modelu). Například empirické četnosti, které jsou stanoveny na vzorku, odpovídají konceptům teoretické pravděpodobnosti; výběrový průměr (praxe) odpovídá očekávaná hodnota(teorie) atd. Navíc ve studiích jsou selektivní charakteristiky zpravidla primární. Vypočítávají se na základě pozorování, měření, experimentů, po kterých procházejí statistickým hodnocením schopnosti a efektivity, testováním statistických hypotéz v souladu s cíli výzkumu a nakonec jsou s určitou pravděpodobností přijímány jako indikátory vlastností studovaných populací.

Otázka. Úkol.

1. Popište hlavní oddíly matematické statistiky.

2. Jaká je hlavní myšlenka matematické statistiky?

3. Popište poměr obecné a výběrové populace.

4. Vysvětlete schéma aplikace metod matematické statistiky.

5. Uveďte seznam hlavních úkolů matematické statistiky.

6. Jaké jsou hlavní bloky aplikace statistických metod? Popiš je.

7. Rozšiřte souvislosti mezi matematickou statistikou a teorií pravděpodobnosti.

Matematické statistiky- jedná se o obor matematiky, který studuje přibližné metody sběru a analýzy dat na základě výsledků experimentu k identifikaci existujících vzorců, tzn. hledání zákonů rozdělení náhodných veličin a jejich číselných charakteristik.

V matematické statistice je zvykem rozlišovat dvě hlavní oblasti výzkumu:

1. Odhad parametrů běžné populace.

2. Testování statistických hypotéz (některé apriorní předpoklady).

Základní pojmy matematické statistiky jsou: obecná populace, vzorek, teoretická funkce rozdělení.

Obecná populace je soubor všech myslitelných statistických dat při pozorování náhodné veličiny.

X G \u003d (x 1, x 2, x 3, ..., x N, ) \u003d ( x i; i \u003d 1,N)

Pozorovaná náhodná veličina X se nazývá rys nebo výběrový faktor. Obecná populace je statistickou obdobou náhodné veličiny, její objem N je obvykle velký, proto se z ní vybírá část dat, která se nazývá výběrová populace nebo jednoduše výběr.

X B \u003d (x 1, x 2, x 3, ..., x n, ) \u003d ( x i; i \u003d 1, n)

Х В М Х Г, n £ N

Vzorek je soubor náhodně vybraných pozorování (objektů) z běžné populace pro přímé studium. Počet objektů ve vzorku se nazývá velikost vzorku a označuje se n. Typicky je vzorek 5% -10% obecné populace.

Použití vzorku ke konstrukci vzorů, kterým podléhá pozorovaná náhodná proměnná, umožňuje vyhnout se jejímu nepřetržitému (hromadnému) pozorování, což je často proces náročný na zdroje, nebo dokonce jednoduše nemožné.

Například populace je soubor jednotlivců. Studium celé populace je pracné a nákladné, proto se data shromažďují na vzorku jedinců, kteří jsou považováni za zástupce této populace, což umožňuje vyvodit závěr o této populaci.

Vzorek však musí nutně splňovat podmínku reprezentativnost, tj. poskytnout rozumnou představu o obecné populaci. Jak vytvořit reprezentativní (reprezentativní) vzorek? V ideálním případě se hledá náhodný (randomizovaný) vzorek. K tomu se sestaví a náhodně vybere seznam všech jedinců v populaci. Někdy ale mohou být náklady na sestavení seznamu nepřijatelné a poté odebrat přijatelný vzorek, například jednu kliniku, nemocnici a vyšetřit všechny pacienty na této klinice s tímto onemocněním.

Každá položka ve vzorku se nazývá varianta. Počet opakování možností ve vzorku se nazývá frekvence výskytu. Hodnota se nazývá relativní četnost možnosti, tzn. se zjistí jako poměr absolutní četnosti variant k celkové velikosti vzorku. Volá se sekvence voleb zapsaných ve vzestupném pořadí variační řada.


Uvažujme tři formy variačních řad: rozsahové, diskrétní a intervalové.

seřazený řádek- toto je seznam jednotlivých jednotek populace ve vzestupném pořadí podle studovaného znaku.

Série diskrétních variací je tabulka skládající se z grafů nebo čar: konkrétní hodnoty atributu x i a absolutní frekvence n i (nebo relativní frekvence ω i) projevu i-té hodnoty atributu x.

Příkladem variační řady je tabulka

Napište rozdělení relativních četností.

Řešení: Najděte relativní frekvence. K tomu rozdělíme frekvence velikostí vzorku:

Rozdělení relativních četností má tvar:

0,15 0,5 0,35

Kontrola: 0,15 + 0,5 + 0,35 = 1.

Samostatnou řadu lze znázornit graficky. V pravoúhlém kartézském souřadnicovém systému jsou označeny body se souřadnicemi () nebo (), které jsou spojeny přímkami. Taková přerušovaná čára se nazývá frekvenční polygon.

Sestrojte diskrétní variační řadu (DVR) a nakreslete distribuční polygon pro 45 uchazečů podle počtu bodů, které získali v přijímacích zkouškách:

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.

Řešení: Sestavení série variací různé významy Prvek x (možnosti) uspořádáme vzestupně a pod každou z těchto hodnot zapíšeme jeho frekvenci.

Vytvořme polygon tohoto rozdělení:

Rýže. 13.1. Frekvenční mnohoúhelník

Intervalové variační řady používá se pro velké množství pozorování. Chcete-li sestavit takovou sérii, musíte vybrat počet intervalů funkcí a nastavit délku intervalu. Při velkém počtu skupin bude interval minimální. Počet skupin v sérii variací lze zjistit pomocí Sturgesova vzorce: (k je počet skupin, n je velikost vzorku) a šířka intervalu je

kde je maximum; - minimální hodnota varianty a jejich rozdíl R se nazývá variace rozpětí.

Studujeme vzorek 100 lidí z celkového počtu všech studentů lékařské univerzity.

Řešení: Vypočítejte počet skupin: . Pro sestavení intervalové řady je tedy lepší rozdělit tento vzorek do 7 nebo 8 skupin. Soubor skupin, do kterých jsou rozděleny výsledky pozorování a četnosti získávání výsledků pozorování v každé skupině, se nazývá agregát.

Histogram se používá k vizualizaci statistické distribuce.

Histogram frekvence- jedná se o stupňovitý obrazec, který se skládá ze sousedních obdélníků postavených na stejné přímce, jejichž základny jsou stejné a rovné šířce intervalu a výška se rovná buď četnosti pádu do intervalu, nebo relativní četnosti ω i .

Pozorování počtu částic, které zasáhly Geigerův počítač po dobu jedné minuty, poskytla následující výsledky:

21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.

Na základě těchto údajů sestavte intervalovou variační řadu se stejnými intervaly (I interval 20-24; II interval 24-28 atd.) a nakreslete histogram.

Řešení:n=50

Histogram tohoto rozdělení vypadá takto:

Rýže. 13.2. Histogram distribuce

Možnosti úkolu

№ 13.1. Každou hodinu bylo měřeno napětí v síti. V tomto případě byly získány následující hodnoty (B):

227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.

Sestavte statistické rozložení a nakreslete mnohoúhelník.

№ 13.2. Pozorování hladiny cukru v krvi u 50 lidí poskytlo následující výsledky:

3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04

3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71

3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93

3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52

3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03

Na základě těchto dat sestavte intervalovou variační řadu se stejnými intervaly (I - 3,45-3,55; II - 3,55-3,65 atd.) a graficky ji znázorněte, nakreslete histogram.

№ 13.3. Sestrojte rozsah frekvencí pro distribuci rychlosti sedimentace erytrocytů (ESR) u 100 lidí.

Odeslat svou dobrou práci do znalostní báze je jednoduché. Použijte níže uvedený formulář

Studenti, postgraduální studenti, mladí vědci, kteří využívají znalostní základnu ve svém studiu a práci, vám budou velmi vděční.

Vloženo na http://www.allbest.ru/

Úvod

Matematická statistika je věda o matematických metodách pro systematizaci a použití statistických dat pro vědecké a praktické závěry. Matematická statistika je v mnoha svých oddílech založena na teorii pravděpodobnosti, která umožňuje posoudit spolehlivost a přesnost závěrů vyvozených na základě omezeného statistického materiálu (například odhadnout požadovanou velikost výběrového souboru pro získání výsledků s požadovanou přesností ve výběrovém šetření).

V teorii pravděpodobnosti jsou uvažovány náhodné veličiny s daným rozdělením nebo náhodné experimenty, jejichž vlastnosti jsou zcela známé. Předmětem teorie pravděpodobnosti jsou vlastnosti a vztahy těchto veličin (rozdělení).

Ale často je experiment černou skříňkou, která poskytuje pouze některé výsledky, pro které je nutné vyvodit závěr o vlastnostech samotného experimentu. Pozorovatel má k dispozici sadu numerických (nebo mohou být numerické) výsledků získaných opakováním stejného náhodného experimentu za stejných podmínek.

V tomto případě vyvstávají například následující otázky: Pokud pozorujeme jednu náhodnou veličinu, jak můžeme ze sady jejích hodnot v několika experimentech vyvodit nejpřesnější závěr o jejím rozdělení? matematická statistika rozptylový histogram

Příkladem takové série experimentů je sociologický průzkum souboru ekonomických ukazatelů nebo nakonec sekvence erbů a ocasů při tisícinásobném hodu mincí. Všechny výše uvedené faktory určují relevanci a význam předmětu práce v současné fázi, zaměřené na hluboké a komplexní studium základních pojmů matematické statistiky.

1. Předmět a metoda matematické statistiky

Podle matematického charakteru konkrétních výsledků pozorování se matematická statistika dělí na statistiku čísel. Statistická analýza analýza funkcí (procesů) a statistika časových řad objektů nenumerického charakteru. Značná část matematické statistiky je založena na pravděpodobnostních modelech. Jsou vyčleněny obecné úkoly popisu odhadovaných dat a testování hypotéz. Zvažují také konkrétnější úkoly související s prováděním výběrových šetření, obnovou závislostí, vytvářením a používáním klasifikací (typologií) atd.

Pro popis dat jsou vytvořeny tabulky diagramů a další vizuální reprezentace, například korelační pole. Pravděpodobnostní modely se většinou nepoužívají. Některé metody popisu dat se opírají o pokročilou teorii a možnosti moderních počítačů. Patří mezi ně zejména shluková analýza zaměřená na identifikaci skupin navzájem podobných objektů a vícerozměrné škálování, které umožňuje vizualizovat objekty v rovině s co nejmenším zkreslením vzdálenosti mezi nimi.

Metody odhadu a testování hypotéz spoléhají na modely generování pravděpodobnostních dat. Tyto modely se dělí na parametrické a neparametrické. V parametrických modelech se předpokládá, že studované objekty jsou popsány distribučními funkcemi v závislosti na malém počtu (1-4) numerických parametrů. V neparametrických modelech se předpokládá, že distribuční funkce jsou libovolné spojité. V matematické statistice se vyhodnocují parametry a charakteristiky rozdělení (očekávání středního rozptylu kvantilu apod.), hustota a distribuční funkce závislosti mezi proměnnými (na základě lineárních a neparametrických korelačních koeficientů, ale i parametrických či neparametrických odhadů funkcí vyjadřujících závislosti) atd. Bodový a intervalový odhad (udávající hranice jsou použity pro skutečné hodnoty).

V matematické statistice tam obecná teorie testování hypotéz a velké číslo metody věnované testování konkrétních hypotéz. Jsou uvažovány hypotézy o hodnotách parametrů a charakteristik, o kontrole homogenity (tedy o shodě charakteristik nebo distribučních funkcí ve dvou vzorcích), o shodě empirické distribuční funkce s danou distribuční funkcí nebo s parametrickou rodinou takových funkcí, o distribuční symetrii atd.

Velký význam má úsek matematické statistiky spojený s prováděním výběrových šetření s vlastnostmi různých výběrových schémat a konstrukcí adekvátních metod pro odhadování a testování hypotéz.

Problémy obnovy závislosti byly aktivně studovány již více než 200 let od vývoje metody nejmenších čtverců K. Gaussem v roce 1794. V současnosti jsou nejrelevantnější metody hledání informativní podmnožiny proměnných a neparametrické metody.

Vývoj metod aproximace dat a redukce rozměrů popisu byl zahájen před více než 100 lety, kdy K. Pearson vytvořil metodu hlavních komponent. Později byla vyvinuta faktorová analýza a četná nelineární zobecnění.

Různé metody konstrukce (shluková analýza) analýzy a použití (diskriminační analýza) klasifikací (typologií) se také nazývají metody rozpoznávání vzorů (s učitelem i bez něj), automatická klasifikace atd.

Matematické metody ve statistice jsou založeny buď na použití součtů (vycházejících z Centrální limitní věty teorie pravděpodobnosti) nebo diferenčních exponentů (metriky vzdálenosti) jako ve statistice nenumerických objektů. Obvykle jsou důsledně podloženy pouze asymptotické výsledky. V dnešní době hrají počítače velkou roli v matematické statistice. Používají se jak pro výpočty, tak pro simulační modelování(zejména v metodách odběru vzorků a ve studiu vhodnosti asymptotických výsledků).

1.1 Základní pojmy matematické statistiky

Výhradně důležitá role při analýze mnoha psychologických a pedagogických jevů hrají střední hodnoty, které jsou zobecněnou charakteristikou kvalitativně homogenního souboru podle určitého kvantitativního atributu. Nelze například vypočítat průměrnou odbornost nebo průměrnou národnost vysokoškolských studentů, protože se jedná o kvalitativně heterogenní jevy. Na druhou stranu je možné a nutné stanovit v průměru číselnou charakteristiku jejich pokroku (průměrné skóre), efektivnosti metodické systémy a recepce atd.

V psychologických a pedagogických výzkumech se obvykle používá různé druhy průměrné hodnoty: aritmetický průměr, geometrický průměr, medián, modus a další. Nejběžnější jsou aritmetický průměr, medián a modus.

Aritmetický průměr se používá v případech, kdy existuje přímo úměrný vztah mezi definující vlastností a tímto znakem (např. když se zlepší výkon studijní skupiny, zlepší se výkon každého člena).

Aritmetický průměr je podíl dělení součtu hodnot jejich počtem a počítá se podle vzorce:

Vloženo na http://www.allbest.ru/

kde X je aritmetický průměr; X1, X2, X3 ... Xn - výsledky jednotlivých pozorování (techniky, akce),

n - počet pozorování (metody, akce),

Součet výsledků všech pozorování (technik, akcí).

Medián (Me) je míra průměrné pozice, která charakterizuje hodnotu rysu na uspořádané (vybudované na základě zvýšení nebo snížení) stupnici, která odpovídá středu studované populace. Medián lze určit pro ordinální a kvantitativní znaky. Umístění této hodnoty je určeno vzorcem:

Střední místo = (n + 1) / 2

Například. Podle výsledků studie bylo zjištěno, že:

Na „výborné“ studii - 5 lidí z účasti na experimentu;

Na "dobré" studium - 18 lidí;

Na "uspokojivé" - 22 lidí;

Na "nevyhovující" - 6 osob.

Protože se experimentu zúčastnilo celkem N = 54 osob, je střed vzorku roven lidem. Dospělo se tedy k závěru, že více než polovina studentů studuje pod známkou „dobrá“, to znamená, že medián je více než „uspokojivý“, ale méně než „dobrý“.

Režim (Mo) je nejběžnější typická hodnota funkce mezi ostatními hodnotami. Odpovídá třídě s nejvyšší frekvencí. Tato třída se nazývá modální hodnota.

Například.

Pokud je otázka dotazníku: „uveďte míru vlastnictví cizí jazyk“, byly distribuovány odpovědi:

1 - plynule - 25

2 – Vím toho dost, abych mohl komunikovat – 54

3 - Vím, ale mám potíže s komunikací - 253

4 - s obtížemi rozumět - 173

5 - nevlastním - 28

Je zřejmé, že nejtypičtější význam zde je - „Já vím, ale mám potíže s komunikací“, což bude modální. Takže režim je -253.

Při použití matematických metod v psychologickém a pedagogickém výzkumu je kladen velký důraz na výpočet rozptylu a střední (směrodatné) odchylky.

Rozptyl se rovná střední čtverci odchylek hodnoty opcí od průměru. Působí jako jedna z charakteristik jednotlivých výsledků rozptylu hodnot studované proměnné (například známky studentů) kolem střední hodnoty. Výpočet rozptylu se provádí stanovením: odchylek od průměrné hodnoty; druhá mocnina zadané odchylky; součet druhých mocnin odchylky a střední druhé mocniny odchylky.

Hodnota disperze se používá v různých statistických výpočtech, ale není přímo pozorovatelná. Veličina přímo související s obsahem sledované proměnné je směrodatná odchylka.

Směrodatná odchylka potvrzuje typičnost a indikativnost aritmetického průměru, odráží míru kolísání číselných hodnot znamének, z nichž je odvozena průměrná hodnota. Je rovna druhé odmocnině disperze a je určena vzorcem:

(2) Zveřejněno dne http://www.allbest.ru/

kde: - střední odmocnina. Při malém počtu pozorování (akcí) - méně než 100 - by hodnota vzorce neměla být „N“, ale „N - 1“.

Aritmetický průměr a střední čtverec jsou hlavní charakteristiky výsledků získaných během studie. Umožňují shrnout data, porovnat je, zjistit výhody jednoho psychologického a pedagogického systému (programu) oproti jinému.

Střední kvadratická (standardní) odchylka je široce používána jako míra disperze pro různé charakteristiky.

Při hodnocení výsledků studie je důležité určit rozptyl náhodné veličiny kolem střední hodnoty. Tato disperze je popsána pomocí Gaussova zákona (zákon normálního rozdělení pravděpodobnosti náhodné veličiny). Podstatou zákona je, že při měření určitého atributu v dané množině prvků dochází vždy z mnoha neovlivnitelných příčin k odchylkám v obou směrech od normy a čím větší odchylky, tím méně často se vyskytují.

Při dalším zpracování dat lze identifikovat: variační koeficient (stabilita) zkoumaného jevu, což je procento směrodatné odchylky k aritmetickému průměru; míra šikmosti, která ukazuje, kterým směrem směřuje převažující počet odchylek; míra chladu, která ukazuje stupeň akumulace hodnot náhodné veličiny kolem průměru atd. Všechny tyto statistiky pomáhají úplněji identifikovat znaky studovaných jevů.

Míry asociace mezi proměnnými. Vztahy (závislosti) mezi dvěma a více proměnnými ve statistice nazýváme korelace. Odhaduje se pomocí hodnoty korelačního koeficientu, který je mírou míry a velikosti tohoto vztahu.

Existuje mnoho korelačních koeficientů. Uvažujme pouze část z nich, které berou v úvahu přítomnost lineárního vztahu mezi proměnnými. Jejich výběr závisí na škálách pro měření proměnných, mezi nimiž je třeba posuzovat vztah. V psychologii a pedagogice se nejčastěji používají Pearsonovy a Spearmanovy koeficienty.

1.2 Základní pojmy odběru vzorků

Nechť je náhodná veličina pozorovaná v náhodném experimentu. Předpokládá se, že pravděpodobnostní prostor je daný (a nebude nás zajímat).

Budeme předpokládat, že po provedení tohoto experimentu jednou za stejných podmínek jsme dostali čísla - hodnoty této náhodné proměnné v první sekundě atd. experimenty. Náhodná veličina má nějaké rozdělení, které je nám částečně nebo úplně neznámé.

Pojďme se blíže podívat na sadu zvanou sample.

V sérii již provedených experimentů je vzorkem sada čísel. Ale pokud se tato série experimentů bude znovu opakovat, pak místo této sady dostaneme novou sadu čísel. Místo čísla se objeví jiné číslo - jedna z hodnot náhodné proměnné. To znamená, že (a atd.) je proměnná, která může nabývat stejných hodnot jako náhodná proměnná a stejně často (se stejnou pravděpodobností). Proto před experimentem - náhodná veličina rovnoměrně rozložená s experimentem a po něm - číslo, které pozorujeme v tomto prvním experimentu, tzn. jedna z možných hodnot náhodné proměnné.

Vzorek objemu je souborem nezávislých a rovnoměrně rozložených náhodných proměnných („kopií“) se stejným rozdělením.

Co to znamená „vyvodit závěr o distribuci ze vzorku“? Rozdělení je charakterizováno hustotou distribuční funkce nebo tabulkou souborem číselných charakteristik -- atd. Na základě vzorku musíme být schopni sestavit aproximace pro všechny tyto charakteristiky.

1.3 Odběr vzorků

Zvažte implementaci vzorkování na jednom elementárním výsledku – množině čísel. Na vhodný pravděpodobnostní prostor zavedeme náhodnou veličinu, která nabývá hodnot s pravděpodobnostmi v (pokud se některé hodnoty shodují, sečtěte pravděpodobnosti odpovídající početkrát).

Rozdělení veličiny se nazývá empirické nebo výběrové rozdělení. Vypočítejme matematické očekávání a rozptyl veličiny a zavedeme označení těchto veličin:

Stejným způsobem vypočítáme okamžik objednávky

V obecném případě označujeme množstvím

Pokud při konstrukci všech námi zavedených charakteristik uvažujeme vzorek jako soubor náhodných proměnných, pak se tyto charakteristiky samy -- -- stanou náhodnými proměnnými. Tyto charakteristiky distribuce vzorku se používají k odhadu (aproximaci) odpovídajících neznámých charakteristik skutečné distribuce.

Důvodem pro použití charakteristik rozdělení k odhadu charakteristik skutečného rozdělení (nebo) je obecně blízkost těchto rozdělení.

Vezměme si například házení obyčejnou kostkou. Nechť je počet shozených bodů při hodu. Předpokládejme, že jeden ve vzorku se vyskytuje jednou za dvojku – jednou a tak dále. Potom náhodná veličina nabude hodnot 1 6 s pravděpodobnostmi, resp. Ale tyto proporce se blíží s růstem podle zákona velkých čísel. To znamená, že rozložení velikosti se v určitém smyslu blíží skutečnému rozložení počtu vypadlých bodů, když je vržena správná kostka.

1.4 Histogram empirické distribuční funkce

Protože neznámé rozdělení lze popsat například jeho distribuční funkcí, sestrojíme pro tuto funkci na základě vzorku „odhad“.

Definice 1. Empirická distribuční funkce vybudovaná na vzorku objemu je náhodná funkce pro každý rovný

Připomenutí: Náhodná funkce

nazývaný indikátor události. Pro každý je to náhodná proměnná s Bernoulliho rozdělením s parametrem

Jinými slovy, pro jakoukoli hodnotu rovnající se skutečné pravděpodobnosti, že náhodná proměnná je menší, se odhaduje jako podíl menších prvků vzorku.

Pokud jsou prvky vzorku seřazeny ve vzestupném pořadí (u každého elementárního výsledku), získá se nová sada náhodných proměnných, nazývaná variační řada:

Prvek se nazývá tý člen variační řady nebo statistika tého řádu.

Empirická distribuční funkce má skoky v bodech vzorku. Hodnota skoku v bodě je, kde je počet prvků vzorku, se kterými se shodují.

Je možné sestavit empirickou distribuční funkci pro variační řadu:

Další charakteristikou distribuce je tabulka (pro diskrétní distribuce) nebo hustota (pro absolutně spojité). Empirickým nebo vzorovým analogem tabulky nebo hustoty je takzvaný histogram. Histogram je založen na seskupených datech. Odhadovaný rozsah hodnot náhodné veličiny (nebo rozsah výběrových dat) je rozdělen bez ohledu na vzorek do určitého počtu intervalů (ne nutně stejných). Nechť jsou intervaly na přímce zvané seskupovací intervaly. Označme pro počtem prvků vzorku, které spadají do intervalu:

Na každém z intervalů je postaven obdélník, jehož plocha je úměrná. Celková plocha všech obdélníků musí být rovna jedné. Nechť je délka intervalu. Výška obdélníku výše je

Výsledný obrazec se nazývá histogram.

Rozdělme segment na 4 stejné segmenty. Segment zahrnoval 4 vzorové položky v -- 6 in -- 3 a segment zahrnoval 2 vzorové položky. Sestavíme histogram (obr. 2). Na Obr. 3 je také histogram pro stejný vzorek, ale když je oblast rozdělena na 5 stejných segmentů.

Kurz Ekonometrie uvádí, že nejlepší počet seskupovacích intervalů ("Sturgessův vzorec") je

Tady -- dekadický logaritmus, Proto

těch. když se vzorek zdvojnásobí, počet intervalů seskupení se zvýší o 1. Všimněte si, že čím více intervalů seskupení, tím lépe. Pokud ale vezmeme počet intervalů, řekněme řádově, tak s růstem se histogram hustotě nepřiblíží.

Následující tvrzení je pravdivé:

Pokud je hustota vzorku kontinuální funkce, pak pro, aby došlo k bodové konvergenci pravděpodobnosti histogramu k hustotě.

Volba logaritmu je tedy rozumná, ale ne jediná možná.

Hostováno na Allbest.ru

...

Podobné dokumenty

    Konstrukce rozsahu relativních četností, empirická distribuční funkce, kumulanty a histogramy. Výpočet bodových odhadů neznámých číselných charakteristik. Testování hypotézy o typu rozdělení pro jednoduchou a seskupenou distribuční řadu.

    semestrální práce, přidáno 28.09.2011

    Předmět, metody a pojmy matematické statistiky, její vztah k teorii pravděpodobnosti. Základní pojmy metody vzorkování. Charakteristika empirické distribuční funkce. Pojem histogramu, princip jeho konstrukce. Selektivní distribuce.

    tutoriál, přidáno 24.04.2009

    Klasifikace náhodných událostí. distribuční funkce. Numerické charakteristiky diskrétních náhodných veličin. Zákon rovnoměrného rozdělení pravděpodobností. Studentská distribuce. Problémy matematické statistiky. Odhady populačních parametrů.

    přednáška, přidáno 12.12.2011

    Odhady parametrů rozdělení, nejdůležitější rozdělení používaná v matematické statistice: normální rozdělení, Pearsonovo, Studentovo, Fisherovo rozdělení. Faktorový prostor, formulace účelu experimentu a volba odpovědí.

    abstrakt, přidáno 01.01.2011

    Číselné charakteristiky vzorku. Statistické řady a distribuční funkce. Koncepce a grafické znázornění statistické populace. Metoda maximální věrohodnosti pro zjištění hustoty distribuce. Aplikace metody nejmenších čtverců.

    kontrolní práce, přidáno 20.02.2011

    Problémy matematické statistiky. Rozdělení náhodné veličiny na základě experimentálních dat. Empirická distribuční funkce. Statistické odhady distribučních parametrů. Normální rozdělení náhodné veličiny, testování hypotéz.

    semestrální práce, přidáno 13.10.2009

    Statistické zpracování dat časové kontroly (v hodinách) práce počítačové třídy za den. Mnohoúhelník absolutních frekvencí. Vynesení empirické distribuční funkce a obálky histogramu. Teoretické rozložení běžné populace.

    test, přidáno 23.08.2015

    Zpracování výsledků informací o dopravních a technologických strojích metodou matematické statistiky. Definice integrální funkce normálního rozdělení, funkce Weibullova zákona. Určení hodnoty posunu na začátek distribuce parametrů.

    kontrolní práce, přidáno 05.03.2017

    Pojetí matematické statistiky jako vědy o matematických metodách systemizace a využití statistických dat pro vědecké a praktické závěry. Bodové odhady pro parametry statistických rozdělení. Analýza výpočtu průměrů.

    semestrální práce, přidáno 13.12.2014

    Základní pojmy matematické statistiky, intervalové odhady. Momentová metoda a metoda maximální věrohodnosti. Testování statistických hypotéz o podobě zákona o rozdělení pomocí Pearsonova kritéria. Vlastnosti odhadů, spojitá rozdělení.

Matematická statistika je jednou z hlavních částí takové vědy, jako je matematika, a je odvětvím, které studuje metody a pravidla pro zpracování určitých dat. Jinými slovy, zkoumá způsoby, jak odhalit vzory, které jsou vlastní velkým sbírkám identických předmětů, na základě jejich výběrového průzkumu.

Úkolem této části je na základě získaných výsledků sestavit metody pro odhad pravděpodobnosti nebo učinit určité rozhodnutí o povaze vyvíjejících se událostí. K popisu dat se používají tabulky, grafy a korelační pole. zřídka aplikován.

Matematická statistika se používá v různých oblastech vědy. Pro ekonomiku je například důležité zpracovávat informace o homogenních souborech jevů a objektů. Mohou to být produkty vyráběné průmyslem, zaměstnanci, zisková data atd. V závislosti na matematické povaze výsledků pozorování lze rozlišit statistiku čísel, analýzu funkcí a objektů nenumerické povahy a vícerozměrnou analýzu. Kromě toho zvažují obecné a partikulární (související s obnovou závislostí, používáním klasifikací, výběrovými studiemi) úkoly.

Autoři některých učebnic se domnívají, že teorie matematické statistiky je pouze částí teorie pravděpodobnosti, jiní se domnívají, že jde o samostatnou vědu s vlastními cíli, cíli a metodami. Jeho využití je však v každém případě velmi rozsáhlé.

Matematická statistika je tedy nejzřetelněji použitelná v psychologii. Jeho použití umožní specialistovi správně zdůvodnit, najít vztah mezi údaji, zobecnit je, vyhnout se mnoha logickým chybám a mnoho dalšího. Je třeba poznamenat, že je často jednoduše nemožné měřit ten či onen psychologický jev nebo osobnostní rys bez výpočetních postupů. To naznačuje, že základy této vědy jsou nezbytné. Jinými slovy, lze ji nazvat zdrojem a základem teorie pravděpodobnosti.

Metoda výzkumu, která se opírá o zohlednění statistických dat, se používá v jiných oblastech. Okamžitě je však třeba poznamenat, že jeho vlastnosti, pokud jsou aplikovány na předměty, které mají jinou povahu původu, jsou vždy jedinečné. Proto nemá smysl spojovat fyzikální vědu do jedné vědy. Obecné rysy této metody jsou redukovány na počítání určitého počtu objektů, které jsou zahrnuty do určité skupiny, stejně jako na studium rozložení kvantitativních rysů a aplikaci teorie pravděpodobnosti k získání určitých závěrů.

Prvky matematické statistiky se používají v oblastech, jako je fyzika, astronomie atd. Zde lze uvažovat o hodnotách charakteristik a parametrů, hypotézách o shodě jakýchkoli charakteristik ve dvou vzorcích, o symetrii distribuce a mnohem více.

Při jejich realizaci hraje důležitou roli matematická statistika, jejímž cílem je nejčastěji vybudovat adekvátní metody pro odhadování a testování hypotéz. V současné době mají v této vědě velký význam Počítačové technologie. Umožňují nejen výrazně zjednodušit proces výpočtu, ale také vytvořit vzorky pro replikaci nebo při studiu vhodnosti získaných výsledků v praxi.

V obecném případě metody matematické statistiky pomáhají vyvodit dva závěry: buď učinit požadovaný úsudek o povaze nebo vlastnostech studovaných dat a jejich vzájemných vztazích, nebo dokázat, že získané výsledky nestačí k vyvození závěrů.