Pearson taqsimoti (chi-kvadrat taqsimoti). Statistik ma'lumotlarni tahlil qilish muammolarida "xi-kvadrat" X-kvadrat taqsimotini olish formulasi

Oldin kech XIX asrda normal taqsimot ma'lumotlar o'zgarishining universal qonuni hisoblangan. Biroq, K.Pirson empirik chastotalar juda katta farq qilishi mumkinligini ta'kidladi normal taqsimot. Savol buni qanday isbotlash kerak edi. Bu nafaqat sub'ektiv bo'lgan grafik taqqoslashni, balki qat'iy miqdoriy asoslashni ham talab qildi.

Shunday qilib, mezon ixtiro qilindi ch 2(chi kvadrat), bu empirik (kuzatilgan) va nazariy (kutilgan) chastotalar o'rtasidagi nomuvofiqlikning ahamiyatini tekshiradi. Bu 1900 yilda sodir bo'lgan, ammo bu mezon hali ham qo'llanilmoqda. Bundan tashqari, u keng ko'lamli vazifalarni hal qilish uchun moslashtirilgan. Avvalo, bu kategorik ma'lumotlarni tahlil qilish, ya'ni. miqdor bilan emas, balki toifaga mansubligi bilan ifodalanganlar. Masalan, avtomobil sinfi, tajriba ishtirokchisining jinsi, o'simlik turi va boshqalar. Bunday ma'lumotlarga qo'shish va ko'paytirish kabi matematik operatsiyalarni qo'llash mumkin emas, ular uchun faqat chastotalarni hisoblash mumkin.

Biz kuzatilgan chastotalarni belgilaymiz Oh (kuzatilgan), kutilgan - E (kutilgan). Misol tariqasida 60 marta zarb uloqtirish natijasini olaylik. Agar u nosimmetrik va bir xil bo'lsa, har qanday tomonning yuqoriga chiqish ehtimoli 1/6 ga teng va shuning uchun har bir tomonning kutilgan soni 10 (1/6∙60) ga teng. Kuzatilgan va kutilgan chastotalarni jadvalga yozamiz va gistogramma chizamiz.

Nol gipoteza - chastotalar izchil, ya'ni haqiqiy ma'lumotlar kutilganlarga zid emas. Muqobil gipoteza shundaki, chastotalardagi og'ishlar tasodifiy tebranishlardan tashqariga chiqadi, nomuvofiqliklar statistik ahamiyatga ega. Qattiq xulosa chiqarish uchun bizga kerak.

  1. Kuzatilgan va kutilgan chastotalar o'rtasidagi nomuvofiqlikning umumlashtirilgan o'lchovi.
  2. Farqlar yo'qligi haqidagi gipotezaning haqiqiyligi ostida ushbu chorani taqsimlash.

Keling, chastotalar orasidagi masofadan boshlaylik. Agar biz faqat farqni olsak O - E, keyin bunday o'lchov ma'lumotlar (chastotalar) miqyosiga bog'liq bo'ladi. Masalan, 20 - 5 = 15 va 1020 - 1005 = 15. Ikkala holatda ham farq 15. Lekin birinchi holatda kutilgan chastotalar kuzatilganidan 3 baravar kam, ikkinchi holatda esa atigi 1,5. %. O'lchovga bog'liq bo'lmagan nisbiy o'lchov kerak.

Keling, quyidagi faktlarga e'tibor qaratsak. Umuman olganda, chastotalar o'lchanadigan toifalar soni ancha katta bo'lishi mumkin, shuning uchun bitta kuzatuvning u yoki bu toifaga kirishi ehtimoli juda kichik. Agar shunday bo'lsa, unda bunday tasodifiy o'zgaruvchining taqsimoti deb nomlanuvchi noyob hodisalar qonuniga bo'ysunadi Puasson qonuni. Puasson qonunida, ma'lumki, matematik kutishning qiymati va dispersiya bir xil (parametr λ ). Demak, nominal o'zgaruvchining ayrim toifalari uchun kutilayotgan chastota Ei bir vaqtda va uning dispersiyasi bo'ladi. Bundan tashqari, ko'p sonli kuzatishlar bilan Puasson qonuni normal holatga keladi. Ushbu ikkita faktni birlashtirib, agar kuzatilgan va kutilgan chastotalar o'rtasidagi kelishuv haqidagi gipoteza to'g'ri bo'lsa, unda ko'p sonli kuzatishlar bilan, ifoda

Oddiylik faqat etarlicha yuqori chastotalarda paydo bo'lishini esdan chiqarmaslik kerak. Statistikada kuzatuvlarning umumiy soni (chastotalarning yig'indisi) kamida 50 ta bo'lishi va har bir gradatsiyada kutilgan chastota kamida 5 bo'lishi kerakligi umumiy qabul qilinadi. Faqat bu holda, yuqorida ko'rsatilgan qiymat standart normaga ega. tarqatish. Bu shart bajarilgan deb faraz qilaylik.

Standart normal taqsimot ±3 (uch sigma qoidasi) doirasidagi deyarli barcha qiymatlarga ega. Shunday qilib, biz bir gradatsiya uchun chastotalardagi nisbiy farqni oldik. Bizga umumlashtirilgan chora kerak. Siz shunchaki barcha og'ishlarni qo'shib bo'lmaydi - biz 0 ni olamiz (nima uchun taxmin qiling). Pirson bu og'ishlarning kvadratlarini qo'shishni taklif qildi.

Bu belgilar Chi-kvadrat testi Pearson. Agar chastotalar haqiqatan ham kutilganlarga to'g'ri kelsa, u holda mezonning qiymati nisbatan kichik bo'ladi (chunki og'ishlarning aksariyati nolga yaqin). Ammo agar mezon katta bo'lib chiqsa, bu chastotalar orasidagi sezilarli farqlar foydasiga dalolat beradi.

Bunday yoki undan ham kattaroq qiymatning paydo bo'lishi ehtimoldan yiroq bo'lganda, Pearson mezoni "katta" bo'ladi. Va bunday ehtimolni hisoblash uchun, tajriba ko'p marta takrorlanganda, chastota kelishuvi gipotezasi to'g'ri bo'lganda, mezonning taqsimlanishini bilish kerak.

Ko'rib turganingizdek, chi-kvadratning qiymati ham atamalar soniga bog'liq. Ular qanchalik ko'p bo'lsa, mezonning qiymati shunchalik katta bo'lishi kerak, chunki har bir muddat umumiy miqdorga hissa qo'shadi. Shuning uchun, har bir miqdor uchun mustaqil atamalar, o'z taqsimotiga ega bo'ladi. Ma'lum bo'ladiki ch 2 tarqatishning butun oilasi.

Va mana, biz bir g'ijjak lahzaga keldik. Raqam nima mustaqil shartlari? Har qanday atama (ya'ni, og'ish) mustaqil bo'lib tuyuladi. K.Pirson ham shunday deb o'ylagan, ammo noto'g'ri bo'lib chiqdi. Aslida, mustaqil atamalar soni nominal o'zgaruvchining gradatsiyalari sonidan bitta kam bo'ladi n. Nega? Chunki agar bizda chastotalar yig'indisi allaqachon hisoblangan namuna bo'lsa, u holda chastotalardan biri har doim umumiy son va barcha qolganlarning yig'indisi o'rtasidagi farq sifatida aniqlanishi mumkin. Shunday qilib, o'zgarishlar biroz kamroq bo'ladi. Bu fakt Ronald Fisher Pearson o'z mezonini ishlab chiqqanidan 20 yil o'tgach payqagan. Hatto stollarni ham qayta ishlash kerak edi.

Shu munosabat bilan Fisher statistikaga yangi kontseptsiyani kiritdi - erkinlik darajasi(erkinlik darajalari), bu yig'indidagi mustaqil atamalar soni. Erkinlik darajalari tushunchasi matematik tushuntirishga ega va faqat normal (Student, Fisher-Snedekor va chi-kvadrat) bilan bog'liq taqsimotlarda paydo bo'ladi.

Erkinlik darajalarining ma'nosini yaxshiroq tushunish uchun jismoniy analogga murojaat qilaylik. Kosmosda erkin harakatlanadigan nuqtani tasavvur qiling. U 3 erkinlik darajasiga ega, chunki uch o'lchamli fazoning istalgan yo'nalishida harakatlanishi mumkin. Agar nuqta har qanday sirt bo'ylab harakatlansa, u uch o'lchamli fazoda bo'lishda davom etsa ham, u allaqachon ikki erkinlik darajasiga ega (oldinga-orqaga, o'ngga-chapga). Bahor bo'ylab harakatlanadigan nuqta yana uch o'lchamli fazoda, lekin faqat bir erkinlik darajasiga ega, chunki oldinga yoki orqaga harakatlanishi mumkin. Ko'rib turganingizdek, ob'ekt joylashgan makon har doim ham haqiqiy harakat erkinligiga mos kelmaydi.

Taxminan, shuningdek, statistik mezonning taqsimlanishi uni hisoblash uchun zarur bo'lgan shartlarga qaraganda kamroq elementlar soniga bog'liq bo'lishi mumkin. Umumiy holda, erkinlik darajalari soni mavjud bog'liqliklar soni bo'yicha kuzatishlar sonidan kamroq.

Shunday qilib, taqsimot chi kvadrat ( ch 2) taqsimotlar oilasi boʻlib, ularning har biri erkinlik darajalari parametriga bogʻliq. Va chi-kvadrat testining rasmiy ta'rifi quyidagicha. Tarqatish ch 2(chi-kvadrat) bilan k erkinlik darajalari - kvadratlar yig'indisining taqsimlanishi k mustaqil standart normal tasodifiy o'zgaruvchilar.

Keyinchalik, biz formulaning o'ziga o'tishimiz mumkin edi, unga ko'ra chi-kvadrat taqsimot funktsiyasi hisoblab chiqiladi, ammo, xayriyatki, biz uchun hamma narsa uzoq vaqtdan beri hisoblab chiqilgan. Qiziqish ehtimolini olish uchun siz tegishli statistik jadvaldan yoki Excelda tayyor funktsiyadan foydalanishingiz mumkin.

Erkinlik darajalari soniga qarab chi-kvadrat taqsimotining shakli qanday o'zgarishi qiziq.

Erkinlik darajalari oshgani sayin, chi-kvadrat taqsimoti normal bo'ladi. Bu markaziy chegara teoremasining harakati bilan izohlanadi, unga ko'ra ko'p sonli mustaqil tasodifiy o'zgaruvchilar yig'indisi normal taqsimotga ega. Kvadratchalar haqida hech narsa aytilmagan.

Pearsonning Chi-kvadrat gipoteza testi

Shunday qilib, biz gipotezalarni chi-kvadrat usuli yordamida sinab ko'rishga keldik. Umuman olganda, texnika saqlanib qoladi. Kuzatilgan chastotalar kutilgan chastotalarga to'g'ri kelishi haqida nol gipoteza ilgari suriladi (ya'ni ular bir xil umumiy populyatsiyadan olinganligi sababli ular o'rtasida farq yo'q). Agar shunday bo'lsa, tarqalish tasodifiy tebranishlar chegarasida nisbatan kichik bo'ladi. Tarqalish o'lchovi chi-kvadrat testi bilan aniqlanadi. Keyinchalik, mezonning o'zi kritik qiymat bilan taqqoslanadi (tegishli ahamiyatga egalik darajasi va erkinlik darajalari uchun) yoki, to'g'rirog'i, kuzatilgan p-qiymati hisoblanadi, ya'ni. nol gipoteza haqiqiyligi ostida mezonning shunday yoki undan ham kattaroq qiymatini olish ehtimoli.

Chunki Biz chastotalar kelishuviga qiziqqanimiz sababli, mezon kritik darajadan kattaroq bo'lsa, gipoteza rad etiladi. Bular. mezon bir tomonlama. Biroq, ba'zan (ba'zan) chap qo'l gipotezasini sinab ko'rish talab qilinadi. Misol uchun, empirik ma'lumotlar nazariy ma'lumotlarga juda o'xshash bo'lsa. Keyin mezon mumkin bo'lmagan mintaqaga tushishi mumkin, lekin allaqachon chap tomonda. Gap shundaki, tabiiy sharoitda nazariy chastotalar bilan amalda mos keladigan chastotalarni olish dargumon. Har doim xato beradigan tasodifiylik mavjud. Ammo bunday xatolik bo'lmasa, ehtimol ma'lumotlar soxtalashtirilgan. Ammo shunga qaramay, o'ng qo'l gipotezasi odatda sinovdan o'tkaziladi.

Keling, zar bilan bog'liq muammoga qaytaylik. Mavjud ma'lumotlarga ko'ra chi-kvadrat testining qiymatini hisoblang.

Endi 5 erkinlik darajasidagi kritik qiymatni topamiz ( k) va ahamiyatlilik darajasi 0,05 ( α ) chi-kvadrat taqsimotining kritik qiymatlari jadvaliga muvofiq.

Ya'ni, 5 daraja erkinlik bilan 0,05 chi kvadrat taqsimoti (o'ng quyruq) kvanti ch2 0,05; 5 = 11,1.

Keling, haqiqiy va jadval qiymatini taqqoslaylik. 3.4( ch 2) < 11,1 (ch2 0,05; 5). Hisoblangan mezon kichikroq bo'lib chiqdi, ya'ni chastotalarning tengligi (roziligi) gipotezasi rad etilmaydi. Rasmda vaziyat shunday ko'rinadi.

Agar hisoblangan qiymat kritik mintaqaga tushib qolsa, nol gipoteza rad etiladi.

p-qiymatini ham hisoblash to'g'riroq bo'ladi. Buni amalga oshirish uchun jadvalda berilgan erkinlik darajalari uchun eng yaqin qiymatni topishingiz va mos keladigan ahamiyat darajasini ko'rishingiz kerak. Ammo bu o'tgan asr. Biz kompyuterdan, xususan MS Exceldan foydalanamiz. Excelda chi-kvadrat bilan bog'liq bir nechta funktsiyalar mavjud.

Quyida ularning qisqacha tavsifi keltirilgan.

XI2.OBR- chapda berilgan ehtimollik mezonining kritik qiymati (statistik jadvallardagi kabi)

chi2.ex.ph- o'ngdagi berilgan ehtimollik mezonining kritik qiymati. Funktsiya asosan avvalgisini takrorlaydi. Ammo bu erda siz darhol darajani ko'rsatishingiz mumkin α , uni 1 dan ayirish o'rniga. Bu qulayroq, chunki ko'p hollarda tarqatishning o'ng dumi kerak.

CH2.DIST– chapda p-qiymati (zichlikni hisoblash mumkin).

HI2.DIST.PH- o'ngda p-qiymati.

HI2.TEST- bir vaqtning o'zida ikkita chastota diapazonida chi-kvadrat testini amalga oshiradi. Erkinlik darajalari soni ustundagi chastotalar sonidan bir kam qabul qilinadi (bunday bo'lishi kerak), p-qiymatini qaytaradi.

Hozircha, keling, tajribamiz uchun 5 erkinlik darajasi va alfa 0,05 uchun kritik (jadval) qiymatini hisoblaylik. Excel formulasi quyidagicha ko'rinadi:

CH2.OBR(0,95;5)

chi2.inv.rx(0,05;5)

Natija bir xil bo'ladi - 11.0705. Aynan mana shu qiymat jadvalda ko'ramiz (1 kasrgacha yaxlitlangan).

Nihoyat, mezonning 5 erkinlik darajasi uchun p-qiymatini hisoblaymiz ch 2= 3.4. Bizga o'ngdagi ehtimollik kerak, shuning uchun biz RH (o'ng quyruq) qo'shilishi bilan funktsiyani olamiz.

CH2.DIST.RH (3,4;5) = 0,63857

Shunday qilib, 5 daraja erkinlik bilan, mezon qiymatini olish ehtimoli ch 2= 3,4 va undan ko'p deyarli 64% ga teng. Tabiiyki, gipoteza rad etilmaydi (p-qiymati 5% dan katta), chastotalar juda yaxshi mos keladi.

Endi chastota kelishuvi gipotezasini chi-kvadrat testi va Excel funksiyasi HI2.TEST yordamida tekshiramiz.

Jadvallar, mashaqqatli hisoblar yo'q. Kuzatilgan va kutilgan chastotalar bilan ustunlarni funktsiya argumentlari sifatida belgilab, biz darhol p-qiymatini olamiz. Go'zallik.

Tasavvur qiling, siz shubhali turdagi zar o'ynayapsiz. 1 dan 5 gacha bo'lgan ballarning taqsimlanishi bir xil bo'lib qoladi, lekin u 26 oltitani aylantiradi (barcha rulonlarning soni 78 ga aylanadi).

Bu holda p-qiymati 0,003 ga aylanadi, bu 0,05 dan ancha past. Zarlarning to'g'riligiga shubha qilish uchun jiddiy sabablar bor. Xi-kvadrat taqsimot diagrammasida bu ehtimollik qanday ko'rinadi.

Bu erda chi-kvadrat mezonining o'zi 17,8 ga aylanadi, bu tabiiy ravishda jadvaldagidan (11,1) kattaroqdir.

Umid qilamanki, men yaxshilik mezoni nima ekanligini tushuntira oldim. ch 2(chi-kvadrat) Pearson va u bilan statistik farazlar qanday tekshiriladi.

Va nihoyat, yana bir bor muhim shart haqida! Chi-kvadrat testi faqat barcha chastotalar soni 50 dan oshganda va har bir gradatsiya uchun kutilayotgan minimal qiymat 5 dan kam bo'lmaganda to'g'ri ishlaydi. Agar biron bir toifada kutilgan chastota 5 dan kam bo'lsa, lekin barcha chastotalar yig'indisi oshib ketgan bo'lsa. 50, keyin bu toifa eng yaqin bilan birlashtiriladi, shunda ularning umumiy chastotasi 5 dan oshadi. Agar buning iloji bo'lmasa yoki chastotalar yig'indisi 50 dan kam bo'lsa, gipotezalarni tekshirishning aniqroq usullaridan foydalanish kerak. Biz ular haqida boshqa safar gaplashamiz.

Quyida Excelda chi-kvadrat testi yordamida gipotezani qanday tekshirish haqida videoklip keltirilgan.

Ta'lim va fan vazirligi Rossiya Federatsiyasi

Irkutsk ta'lim federal agentligi

Baykal Davlat universiteti iqtisodiyot va huquq

Informatika va kibernetika kafedrasi

Xi-kvadrat taqsimoti va uning qo'llanilishi

Kolmykova Anna Andreevna

2-kurs talabasi

IS-09-1 guruhi

Irkutsk 2010 yil

Kirish

1. Xi-kvadrat taqsimoti

Ilova

Xulosa

Bibliografiya

Kirish

Ehtimollar nazariyasining yondashuvlari, g'oyalari va natijalari hayotimizda qanday qo'llaniladi?

Baza haqiqiy hodisa yoki jarayonning ehtimollik modelidir, ya'ni. ob'ektiv munosabatlar ehtimollar nazariyasida ifodalanadigan matematik model. Ehtimollar, birinchi navbatda, qaror qabul qilishda hisobga olinishi kerak bo'lgan noaniqliklarni tavsiflash uchun ishlatiladi. Bu ham istalmagan imkoniyatlarga (xavflarga) ham, jozibalilariga ham ("baxtli imkoniyat") tegishlidir. Ba'zida tasodifiylik vaziyatga ataylab kiritiladi, masalan, qur'a tashlash, nazorat qilish uchun birliklarni tasodifiy tanlash, lotereyalar yoki iste'molchilar so'rovlarini o'tkazish.

Ehtimollar nazariyasi tadqiqotchini qiziqtirgan boshqa ehtimollarni hisoblash imkonini beradi.

Hodisa yoki jarayonning ehtimollik modeli matematik statistikaning asosi hisoblanadi. Tushunchalarning ikkita parallel seriyasi qo'llaniladi - nazariya (ehtimoliy model) va amaliyot bilan bog'liq bo'lganlar (kuzatish natijalari namunasi). Masalan, nazariy ehtimollik namunadan topilgan chastotaga mos keladi. Matematik kutish (nazariy qator) namunaviy o'rtacha arifmetik qiymatga (amaliy qator) mos keladi. Qoida tariqasida, namunaviy xarakteristikalar nazariy bo'lganlarning taxminidir. Shu bilan birga, nazariy qatorga taalluqli miqdorlar “tadqiqotchilarning ongida” bo‘lib, g‘oyalar olamiga (qadimgi yunon faylasufi Platonning fikricha) murojaat qiladi va bevosita o‘lchash uchun mavjud emas. Tadqiqotchilar faqat tanlab olingan ma'lumotlarga ega bo'lib, ular yordamida ular uchun qiziqarli bo'lgan nazariy ehtimollik modelining xususiyatlarini o'rnatishga harakat qilishadi.

Nima uchun bizga probabilistik model kerak? Gap shundaki, faqat uning yordami bilan ma'lum bir namunani tahlil qilish natijalari bilan o'rnatilgan xususiyatlarni boshqa namunalarga, shuningdek, umumiy populyatsiya deb ataladigan narsaga o'tkazish mumkin. "Aholisi" atamasi o'rganilayotgan birliklarning katta, ammo chekli populyatsiyasini ifodalash uchun ishlatiladi. Masalan, Rossiyaning barcha aholisi yoki Moskvadagi barcha eriydigan qahva iste'molchilarining umumiy soni haqida. Marketing yoki sotsiologik so'rovlarning maqsadi yuzlab yoki minglab odamlardan olingan ma'lumotlarni bir necha million kishilik umumiy aholiga o'tkazishdir. Sifatni nazorat qilishda mahsulot partiyasi umumiy aholi sifatida ishlaydi.

Xulosalarni namunadan kattaroq populyatsiyaga o'tkazish uchun namunaviy xususiyatlarning ushbu kattaroq populyatsiyaning xususiyatlari bilan bog'liqligi haqida ba'zi taxminlar kerak. Bu taxminlar tegishli ehtimollik modeliga asoslanadi.

Albatta, u yoki bu ehtimolli modeldan foydalanmasdan namunaviy ma'lumotlarni qayta ishlash mumkin. Masalan, siz namunaviy arifmetik o'rtachani hisoblashingiz, ma'lum shartlarni bajarish chastotasini hisoblashingiz va hokazo. Biroq, hisob-kitoblar natijalari faqat ma'lum bir namunaga tegishli bo'ladi, ularning yordami bilan olingan xulosalarni boshqa har qanday to'plamga o'tkazish noto'g'ri. Ushbu faoliyat ba'zan "ma'lumotlarni tahlil qilish" deb ataladi. Ehtimoliy-statistik usullar bilan solishtirganda, ma'lumotlarni tahlil qilish cheklangan kognitiv qiymatga ega.

Demak, namunaviy xarakteristikalar yordamida gipotezalarni baholash va tekshirishga asoslangan ehtimollik modellaridan foydalanish ehtimollik-statistik qarorlar qabul qilish usullarining mohiyatidir.

Chi-kvadrat taqsimoti

Oddiy taqsimot hozirda statistik ma'lumotlarni qayta ishlashda keng qo'llaniladigan uchta taqsimotni belgilaydi. Bular Pearson ("chi - kvadrat"), Student va Fisherning taqsimotlari.

Biz tarqatishga e'tibor qaratamiz

("chi - kvadrat"). Bu taqsimot birinchi marta 1876 yilda astronom F. Helmert tomonidan o'rganilgan. Gauss xatolar nazariyasi bilan bog'liq holda u n ta mustaqil standart normal taqsimlangan tasodifiy o'zgaruvchilarning kvadratlari yig'indisini o'rgandi. Karl Pirson keyinchalik bu taqsimot funksiyasini “chi-kvadrat” deb atadi. Va endi tarqatish uning nomini oladi.

Oddiy taqsimot bilan yaqin munosabatda bo'lganligi sababli, ch2 taqsimoti o'ynaydi muhim rol ehtimollar nazariyasida va matematik statistika. ch2 taqsimoti va ch2 taqsimoti bilan aniqlangan boshqa ko‘plab taqsimotlar (masalan, Student t-taqsimoti) namunaviy taqsimotlarni tavsiflaydi. turli funktsiyalar normal taqsimlangan kuzatishlardan olinadi va ishonch oraliqlari va statistik testlarni qurish uchun ishlatiladi.

Pearson taqsimoti

(chi - kvadrat) - tasodifiy o'zgaruvchining taqsimlanishi, bunda X1, X2,…, Xn normal mustaqil tasodifiy miqdorlar va kutilgan qiymat ularning har biri nolga teng, standart og'ish esa bitta.

Kvadratlar yig'indisi


qonun bilan tayinlangan

("chi - kvadrat").

Bunday holda, atamalar soni, ya'ni. n, chi-kvadrat taqsimotining "erkinlik darajalari soni" deb ataladi. Erkinlik darajalari soni ortib borishi bilan taqsimot asta-sekin me'yorga yaqinlashadi.

Ushbu taqsimotning zichligi

Shunday qilib, ch2 taqsimoti bitta parametrga bog'liq n - erkinlik darajalari soni.

ch2 taqsimot funktsiyasi quyidagi ko'rinishga ega:

agar ch2≥0 bo'lsa. (2.7.)

1-rasmda turli erkinlik darajalari uchun ehtimollik zichligi va ch2 taqsimot funksiyasining grafigi keltirilgan.

1-rasm Turli xil erkinlik darajalari uchun ch2 (chi - kvadrat) taqsimotidagi ehtimollik zichligi ph (x) ning bog'liqligi.

"Xi-kvadrat" taqsimotining momentlari:

Chi-kvadrat taqsimoti dispersiyani baholashda qo'llaniladi ( ishonch oralig'i), kelishuv, bir xillik, mustaqillik gipotezalarini sinab ko'rishda, birinchi navbatda, cheklangan miqdordagi qiymatlarni qabul qiladigan sifatli (toifalangan) o'zgaruvchilar uchun va boshqa ko'plab muammolarda statistik tahlil ma'lumotlar.

2. Statistik ma’lumotlarni tahlil qilish muammolarida “Chi-kvadrat”

Ma'lumotlarni tahlil qilishning statistik usullari inson faoliyatining deyarli barcha sohalarida qo'llaniladi. Ular har qanday ichki xilma-xillikka ega bo'lgan guruh (ob'ektlar yoki sub'ektlar) to'g'risida har qanday mulohazalarni olish va asoslash zarur bo'lganda qo'llaniladi.

Statistik usullarning rivojlanishining zamonaviy bosqichini ingliz K.Pirson "Biometrika" jurnaliga asos solgan 1900 yildan boshlab hisoblash mumkin. 20-asrning birinchi uchdan bir qismi parametrik statistika belgisi ostida o'tdi. Pearson oilasi egri chiziqlari bilan tavsiflangan taqsimotlarning parametrik oilalari ma'lumotlarini tahlil qilishga asoslangan usullar o'rganildi. Eng mashhuri oddiy taqsimot edi. Gipotezalarni tekshirish uchun Pearson, Student va Fisher mezonlaridan foydalanilgan. Maksimal ehtimollik usuli, dispersiyani tahlil qilish taklif qilindi va eksperimentni rejalashtirishning asosiy g'oyalari shakllantirildi.

Xi-kvadrat taqsimoti statistik gipotezalarni tekshirish uchun statistikada eng ko'p qo'llaniladigan usullardan biridir. "Xi-kvadrat" taqsimoti asosida eng kuchli moslik testlaridan biri - Pirsonning "chi-kvadrat" testi qurilgan.

Muvofiqlik testi noma'lum taqsimotning taklif qilingan qonuni haqidagi gipotezani tekshirish mezoni hisoblanadi.

ch2 (“chi-kvadrat”) testi turli taqsimotlar gipotezasini tekshirish uchun ishlatiladi. Bu uning xizmati.

Mezonning hisoblash formulasi ga teng

bu yerda m va m' mos ravishda empirik va nazariy chastotalar

ko'rib chiqilayotgan taqsimot;

n - erkinlik darajalari soni.

Tekshirish uchun biz empirik (kuzatilgan) va nazariy (normal taqsimot taxmini ostida hisoblangan) chastotalarni solishtirishimiz kerak.

Agar empirik chastotalar hisoblangan yoki kutilgan chastotalar bilan to'liq mos tushsa, S (E - T) = 0 va ch2 mezoni ham nolga teng bo'ladi. Agar S (E - T) nolga teng bo'lmasa, bu hisoblangan chastotalar va seriyaning empirik chastotalari o'rtasidagi nomuvofiqlikni ko'rsatadi. Bunday hollarda nazariy jihatdan noldan cheksizgacha o'zgarishi mumkin bo'lgan ch2 mezonining ahamiyatini baholash kerak. Bu ch2ph ning haqiqiy olingan qiymatini uning kritik qiymati (ch2st) bilan solishtirish orqali amalga oshiriladi.Nol gipoteza, ya’ni empirik va nazariy yoki kutilayotgan chastotalar o‘rtasidagi nomuvofiqlik tasodifiy degan taxmin, agar ch2ph dan katta yoki teng bo‘lsa, rad etiladi. Qabul qilingan muhimlik darajasi (a) va erkinlik darajalari soni (n) uchun ch2-gacha.

Xi-kvadrat testi - universal usul eksperiment natijalari va foydalanilgan statistik model o'rtasidagi kelishuvni tekshirish.

Pearson masofasi X 2

Pyatnitskiy A.M.

Rossiya davlati Tibbiyot universiteti

1900 yilda Karl Pearson oddiy, universal va samarali usul model bashoratlari va eksperimental ma'lumotlar o'rtasidagi kelishuvni tekshirish. Uning "xi-kvadrat testi" eng muhim va eng ko'p qo'llaniladigan statistik testdir. Modelning noma'lum parametrlarini baholash va model va eksperimental ma'lumotlar o'rtasidagi kelishuvni tekshirish bilan bog'liq muammolarning aksariyatini uning yordami bilan hal qilish mumkin.

O'rganilayotgan ob'ekt yoki jarayonning apriori ("eksperimentdan oldingi") modeli (statistikada ular "nol gipoteza" H 0 haqida gapirishadi) va ushbu ob'ekt bilan tajriba natijalari bo'lsin. Model adekvat yoki yo'qligini hal qilish kerak (u haqiqatga mos keladimi)? Tajriba natijalari haqiqatning qanday ishlashi haqidagi g'oyalarimizga zid emasmi yoki boshqacha qilib aytganda, H 0 ni rad etish kerakmi? Ko'pincha bu vazifani kuzatilgan (O i = Kuzatilgan ) va model bo'yicha kutilgan (E i = Kutilayotgan ) ma'lum hodisalar ro'y berishning o'rtacha chastotalarini solishtirishga qisqartirish mumkin. Kuzatilgan chastotalar doimiy (!) sharoitda amalga oshirilgan N ta mustaqil (!) kuzatishlar seriyasida olingan deb hisoblanadi. Har bir kuzatish natijasida M hodisadan biri qayd qilinadi. Bu hodisalar bir vaqtning o'zida sodir bo'lolmaydi (ular juftlik bilan mos kelmaydi) va ulardan biri majburiy ravishda sodir bo'ladi (ularning kombinatsiyasi ishonchli hodisani tashkil qiladi). Barcha kuzatishlar yig'indisi chastotalar jadvaliga (vektor) keltiriladi (O i )=(O 1 ,… O M ), bu tajriba natijalarini to'liq tavsiflaydi. O 2 =4 qiymati 2-raqamli hodisa 4 marta sodir bo'lganligini bildiradi. O 1 +… O M =N chastotalar yig'indisi. Ikki holatni farqlash muhim: N - sobit, tasodifiy bo'lmagan, N - tasodifiy qiymat. Belgilangan vaqtda umumiy soni N chastotali tajribalar polinom taqsimotiga ega. Keling, buni tushuntirib beraylik umumiy sxema oddiy misol.

Oddiy gipotezalarni tekshirish uchun chi-kvadrat testini qo'llash.

Model (nol gipoteza H 0) zarning muntazam ekanligidan iborat bo'lsin - barcha yuzlar p i =1/6, i =, M=6 ehtimollik bilan bir xil tez-tez tushadi. Tajriba o'tkazildi, bu suyakning 60 marta otilganligidan iborat edi (N = 60 ta mustaqil test o'tkazildi). Modelga ko'ra, biz barcha kuzatilgan chastotalar O i paydo bo'lishini kutamiz 1,2,... 6 ball ularning o'rtacha qiymatlariga yaqin bo'lishi kerak E i =Np i =60∙(1/6)=10. H 0 ga ko'ra o'rta chastota vektori (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Tajriba boshlanishidan oldin o'rtacha chastotalar to'liq ma'lum bo'lgan gipotezalar oddiy deb ataladi.) Agar kuzatilgan vektor (O i ) (34,0,0,0,0,26) ga teng bo'lsa, u darhol bo'ladi. model noto'g'ri ekanligi aniq - suyak to'g'ri bo'lishi mumkin emas, chunki faqat 1 va 6 60 marta tushib ketdi To'g'ri zar uchun bunday hodisaning ehtimoli ahamiyatsiz: P = (2/6) 60 =2,4 * 10 -29 . Biroq, model va tajriba o'rtasidagi bunday aniq nomuvofiqliklarning paydo bo'lishi istisno hisoblanadi. Kuzatilgan chastotalar vektori (O i ) (5, 15, 6, 14, 4, 16) ga teng bo'lsin. Bu H 0 ga mos keladimi? Shunday qilib, biz ikkita chastota vektorini (E i ) va (O i ) solishtirishimiz kerak. Shu bilan birga, kutilgan chastotalar vektori (E i ) tasodifiy emas, lekin kuzatilgan chastotalar vektori (O i ) tasodifiy - keyingi tajribada (ichida yangi seriya 60 ta rulondan) boshqacha bo'ladi. Muammoning geometrik talqinini kiritish va chastota fazosida (bu holda 6 o'lchovli) ikkita nuqta koordinatali (5, 15, 6, 14, 4, 16) va (10, 10, 10, 10, 10, 10). H 0 bilan mos kelmaydigan deb hisoblash uchun ular bir-biridan etarlicha uzoqdami? Boshqacha aytganda, bizga kerak:

  1. chastotalar orasidagi masofani o'lchashni o'rganish (chastota fazosidagi nuqtalar),
  2. qaysi masofani juda katta ("ehtimolsiz") katta, ya'ni H 0 ga mos kelmaydigan deb hisoblash kerakligi mezoniga ega.

Odatiy Evklid masofasining kvadrati quyidagicha bo'ladi:

X 2 Evklid = S(O i -E i) 2 = (5-10) 2 + (15-10) 2 + (6-10) 2 + (14-10) 2 + (4-10) 2 + (16-10) 2

Bundan tashqari, X 2 Evklid = const sirtlari, agar biz E i qiymatlarini o'rnatsak va O ni o'zgartirsak, har doim sharlardir. Karl Pirson chastota fazosida Evklid masofasidan foydalanmaslik kerakligini ta'kidladi. Shunday qilib, (O =1030 va E =1000) va (O =40 va E =10) nuqtalarni bir-biridan teng masofada joylashgan deb hisoblash noto'g'ri, garchi ikkala holatda ham farq O -E =30. Axir, kutilgan chastota qanchalik katta bo'lsa, undan ko'p og'ishlar mumkin deb hisoblash kerak. Shuning uchun (O =1030 va E =1000) nuqtalarni bir-biridan "yaqin", nuqtalarni (O =40 va E =10) "uzoq" deb hisoblash kerak. Ko'rsatish mumkinki, agar H 0 gipotezasi to'g'ri bo'lsa, u holda O i chastotasining E ga nisbatan tebranishlari tartibning kattaligiga ega. kvadrat ildiz(!) dan E i . Shuning uchun Pirson masofani hisoblashda farqlarni (O i -E i ) emas, balki normalangan farqlarni (O i -E i )/E i 1/2 ni kvadratga olishni taklif qildi. Shunday qilib, Pearson masofasini hisoblash formulasi (aslida bu masofaning kvadrati):

X 2 Pearson = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Bizning misolimizda:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

Muntazam zar uchun barcha kutilgan chastotalar E i bir xil, lekin odatda ular har xil bo'ladi, shuning uchun Pearson masofasi doimiy bo'lgan sirtlar (X 2 Pearson =const) allaqachon shar emas, ellipsoid bo'lib chiqadi.

Endi, masofalarni hisoblash formulasi tanlangandan so'ng, qaysi masofalarni "juda katta emas" deb hisoblash kerakligini aniqlash kerak (H 0 ga mos keladi) Shunday qilib, masalan, biz hisoblagan masofa haqida nima deyish mumkin 15.4 ? Agar biz oddiy zar bilan tajriba o'tkazsak, necha foiz hollarda (yoki qanday ehtimollik bilan) 15,4 dan katta masofaga erishamiz? Agar bu foiz kichik bo'lsa<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Tushuntirish. i sonli jadvalning katakchasiga tushgan O i o‘lchovlar soni parametrli binomial taqsimotga ega: m =Np i =E i ,s =(Np i (1-pi )) 1/2 , bu erda N - o'lchovlar soni (N "1), p i - bitta o'lchovning ushbu katakka tushishi ehtimoli (esda tutingki, o'lchovlar mustaqil va doimiy sharoitlarda amalga oshiriladi). Agar p i kichik bo'lsa, u holda: s≈(Np i ) 1/2 =E i va binomial taqsimot Puassonga yaqin bo'lib, bunda kuzatuvlarning o'rtacha soni E i =l, standart og'ish s=l 1/2 bo'ladi. = E i 1/2. l≥5 uchun Puasson taqsimoti normal N ga (m =E i =l, s=E i 1/2 =l 1/2) va normallashtirilgan qiymatga (O i - E i )/E i 1 ga yaqin. /2 ≈ N (0 ,1).

Pearson tasodifiy o'zgaruvchi ch 2 n - "n erkinlik darajasiga ega chi-kvadrat" ni n ta mustaqil standart normal r.v. kvadratlari yig'indisi sifatida aniqladi:

ch 2 n = T 1 2 + T 2 2 + …+ T n 2, qaerda, barcha T i = N(0,1) - n. O. R. Bilan. V.

Keling, statistikadagi ushbu eng muhim tasodifiy o'zgaruvchining ma'nosini vizual ravishda tushunishga harakat qilaylik. Buning uchun tekislikda (n = 2 uchun) yoki fazoda (n = 3 uchun) biz koordinatalari mustaqil va standart normal taqsimotga ega bo'lgan nuqtalar bulutini tasvirlaymizf T (x) ~exp (-x 2 /2) ). Tekislikda, ikkala koordinataga mustaqil ravishda qo'llaniladigan "ikki sigma" qoidasiga ko'ra, nuqtalarning 90% (0,95*0,95≈0,90) kvadrat ichida (-2) o'ralgan.

f ch 2 2 (a) = Sexp(-a/2) = 0,5exp(-a/2).

Etarlicha katta miqdordagi erkinlik darajasi n (n>30) bilan, chi-kvadrat taqsimoti normalga yaqinlashadi: N (m = n; s = (2n) ½). Bu "markaziy chegara teoremasi" ning natijasidir: cheklangan dispersiyaga ega bir xil taqsimlangan miqdorlar yig'indisi hadlar sonining ko'payishi bilan normal qonunga yaqinlashadi.

Amalda shuni yodda tutish kerakki, masofaning o'rtacha kvadrati m (ch 2 n )=n ga, dispersiyasi s 2 (ch 2 n )=2n ga teng. Bundan xulosa qilish mumkinki, qaysi chi-kvadrat qiymatlari juda kichik va juda katta deb hisoblanishi kerak: taqsimotning ko'p qismi n -2 ∙ (2n ) ½ dan n + 2 ∙ (2n ) ½ oralig'ida joylashgan.

Shunday qilib, n +2∙ (2n ) ½ dan sezilarli darajada oshgan Pearson masofalari aql bovar qilmaydigan darajada katta deb hisoblanishi kerak (H 0 ga mos kelmaydi). Agar natija n +2∙(2n) ½ ga yaqin bo'lsa, unda bunday va katta chi-kvadrat qiymatlari holatlarning qaysi nisbatida paydo bo'lishi mumkinligini aniq bilib olishingiz mumkin bo'lgan jadvallardan foydalanishingiz kerak.

Erkinlik darajalari soni uchun to'g'ri qiymatni qanday tanlashni bilish muhimdir (erkinlik soni darajasi, qisqartirilgan n .d .f .). n ni shunchaki bitlar soniga teng deb o'ylash tabiiy edi: n = M . Pirson o'z maqolasida shunday taklif qildi. Zar misolida bu n = 6 ni bildiradi. Biroq, bir necha yil o'tgach, Pirsonning noto'g'ri ekanligi ko'rsatildi. Erkinlik darajalari soni har doim raqamlar sonidan kichik bo'ladi, agar tasodifiy o'zgaruvchilar O i o'rtasida bog'lanishlar mavjud bo'lsa. Zar misolida O i yig‘indisi 60 ga teng va faqat 5 ta chastotani mustaqil ravishda o‘zgartirish mumkin, shuning uchun to‘g‘ri qiymat n=6-1=5. Bu n qiymati uchun n +2∙(2n) ½ =5+2∙(10) ½ =11,3 ni olamiz. 15,4>11,3 bo'lganligi sababli, H 0 gipotezasi - zar to'g'ri, rad etilishi kerak.

Xatoni aniqlagandan so'ng, mavjud ch 2 jadvallarini to'ldirish kerak edi, chunki dastlab ularda n = 1 holi yo'q edi, chunki raqamlarning eng kichik soni = 2. Endi ma'lum bo'ldiki, Pearson masofasi ch 2 n =1 taqsimotiga ega bo'lgan holatlar bo'lishi mumkin.

Misol. 100 ta tanga otilishi bilan gerblar soni O 1 = 65, dumlari O 2 = 35. Raqamlar soni M = 2. Agar tanga simmetrik bo'lsa, kutilgan chastotalar E 1 =50, E 2 =50 bo'ladi.

X 2 Pearson = S(O i -E i) 2 / E i \u003d (65-50) 2/50 + (35-50) 2/50 \u003d 2 * 225/50 \u003d 9.

Olingan qiymat ch 2 n =1 standart normal qiymatning kvadrati sifatida aniqlangan ch 2 n =1 =T 1 2 ≥ 9 tasodifiy o'zgaruvchisi olishi mumkin bo'lgan qiymatlar bilan taqqoslanishi kerak. ó T 1 ≥3 yoki T 1 ≤-3. Bunday hodisaning ehtimoli juda kichik P (ch 2 n =1 ≥9) = 0,006. Shuning uchun tangani nosimmetrik deb hisoblash mumkin emas: H 0 rad etilishi kerak. Erkinlik darajalari soni bitlar soniga teng bo'lmasligini kuzatish mumkin bo'lgan chastotalar yig'indisi har doim kutilgan chastotalar yig'indisiga teng bo'ladi, masalan O 1 +O 2 =65. +35 = E 1 +E 2 =50+50=100. Shuning uchun, O 1 va O 2 koordinatalari bo'lgan tasodifiy nuqtalar to'g'ri chiziqda joylashgan: O 1 + O 2 \u003d E 1 + E 2 \u003d 100 va markazgacha bo'lgan masofa, agar bu cheklov bo'lmasa, kamroq bo'ladi. u erda va ular butun samolyotda joylashgan edi. Darhaqiqat, E 1 =50, E 2 =50 matematik taxminlarga ega bo'lgan ikkita mustaqil tasodifiy o'zgaruvchilar uchun ularning amalga oshirilishining yig'indisi har doim ham 100 ga teng bo'lmasligi kerak - masalan, O 1 =60, O 2 =55 qiymatlari maqbul bo'lsin.

Tushuntirish. Keling, M = 2 bilan Pearson mezonining natijasini M = 2 ga teng bo'lgan N ta mustaqil Bernulli sinovlarida p ehtimoliga ega bo'lgan n =K /N hodisaning sodir bo'lish chastotasining tasodifiy tebranishlarini baholashda Moivre-Laplas formulasi beradigan narsa bilan taqqoslaylik. K - muvaffaqiyatlar soni):

ch 2 n =1 = S(O i -E i) 2 / E i \u003d (O 1 -E 1) 2 / E 1 + (O 2 -E 2) 2 / E 2 \u003d (Nn -Np) 2 / (Np) + ( N ( 1-n )-N (1-p )) 2 /(N (1-p ))=

=(Nn-Np) 2 (1/p + 1/(1-p))/N=(Nn-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Qiymat T \u003d (K -Np) / (Npq) ½ \u003d (K -m (K)) / s (K) ≈ N (0,1) bilan s (K) \u003d (Npq) ½ ≥3. Ko'ramizki, bu holda Pirson natijasi binomial taqsimotga normal yaqinlashuvni qo'llash orqali olingan natija bilan aynan bir xil bo'ladi.

Hozirgacha biz oddiy farazlarni ko'rib chiqdik, ular uchun kutilgan o'rtacha chastotalar E i oldindan to'liq ma'lum. Murakkab farazlar uchun erkinlik darajalarining to'g'ri sonini qanday tanlash haqida quyida ko'ring.

Murakkab gipotezalarni tekshirish uchun Chi-kvadrat testini qo'llash

To'g'ri zar va tanga bilan misollarda kutilgan chastotalarni tajribadan oldin (!) aniqlash mumkin edi. Bunday farazlar "oddiy" deb ataladi. Amalda "murakkab farazlar" ko'proq uchraydi. Shu bilan birga, kutilgan chastotalarni topish uchun E i, birinchi navbatda bir yoki bir nechta miqdorlarni (model parametrlarini) taxmin qilish kerak va bu faqat eksperimental ma'lumotlar yordamida amalga oshirilishi mumkin. Natijada, “murakkab farazlar” uchun kutilgan E i chastotalar O i kuzatilgan chastotalarga bog‘liq bo‘lib chiqadi va shuning uchun tajriba natijalariga qarab o‘zgaruvchan tasodifiy o‘zgaruvchilarga aylanadi. Parametrlarni moslashtirish jarayonida Pearson masofasi pasayadi - parametrlar model va tajriba o'rtasidagi kelishuvni yaxshilash uchun tanlangan. Shuning uchun erkinlik darajalari soni kamayishi kerak.

Model parametrlarini qanday baholash mumkin? Baholashning turli xil usullari mavjud - "maksimal ehtimollik usuli", "lahzalar usuli", "almashtirish usuli". Biroq, hech qanday qo'shimcha mablag'larni jalb qilmaslik va Pearson masofasini minimallashtirish orqali parametr baholarini topish mumkin. Kompyuterdan oldingi davrda bu yondashuv kamdan-kam hollarda qo'llanilgan: qo'lda hisob-kitoblar uchun noqulay va, qoida tariqasida, analitik yechimga mos kelmaydi. Kompyuterda hisoblashda, odatda, raqamli minimallashtirish osonlik bilan amalga oshiriladi va bu usulning afzalligi uning universalligidir. Shunday qilib, "chi-kvadratni minimallashtirish usuli" ga ko'ra, biz Pearson masofasi eng kichik bo'lishi uchun noma'lum parametrlarning qiymatlarini tanlaymiz. (Aytgancha, topilgan minimumga nisbatan kichik siljishlar bilan ushbu masofadagi o'zgarishlarni o'rganish orqali, taxminning to'g'riligi o'lchovini taxmin qilish mumkin: ishonch oraliqlarini qurish.) Parametrlar va ushbu minimal masofaning o'zi topilgandan so'ng, yetarlicha kichikmi degan savolga yana javob berish kerak.

Umumiy harakatlar ketma-ketligi quyidagicha:

  1. Modelni tanlash (gipotezalar H 0).
  2. Raqamlarni tanlash va kuzatilayotgan chastotalar vektorini aniqlash O i .
  3. Modelning noma'lum parametrlarini baholash va ular uchun ishonch oraliqlarini qurish (masalan, Pearson masofasining minimalini qidirish orqali).
  4. Kutilayotgan chastotalarni hisoblash E i.
  5. Pearson masofasi X 2 ning topilgan qiymatini chi-kvadrat ch 2 kritining kritik qiymati bilan taqqoslash - eng kattasi, hali ham ishonchli, H 0 bilan mos keladi. Qiymati, ch 2 krit, biz tenglamani yechishda jadvallardan topamiz

P (ch 2 n > ch 2 krit)=1-a,

bu erda a - "ahamiyat darajasi" yoki "sinov hajmi" yoki "I turdagi xato qiymati" (odatiy qiymat a=0,05).

Odatda erkinlik darajalari soni n formula bo'yicha hisoblanadi

n = (raqamlar soni) – 1 – (hisoblangan parametrlar soni)

Agar X 2 > ch 2 krit bo'lsa, H 0 gipotezasi rad etiladi, aks holda qabul qilinadi. a∙100% hollarda (ya'ni, juda kamdan-kam hollarda) H 0 ni tekshirishning bu usuli "birinchi turdagi xato" ga olib keladi: H 0 gipotezasi noto'g'ri rad etiladi.

Misol. 100 ta urug'ning 10 seriyasini o'rganishda yashil ko'zli pashshalar infestatsiyasi soni hisoblangan. Qabul qilingan ma'lumotlar: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Bu erda kutilgan chastotalar vektori oldindan noma'lum. Agar ma'lumotlar bir hil bo'lsa va binomial taqsimot uchun olingan bo'lsa, unda bitta parametr noma'lum - infektsiyalangan urug'larning p nisbati. E'tibor bering, asl jadvalda, aslida, 10 ta havolani qondiradigan 10 ta emas, balki 20 ta chastota mavjud: 16+84=100, ... 21+79=100.

X 2 \u003d (16-100p) 2 / 100p + (84-100 (1-p)) 2 / (100 (1-p)) + ... +

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Atalarni juft-juft qilib (masalan, tanga bilan) birlashtirib, biz Pearson mezonini yozish shaklini olamiz, bu odatda darhol yoziladi:

X 2 \u003d (16-100p) 2 / (100p (1-p)) + ... + (21-100p) 2 / (100p (1-p)).

Endi, agar biz p ni baholash usuli sifatida minimal Pearson masofasidan foydalansak, u holda X 2 = min bo'lgan p ni topishimiz kerak. (Model, iloji bo'lsa, eksperimental ma'lumotlarni "sozlash" ga harakat qiladi.)

Pearson mezoni statistikada qo'llaniladigan eng universal mezondir. U bir o'lchovli va ko'p o'lchovli ma'lumotlarga, miqdoriy va sifat xususiyatlariga nisbatan qo'llanilishi mumkin. Biroq, aynan universallik tufayli xatoga yo'l qo'ymaslik uchun ehtiyot bo'lish kerak.

Muhim nuqtalar

1. Darajalar tanlash.

  • Agar taqsimlash diskret bo'lsa, unda odatda raqamlarni tanlashda o'zboshimchalik bo'lmaydi.
  • Agar taqsimot uzluksiz bo'lsa, unda o'zboshimchalik muqarrar. Statistik jihatdan ekvivalent bloklardan foydalanishingiz mumkin (barcha O bir xil, masalan =10). Bunday holda, intervallarning uzunligi boshqacha. Qo'lda hisob-kitoblarda ular intervallarni bir xil qilishga harakat qilishdi. Bir o'lchovli xususiyatning taqsimlanishini o'rganishdagi intervallar teng bo'lishi kerakmi? Yo'q.
  • Kutilgan (kuzatilmagan!) chastotalar unchalik kichik bo'lmasligi uchun (≥5) bitlarni birlashtirish kerak. Eslatib o'tamiz, aynan ular (E i ) X 2 ni hisoblashda maxrajlarda bo'ladi! Bir o'lchovli xususiyatlarni tahlil qilishda E 1 =E max =1 ikkita ekstremal bitda ushbu qoidani buzishga ruxsat beriladi. Agar bitlar soni ko'p bo'lsa va kutilgan chastotalar yaqin bo'lsa, X 2 hatto E i =2 uchun ham ch 2 ga yaqin bo'ladi.

Parametrni baholash. "O'z-o'zidan ishlab chiqarilgan", samarasiz baholash usullaridan foydalanish Pearson masofasining haddan tashqari baholanishiga olib kelishi mumkin.

Erkinlik darajalarining to'g'ri sonini tanlash. Agar parametrlarni baholash chastotalar bo'yicha emas, balki to'g'ridan-to'g'ri ma'lumotlardan amalga oshirilsa (masalan, o'rtacha arifmetik o'rtacha qiymatni baholash sifatida olinadi), u holda n erkinlik darajalarining aniq soni noma'lum. Biz faqat tengsizlikni qanoatlantirishini bilamiz:

(raqamlar soni - 1 - taxminiy parametrlar soni)< n < (число разрядов – 1)

Shuning uchun X 2 ni butun n diapazonida hisoblangan kritik qiymatlar ch 2 kritik qiymatlar bilan solishtirish kerak.

Kichkina chi-kvadrat qiymatlarini qanday izohlash mumkin? Agar tanga 10 000 marta otishdan keyin 5 000 ta gerbga ega bo'lsa, uni simmetrik deb hisoblash kerakmi? Ilgari, ko'plab statistiklar H 0 ni ham bu holatda rad etish kerak deb hisoblashgan. Endi boshqa yondashuv taklif etiladi: H 0 ni qabul qilish, lekin ma'lumotlarni va ularni tahlil qilish usulini qo'shimcha tekshirishga topshirish. Ikkita imkoniyat mavjud: yoki juda kichik Pearson masofasi model parametrlari sonining ko'payishi erkinlik darajalari sonining to'g'ri kamayishi bilan birga bo'lmaganligini yoki ma'lumotlarning o'zi soxtalashtirilganligini anglatadi (ehtimol kutilmagan natijaga moslashtirilgan bo'lishi mumkin). ).

Misol. Ikki tadqiqotchi A va B AA * aa monogibrid xochda ikkinchi avloddagi resessiv gomozigota aa ulushini hisoblab chiqdi. Mendel qonunlariga ko'ra, bu nisbat 0,25 ga teng. Har bir tadqiqotchi 5 ta tajriba o‘tkazdi va har bir tajribada 100 ta organizm o‘rganildi.

Natijalar A: 25, 24, 26, 25, 24. Tadqiqotchining xulosasi: Mendel qonuni haqiqiy (?).

B natijalar: 29, 21, 23, 30, 19. Tadqiqotchining xulosasi: Mendel qonuni haqiqiy emas (?).

Biroq, Mendel qonuni statistik xarakterga ega va natijalarning miqdoriy tahlili xulosalarni o'zgartiradi! Beshta tajribani bittaga birlashtirib, biz 5 erkinlik darajasi bilan chi-kvadrat taqsimotiga erishamiz (oddiy gipoteza tekshirilmoqda):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75)=0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75)=5,17

O'rtacha qiymat m [ch 2 n =5 ]=5, standart og'ish s[ch 2 n =5 ]=(2∙5) 1/2 =3,2.

Shuning uchun, jadvallarga murojaat qilmasdan, X 2 B qiymatining odatiy ekanligi va X 2 A qiymatining aql bovar qilmaydigan darajada kichikligi aniq. P jadvallariga muvofiq (ch 2 n =5<0.16)<0.0001.

Ushbu misol 1930-yillarda sodir bo'lgan haqiqiy ishning moslashtirilgan versiyasidir (qarang: Kolmogorovning "Mendel qonunlarining yana bir isboti to'g'risida" asari). Qizig'i shundaki, tadqiqotchi A genetika tarafdori edi, tadqiqotchi B esa bunga qarshi edi.

Belgilarning chalkashligi. Hisoblashda qo'shimcha kelishuvlarni talab qiladigan Pearson masofasini tasodifiy o'zgaruvchan chi-kvadratning matematik kontseptsiyasidan farqlash kerak. Muayyan sharoitlarda Pearson masofasi n erkinlik darajasiga ega bo'lgan chi-kvadratga yaqin taqsimotga ega. Shuning uchun, Pirson masofasini ch 2 n bilan EMAS, balki X 2 uchun shunga o'xshash, lekin boshqacha belgidan foydalanish maqsadga muvofiqdir.

Pearson mezoni hamma narsaga qodir emas. H 0 uchun cheksiz ko'p muqobillar mavjud, u buni hisobga olmaydi. Xususiyat bir xil taqsimlanganligi haqidagi gipotezani sinab ko'ring, sizda 10 bit bor va kuzatilgan chastotalar vektori (130,125,121,118,116,115,114,113,111,110). Pearson mezoni chastotalar monoton ravishda kamayib borayotganini "sezda" olmaydi va H 0 rad etilmaydi. Agar u ketma-ketlik mezoni bilan to'ldirilgan bo'lsa, ha!

Biologik hodisalarni miqdoriy o'rganish, albatta, bu hodisalarni tushuntirish uchun ishlatilishi mumkin bo'lgan gipotezalarni yaratishni talab qiladi. U yoki bu gipotezani tekshirish uchun bir qator maxsus tajribalar o'tkaziladi va olingan haqiqiy ma'lumotlar ushbu gipoteza bo'yicha nazariy jihatdan kutilganlar bilan taqqoslanadi. Agar mos keladigan bo'lsa, bu gipotezani qabul qilish uchun etarli sabab bo'lishi mumkin. Agar eksperimental ma'lumotlar nazariy jihatdan kutilgan ma'lumotlarga mos kelmasa, taklif qilingan gipotezaning to'g'riligiga shubha tug'iladi.

Haqiqiy ma'lumotlarning kutilgan (gipotetik) bilan muvofiqligi darajasi chi-kvadrat mosligi testi bilan o'lchanadi:

 xususiyatining amalda kuzatilgan qiymati men- o'yinchoq; - ma'lum bir guruh uchun nazariy jihatdan kutilgan raqam yoki belgi (ko'rsatkich); k-ma'lumotlar guruhlari soni.

Mezon 1900-yilda K.Pirson tomonidan taklif qilingan va ba'zan Pirson mezoni deb ataladi.

Vazifa. Bir ota-onadan omilni, ikkinchisidan omilni meros qilib olgan 164 bolalar orasida omilli 46, omilli 50, ikkalasi bilan 68 bola bor edi. Guruhlar o'rtasida 1:2:1 nisbatda kutilgan chastotalarni hisoblang va Pearson testi yordamida empirik ma'lumotlar o'rtasidagi kelishuv darajasini aniqlang.

Yechim: Kuzatilgan chastotalar nisbati 46:68:50, nazariy jihatdan kutilgan 41:82:41.

Keling, muhimlik darajasini 0,05 ga o'rnatamiz. Ushbu ahamiyat darajasi uchun Pearson testining jadval qiymati unga teng bo'lgan erkinlik darajalari bilan 5,99 ga teng bo'ldi. Shuning uchun eksperimental ma'lumotlarning nazariy ma'lumotlarga muvofiqligi haqidagi gipotezani qabul qilish mumkin, chunki, .

E'tibor bering, chi-kvadrat testini hisoblashda biz endi taqsimlanishning ajralmas normalligi uchun shart qo'ymaymiz. Chi-kvadrat testi bizning taxminlarimizda tanlashimiz mumkin bo'lgan har qanday taqsimot uchun ishlatilishi mumkin. Ushbu mezonda qandaydir universallik mavjud.

Pirson mezonining yana bir qo'llanilishi empirik taqsimotni Gauss normal taqsimoti bilan solishtirishdir. Shu bilan birga, uni taqsimotning normalligini tekshirish mezonlari guruhiga kiritish mumkin. Yagona cheklov shundaki, ushbu mezondan foydalanganda qiymatlarning umumiy soni (variant) etarlicha katta bo'lishi kerak (kamida 40) va alohida sinflardagi qiymatlar soni (intervallar) kamida 5 ta bo'lishi kerak. Aks holda, qo'shni intervallarni birlashtirish kerak. Tarqatishning normalligini tekshirishda erkinlik darajalari soni quyidagicha hisoblanishi kerak:.

    1. Fisher mezoni.

Ushbu parametrik test normal taqsimlangan populyatsiyalar dispersiyalarining tengligi haqidagi nol gipotezani tekshirishga xizmat qiladi.

Yoki.

Kichkina tanlama o'lchamlari uchun, agar dispersiya teng bo'lsa, Student t-testining qo'llanilishi to'g'ri bo'lishi mumkin. Shuning uchun, tanlama vositalarining tengligini tekshirishdan oldin, Student t-testining haqiqiyligiga ishonch hosil qilish kerak.

Qayerda N 1 , N 2 namuna o'lchamlari, 1 , 2 - bu namunalar uchun erkinlik darajalari soni.

Jadvallardan foydalanganda shuni ta'kidlash kerakki, katta dispersiyaga ega bo'lgan namuna uchun erkinlik darajalari jadvalning ustun raqami sifatida, kichikroq dispersiya uchun esa jadvalning qator raqami sifatida tanlanadi.

Muhimlik darajasi uchun matematik statistika jadvallari bo'yicha biz jadval qiymatini topamiz. Agar, u holda tanlangan ahamiyat darajasi uchun dispersiyalarning tengligi haqidagi gipoteza rad etiladi.

Misol. Kobaltning quyonlarning tana vazniga ta'siri o'rganildi. Tajriba hayvonlarning ikkita guruhida o'tkazildi: eksperimental va nazorat. Tajribali kobalt xloridning suvli eritmasi shaklida dietaga qo'shimchani oldi. Tajriba davomida kilogramm ortishi grammda edi:

Boshqaruv

\(\chi^2\) testi ("chi-kvadrat", shuningdek, "Pirsonning moslik testi") statistikada juda keng qo'llaniladi. Umuman olganda, biz shuni aytishimiz mumkinki, u kuzatilgan tasodifiy o'zgaruvchining ma'lum bir nazariy taqsimot qonuniga bo'ysunishi haqidagi nol gipotezani tekshirish uchun ishlatiladi (batafsilroq, masalan, qarang). Tekshirilayotgan gipotezaning o'ziga xos formulasi har bir holatda farq qiladi.

Ushbu postda men immunologiyadan (gipotetik) misol yordamida \(\chi^2\) testi qanday ishlashini tasvirlab beraman. Tasavvur qiling-a, biz tanaga tegishli antikorlar kiritilganda mikrobial kasallikning rivojlanishini bostirish samaradorligini aniqlash uchun tajriba o'tkazdik. Tajribada jami 111 ta sichqon ishtirok etdi, biz ularni ikkita guruhga, jumladan, mos ravishda 57 va 54 ta hayvonlarga ajratdik. Sichqonlarning birinchi guruhiga patogen bakteriyalar kiritildi, keyin bu bakteriyalarga qarshi antikorlarni o'z ichiga olgan qon zardobi kiritildi. Ikkinchi guruh hayvonlari nazorat sifatida xizmat qildi - ular faqat bakterial in'ektsiyalarni oldilar. Bir muncha vaqt inkubatsiyadan so'ng, 38 ta sichqon vafot etgani va 73 tasi tirik qolgani ma'lum bo'ldi. Halok bo‘lganlarning 13 nafari birinchi guruhga, 25 nafari ikkinchi (nazorat) guruhiga tegishli. Ushbu tajribada tekshirilgan nol gipotezani quyidagicha shakllantirish mumkin: zardobni antikorlar bilan yuborish sichqonlarning omon qolishiga ta'sir qilmaydi. Boshqacha qilib aytganda, biz sichqonlarning omon qolishida kuzatilgan farqlar (birinchi guruhda 77,2% va ikkinchi guruhda 53,7%) mutlaqo tasodifiy va antikorlarning ta'siri bilan bog'liq emasligini ta'kidlaymiz.

Tajribada olingan ma'lumotlarni jadval shaklida taqdim etish mumkin:

Jami

Bakteriyalar + sarum

Faqat bakteriyalar

Jami

Shunga o'xshash jadvallar favqulodda jadvallar deb ataladi. Ushbu misolda jadval 2x2 o'lchamga ega: ob'ektlarning ikkita klassi ("Bakteriyalar + sarum" va "Faqat bakteriyalar") mavjud bo'lib, ular ikkita mezon bo'yicha ("O'lik" va "Omon qolgan") tekshiriladi. Bu tasodifiy jadvalning eng oddiy holati: albatta, o'rganilayotgan sinflar soni ham, xususiyatlar soni ham ko'proq bo'lishi mumkin.

Yuqorida keltirilgan nol gipotezani sinab ko'rish uchun, agar antikorlar sichqonlarning omon qolishiga haqiqatan ham ta'sir qilmasa, vaziyat qanday bo'lishini bilishimiz kerak. Boshqacha qilib aytganda, siz hisoblashingiz kerak kutilgan chastotalar favqulodda vaziyatlar jadvalining tegishli kataklari uchun. Buni qanday qilish kerak? Tajribada jami 38 ta sichqon halok bo‘ldi, bu jami hayvonlarning 34,2 foizini tashkil qiladi. Agar antikorlarning kiritilishi sichqonlarning omon qolishiga ta'sir qilmasa, har ikkala eksperimental guruhda ham bir xil o'lim foizi kuzatilishi kerak, ya'ni 34,2%. 57 va 54 ning 34,2% qancha ekanligini hisoblab, biz 19,5 va 18,5 ni olamiz. Bu bizning eksperimental guruhlarimizda kutilayotgan o'lim ko'rsatkichlari. Kutilayotgan omon qolish darajasi xuddi shunday tarzda hisoblanadi: 73 ta sichqon jami yoki ularning umumiy sonining 65,8% omon qolganligi sababli, kutilayotgan omon qolish darajasi 37,5 va 35,5 ni tashkil qiladi. Keling, kutilayotgan chastotalar bilan yangi favqulodda vaziyatlar jadvalini tuzamiz:

o'lik

Omon qolganlar

Jami

Bakteriyalar + sarum

Faqat bakteriyalar

Jami

Ko'rib turganingizdek, kutilgan chastotalar kuzatilganlardan ancha farq qiladi, ya'ni. antikorlarni qo'llash patogen bilan kasallangan sichqonlarning omon qolishiga ta'sir qiladi. Biz bu taassurotni Pearsonning muvofiqlik testi \(\chi^2\) yordamida aniqlashimiz mumkin:

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


Bu erda \(f_o\) va \(f_e\) mos ravishda kuzatilgan va kutilayotgan chastotalardir. Yig'ish jadvalning barcha kataklari bo'ylab amalga oshiriladi. Shunday qilib, ko'rib chiqilayotgan misol uchun bizda bor

\[\chi^2 = (13-19,5)^2/19,5 + (44-37,5)^2/37,5 + (25-18,5)^2/18,5 + (29-35,5)^2/35,5 = \]

\(\chi^2\) nol gipotezani rad etish uchun etarlicha kattami? Bu savolga javob berish uchun mezonning tegishli kritik qiymatini topish kerak. \(\chi^2\) uchun erkinlik darajalari soni \(df = (R - 1)(C - 1)\ sifatida hisoblanadi), bu erda \(R\) va \(C\) sondir. jadval konjugasiyasidagi satrlar va ustunlar. Bizning holatda \(df = (2 -1)(2 - 1) = 1\). Erkinlik darajalari sonini bilgan holda, biz qchisq() standart R-funktsiyasidan foydalanib, kritik qiymatni \(\chi^2\) osonlikcha bilib olamiz:


Shunday qilib, bir darajadagi erkinlik uchun \(\chi^2\) mezonining qiymati faqat 5% hollarda 3,841 dan oshadi. Biz olgan 6,79 qiymati ushbu muhim qiymatdan sezilarli darajada oshadi, bu bizga antikorlarni yuborish va yuqtirgan sichqonlarning omon qolishi o'rtasida hech qanday bog'liqlik yo'qligi haqidagi nol gipotezani rad etish huquqini beradi. Ushbu gipotezani rad etib, biz 5% dan kam ehtimollik bilan xato qilish xavfi bor.

Shuni ta'kidlash kerakki, \(\chi^2\) mezonining yuqoridagi formulasi 2x2 o'lchamdagi favqulodda vaziyatlar jadvallari bilan ishlashda biroz yuqori baholangan qiymatlarni beradi. Buning sababi shundaki, \(\chi^2\) mezonining taqsimlanishi uzluksiz, ikkilik xususiyatlarning chastotalari ("o'lgan" / "omon qolgan") ta'rifi bo'yicha diskretdir. Shu munosabat bilan, mezonni hisoblashda, deb ataladigan narsani kiritish odatiy holdir. uzluksizlikni tuzatish, yoki Yates tuzatish :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Pearson Yates bilan "Xi-kvadrat testi" uzluksizlikni tuzatish ma'lumotlari: sichqonlar X-kvadrat = 5,7923, df = 1, p-qiymati = 0,0161


Ko'rib turganingizdek, R avtomatik ravishda doimiylik uchun Yates tuzatishini qo'llaydi ( Yatesning uzluksizligini tuzatish bilan Pearsonning Chi-kvadrat testi). Dastur tomonidan hisoblangan \(\chi^2\) qiymati 5,79213 edi. Antikor ta'sirining yo'qligi haqidagi nol gipotezani 1% dan sal ko'proq ehtimollik bilan noto'g'ri bo'lish xavfi ostida rad etishimiz mumkin (p-qiymati = 0,0161).