Ujian Hipotesis

Tutorial ringkas dan ringkas mengenai pengujian hipotesis menggunakan Python

Imej dari: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

Di blog ini, saya akan memberikan tutorial ringkas Pengujian Hipotesis menggunakan kaedah Statistik di Python. Ujian Hipotesis adalah sebahagian daripada Kaedah Saintifik yang kita semua kenal, sesuatu yang mungkin kita pelajari pada tahun-tahun awal pendidikan kita. Walau bagaimanapun, dalam statistik, banyak eksperimen dilakukan pada sampel populasi.

"Menentukan apa yang diperlihatkan oleh sekumpulan sampel pengamatan tentang penjelasan yang diusulkan, secara umum, mengharuskan kita membuat kesimpulan, atau seperti yang disebut oleh ahli statistik, untuk Beralasan Dengan Ketidakpastian. Penalaran dengan ketidakpastian adalah inti dari inferens statistik dan biasanya dilakukan dengan menggunakan kaedah yang disebut Null Hypothesis Significance Testing. " - Ketuhar.

Sebagai contoh untuk blog ini, saya akan menggunakan kumpulan Data Bola Sepak Eropah yang terdapat di Kaggle, dan akan melakukan pengujian hipotesis. Set data boleh didapati di sini.

Langkah 1

Buat pemerhatian

Langkah pertama adalah memerhatikan fenomena. Dalam kes ini, akan menjadi: Adakah kesan pencerobohan pertahanan pada gol yang dibenarkan rata-rata?

Langkah 2

Kaji penyelidikan

Fikiran yang baik untuk dilalui adalah bekerja lebih bijak dan tidak lebih sukar. Satu perkara yang baik ialah melihat apakah penyelidikan yang berkaitan dengan pemerhatian anda sudah ada. Sekiranya demikian, ini dapat membantu menjawab soalan kami. Menyedari penyelidikan atau eksperimen yang sudah ada akan membantu kita menyusun eksperimen kita dengan lebih baik, atau bahkan mungkin dapat menjawab soalan kita dan tidak perlu melakukan eksperimen terlebih dahulu.

Langkah 3

Bentuk Hipotesis Nol dan Hipotesis Alternatif

Hipotesis alternatif adalah tekaan berpendidikan kita dan hipotesis nol sebaliknya. Sekiranya hipotesis alternatif menyatakan terdapat hubungan yang signifikan antara dua pemboleh ubah, maka hipotesis nol menyatakan tidak ada hubungan yang signifikan.

Hipotesis Nol kami adalah: Tidak ada perbezaan statistik dalam gol yang dibenarkan dengan pasukan dengan penarafan pencerobohan pertahanan lebih besar daripada atau sama dengan 65 berbanding pasukan di bawah 65.

Hipotesis Alternatif: Terdapat perbezaan statistik dalam gol yang dibenarkan dengan pasukan dengan penarafan pencerobohan pertahanan lebih besar daripada atau sama dengan 65 berbanding pasukan di bawah 65.

Langkah 4

Tentukan sama ada hipotesis kami adalah ujian satu sisi atau ujian dua sisi.

Ujian Satu Ekor

"Sekiranya anda menggunakan tahap kepentingan 0,05, ujian satu-satu membolehkan semua alpha anda menguji kepentingan statistik dalam satu arah minat." Contoh ujian satu ekor adalah "Pasukan bola sepak dengan penarafan pencerobohan lebih rendah dari 65 membolehkan lebih banyak gol secara statistik berbanding pasukan dengan penilaian lebih rendah daripada 65."

Ujian Dua Ekor

"Jika anda menggunakan tahap kepentingan 0,05, ujian dua-sisi membolehkan separuh daripada alpha anda menguji kepentingan statistik dalam satu arah dan separuh daripada alpha anda untuk menguji kepentingan statistik ke arah yang lain. Ini bermaksud bahawa 0,025 ada di setiap ekor taburan statistik ujian anda. "

Dengan ujian dua arah, anda menguji kepentingan statistik dalam kedua-dua arah. Dalam kes kami, kami menguji kepentingan statistik dalam kedua arah.

Langkah 5

Tetapkan tahap kepentingan ambang (alpha)

(nilai alpha): Ambang marginal di mana kita baik-baik saja dengan menolak hipotesis nol. Nilai alpha boleh menjadi nilai apa pun yang kami tetapkan antara 0 dan 1. Walau bagaimanapun, nilai alpha yang paling biasa dalam sains ialah 0.05. Set alpha ke 0,05 bermaksud kita tidak dapat menolak hipotesis nol walaupun terdapat kemungkinan 5% atau kurang hasilnya disebabkan oleh ketidakseragaman.

Nilai P: Kebarangkalian yang dikira tiba di data ini secara rawak.

Sekiranya kita mengira nilai p dan mencapai 0,03, kita dapat menafsirkan ini dengan mengatakan "Ada kemungkinan 3% hasil yang saya lihat sebenarnya disebabkan oleh kebetulan atau keberuntungan".

Imej dari Learn.co

Matlamat kami adalah untuk mengira nilai p dan membandingkannya dengan alpha kami. Semakin rendah alpha, semakin ketat ujiannya.

Langkah 6

Lakukan Persampelan

Di sini kami mempunyai dataset kami yang disebut bola sepak. Untuk ujian kami, kami hanya memerlukan dua lajur dalam kumpulan data kami: team_def_aggr_rating dan goal_allowed. Kami akan menyaringnya ke dua lajur ini kemudian membuat dua subset untuk pasukan dengan penarafan pencerobohan bertahan lebih besar dari atau sama dengan 65 dan pasukan dengan penarafan pencerobohan pertahanan di bawah 65.

Hanya untuk menguji ujian hipotesis kami:

Kesan pencerobohan pertahanan pada gol yang dibenarkan. Hipotesis Nol: Tidak ada perbezaan statistik dalam gol yang dibenarkan dengan pasukan dengan penarafan pencerobohan pertahanan lebih besar daripada atau sama dengan 65 berbanding pasukan di bawah 65. Hipotesis Alternatif: Terdapat perbezaan statistik dalam gol yang dibenarkan dengan pasukan dengan penilaian agresif pertahanan lebih besar daripada atau sama dengan 65 lawan pasukan di bawah 65. Ujian Alfa Dua Hala: 0.05

Sekarang kita mempunyai dua senarai sampel yang boleh kita jalankan ujian statistik. Sebelum langkah itu, saya akan merancang dua pengedaran untuk mendapatkan visual.

Langkah 7

Lakukan Ujian-T Dua Sampel

Ujian-t dua sampel digunakan untuk menentukan sama ada dua kaedah populasi sama. Untuk ini, kami akan menggunakan modul Python yang disebut statsmodels. Saya tidak akan terlalu banyak memperincikan model statistik tetapi anda dapat melihat dokumentasinya di sini.

Langkah 8

Menilai dan Membuat Kesimpulan

Ingat bahawa alpha yang kita tetapkan adalah = 0,05. Seperti yang dapat kita lihat dari hasil ujian kita bahawa nilai p lebih rendah daripada alpha kita. Kita boleh menolak hipotesis nol kita dan dengan keyakinan 95% menerima hipotesis alternatif kita.

Terima kasih kerana membaca! Untuk pengujian hipotesis yang lebih mendalam, anda boleh melihat projek kumpulan ini di GitHub I yang terlibat dalam ujian hipotesis di sini.

Sumber:

Ketuhar, Matthew. "Statistik dan" Kaedah Saintifik "Diperoleh dari YourStatsGuru. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Pengenalan kepada SAS. UCLA: Kumpulan Perunding Statistik. dari https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (diakses Mei 16, 2019).

Buku Panduan Statistik Kejuruteraan. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm