Does cat actually sleep?
จากการทดสอบว่ากลุ่มเพศชายหรือเพศหญิงกินโดนัทต่างกันไหมในหนึ่งสัปดาห์

output ของ R แสดงถึงความแตกต่างระหว่างกลุ่มเพศหญิง (M = 7.75) และเพศชาย (M = 5.70) ในจำนวนชิ้นของโดนัทที่กินในแต่ละสัปดาห์อย่างมีนัยสำคัญทางสถิติ (t(1,108) = 10.703, p < 0.001) จึงปฎิเสธสมมติฐานว่างที่ว่าค่าเฉลี่ยของทั้งสองกลุ่มเท่ากัน
เราได้คำตอบมาว่า “แตกต่างกันอย่างมีนัยสำคัญทางสถิติ แล้วอะไรเป็นจุดที่ทำให้นักสถิติสามารถเอ่ยถึง ”นัยสำคัญทางสถิติ”
เปรียบเปรยการทดสอบและปฎิเสธสมมติฐานว่างด้วยตรวจผล Covid-19 ด้วย ATK[1]
| ผล ATK และผลโควิด | การทดสอบทางสถิติ | กรณีโดนัท |
|---|---|---|
| ATK ขึ้น 1 ขีด ไม่มีประวัติติดโควิด ไม่ได้ใกล้ชิดคนติดโควิด | Null Hypothesis | ไม่มีความแตกต่างกันของเพศในจำนวนการกินโดนัท |
| ATK ขึ้น 2 ขีด ติดโควิดชัวร์ แมวที่บ้านก็ติด | Alternative hypothesis | มีความแตกต่างกันของเพศในจำนวนการกินโดนัท |
| ATK ขึ้น 2 ขีด แต่ไม่ได้ติดโควิดจริง | Type I error (false positive) |
มีความแตกต่าง แต่ดันไปสรุปว่าไม่มีความแตกต่างของเพศ |
| ATK ขึ้น 1 ขีด แต่ติดโควิด | Type II error (false negative) |
ไม่มีความแตกต่าง แต่ไปสรุปว่ามีความแตกต่างของเพศ |
จากตารางด้านบน จะพบว่า การเกิด Type I และ Type II error เกิดขึ้นเมื่อการตัดสิน (decision making) ที่ผู้วิจัยตัดสิน ไม่ว่าจะเป็นจากผลการวิจัยเอง การออกแบบการวิจัย หรือไปจนถึงการจงใจในการทำให้มีนัยสำคัญ (p-hacking) ดังนั้น แมวที่กำลังจะทำการวิจัยจงระวังไว้นะ
กรณีที่การวิเคราะห์ทางสถิติทำให้เราตัดสินใจผิด อาจะเกิดได้จากหลายกรณี เช่น
Effect size หรือผลจากการจัดกระทำ
ถ้าเราทำงานวิจัยที่มีความแตกต่างระหว่างกลุ่มควบคุมกับกลุ่มทดลองสูง เช่น สอนเลขให้กลุ่มทดลองทุกวันเลย แต่ไม่สอนให้กลุ่มควบคุม ก็มีความเป็นไปได้ที่จะทำให้ค่าเฉลี่ยของกลุ่มมีความแตกต่างกันจนเกินไป ทำให้การวิเคราะห์พบนัยสำคัญทางสถิติได้ง่าย
Power กำลังหรือ Power ในที่นี้ขึ้นอยู่กับปัจจัยหลายประการ
α (alpha) คือโอกาสที่นักวิจัยยอมให้เกิดในการพบนับสำคัญทางสถิติ
โดยปกติแล้วจะตั้งค่าไว้ที่ .05 หมายความว่า
ในการวิเคราะห์จากข้อมูลนี้ 100 ครั้ง
เรายอมให้เกิดความแตกต่างที่มาจากใด ๆ ก็ตาม 5 ครั้ง
β (beta) โอกาสที่จะเกิด type II error ขึ้น
Power หรือกำลังจะมาจากการที่ 1 - β
N: จำนวนกลุ่มตัวอย่างที่มากหรือน้อยเกินไป (BRB)
โดยปกติแล้วนักวิจัย (โดยเฉพาะสายสังคมวิทยาศาสตร์) จะยอมรับ power อยู่ที่ > 0.8 และ α อยู่ที่ .05 โปรแกรมคำนวณ Power เช่น G*power สามารถคำนวณกลุ่มตัวอย่างโดยใช้ priori effect size จากงานวิจัยที่ศึกษาตัวแปรก่อนหน้าได้

ตัวอย่างให้เห็นภาพความสัมพันธ์ของสิ่งต่าง ๆ ที่แมวน่าจะยังงงอยู่
[1] ดัดแปลงจาก Banerjee, A., Chitnis, U. B., Jadhav, S. L., Bhawalkar, J. S., & Chaudhury, S. (2009). Hypothesis testing, type I and type II errors. Industrial psychiatry journal, 18(2), 127–131. https://doi.org/10.4103/0972-6748.62274