Type I & Type II error

จากการทดสอบว่ากลุ่มเพศชายหรือเพศหญิงกินโดนัทต่างกันไหมในหนึ่งสัปดาห์

power

output ของ R แสดงถึงความแตกต่างระหว่างกลุ่มเพศหญิง (M = 7.75) และเพศชาย (M = 5.70) ในจำนวนชิ้นของโดนัทที่กินในแต่ละสัปดาห์อย่างมีนัยสำคัญทางสถิติ (t(1,108) = 10.703, p < 0.001) จึงปฎิเสธสมมติฐานว่างที่ว่าค่าเฉลี่ยของทั้งสองกลุ่มเท่ากัน

เราได้คำตอบมาว่า “แตกต่างกันอย่างมีนัยสำคัญทางสถิติ แล้วอะไรเป็นจุดที่ทำให้นักสถิติสามารถเอ่ยถึง ”นัยสำคัญทางสถิติ”

เปรียบเปรยการทดสอบและปฎิเสธสมมติฐานว่างด้วยตรวจผล Covid-19 ด้วย ATK[1]

ผล ATK และผลโควิด	การทดสอบทางสถิติ	กรณีโดนัท
ATK ขึ้น 1 ขีด ไม่มีประวัติติดโควิด ไม่ได้ใกล้ชิดคนติดโควิด	Null Hypothesis	ไม่มีความแตกต่างกันของเพศในจำนวนการกินโดนัท
ATK ขึ้น 2 ขีด ติดโควิดชัวร์ แมวที่บ้านก็ติด	Alternative hypothesis	มีความแตกต่างกันของเพศในจำนวนการกินโดนัท
ATK ขึ้น 2 ขีด แต่ไม่ได้ติดโควิดจริง	Type I error (false positive)	มีความแตกต่าง แต่ดันไปสรุปว่าไม่มีความแตกต่างของเพศ
ATK ขึ้น 1 ขีด แต่ติดโควิด	Type II error (false negative)	ไม่มีความแตกต่าง แต่ไปสรุปว่ามีความแตกต่างของเพศ

จากตารางด้านบน จะพบว่า การเกิด Type I และ Type II error เกิดขึ้นเมื่อการตัดสิน (decision making) ที่ผู้วิจัยตัดสิน ไม่ว่าจะเป็นจากผลการวิจัยเอง การออกแบบการวิจัย หรือไปจนถึงการจงใจในการทำให้มีนัยสำคัญ (p-hacking) ดังนั้น แมวที่กำลังจะทำการวิจัยจงระวังไว้นะ

ทำไมจึงเกิด Type I or Type II error

กรณีที่การวิเคราะห์ทางสถิติทำให้เราตัดสินใจผิด อาจะเกิดได้จากหลายกรณี เช่น

Effect size หรือผลจากการจัดกระทำ

ถ้าเราทำงานวิจัยที่มีความแตกต่างระหว่างกลุ่มควบคุมกับกลุ่มทดลองสูง เช่น สอนเลขให้กลุ่มทดลองทุกวันเลย แต่ไม่สอนให้กลุ่มควบคุม ก็มีความเป็นไปได้ที่จะทำให้ค่าเฉลี่ยของกลุ่มมีความแตกต่างกันจนเกินไป ทำให้การวิเคราะห์พบนัยสำคัญทางสถิติได้ง่าย
Power กำลังหรือ Power ในที่นี้ขึ้นอยู่กับปัจจัยหลายประการ
1. α (alpha) คือโอกาสที่นักวิจัยยอมให้เกิดในการพบนับสำคัญทางสถิติ โดยปกติแล้วจะตั้งค่าไว้ที่ .05 หมายความว่า ในการวิเคราะห์จากข้อมูลนี้ 100 ครั้ง เรายอมให้เกิดความแตกต่างที่มาจากใด ๆ ก็ตาม 5 ครั้ง
2. β (beta) โอกาสที่จะเกิด type II error ขึ้น
3. Power หรือกำลังจะมาจากการที่ 1 - β
4. N: จำนวนกลุ่มตัวอย่างที่มากหรือน้อยเกินไป (BRB)

โดยปกติแล้วนักวิจัย (โดยเฉพาะสายสังคมวิทยาศาสตร์) จะยอมรับ power อยู่ที่ > 0.8 และ α อยู่ที่ .05 โปรแกรมคำนวณ Power เช่น G*power สามารถคำนวณกลุ่มตัวอย่างโดยใช้ priori effect size จากงานวิจัยที่ศึกษาตัวแปรก่อนหน้าได้

power

ตัวอย่างให้เห็นภาพความสัมพันธ์ของสิ่งต่าง ๆ ที่แมวน่าจะยังงงอยู่

[1] ดัดแปลงจาก Banerjee, A., Chitnis, U. B., Jadhav, S. L., Bhawalkar, J. S., & Chaudhury, S. (2009). Hypothesis testing, type I and type II errors. Industrial psychiatry journal, 18(2), 127–131. https://doi.org/10.4103/0972-6748.62274