ㄍ๏ สารบัญ ๏ㄟ
๛ การแจกแจงความน่าจะเป็นของผลลัพธ์แบบต่างๆ
๛ ค่าคาดหมายและความแปรปรวนของการแจกแจงอเนกนาม
๛ ความสัมพันธ์ระหว่างการแจกแจงอเนกนามกับการแจกแจงทวินามและแบร์นุลลี
๛ การแจกแจงแบบหมวดหมู่
๛ ตัวอย่างกรณีสามหมวดหมู่
๛ ตัวอย่างกรณีมากกว่าสามหมวดหมู่
๛ ความสัมพันธ์กับการแจกแจงชนิดต่างๆ
ต่อจาก
บทที่ ๒๐
ในบทนี้จะเป็นเรื่องของการแจกแจงอเนกนามและการแจกแจงแบบหมวดหมู่
การแจกแจงความน่าจะเป็นของผลลัพธ์แบบต่างๆ介
ใน
บทที่ ๕ ได้เขียนถึงการแจกแจงทวินามไปแล้ว
การแจกแจงแบบทวินามนั้นเป็นการแจกแจงของผลลัพธ์ที่มีแค่ 2 แบบ ซึ่งมักจะหมายถึงสำเร็จกับล้มเหลว
แต่ว่าบ่อยครั้งที่ผลลัพธ์ไม่ได้มีอยู่แค่ 2 แบบ แต่มีหลายแบบกว่านั้น ในกรณีแบบนี้การแจกแจงจะซับซ้อนกว่าเดิมไปอีกขั้น กลายเป็นการแจกแจงที่เรียกว่า
การแจกแจงอเนกนาม (多项分布, multinomial distribution)
"ทวิ" แปลว่า "สอง" ส่วน "อเนก" แปลว่า "หลายๆ" ฉะนั้นการแจกแจงแบบอเนกนามก็เป็นการขยายผลจากการแจกแจงทวินามซึ่งมีอยู่แค่ 2 มาเป็นหลายๆ
อาจเทียบได้กับความสัมพันธ์ระหว่างการแจกแจงแบบปกติตัวแปรเดียวกับการแจกแจงแบบปกติหลายตัวแปร
ในที่นี้จะขอเรียกรูปแบบของผลลัพธ์ต่างๆว่า
"หมวดหมู่" (类别, category)
ถ้ามีหมวดหมู่ทั้งหมด m หมวดหมู่ ให้
→k เป็นจำนวนผลลัพธ์ที่ได้ในแต่ละหมวดหมู่
→k=[k1k2⋮km]
ความน่าจะเป็นร่วมที่จำนวนครั้งที่ออกจะได้เป็น
k1,k2,...,km จะเป็นการแจกแจงแบบอเนกนาม คือ
P(→k)=P(k1,k2,...,km)=n!m∏i=1pkiiki!=n!pk11pk22⋯pkmmk1!k2!⋯km!
พารามิเตอร์มี 2 ตัว คือ
- →p=[p1p2⋮pm]: ความน่าจะเป็นของแต่ละหมวดหมู่
- n: จำนวนครั้งที่ทำการทดลองทั้งหมด
จำนวนรวมทั้งหมดต้องเท่ากับ n พอดี
m∑i=1ki=n
และความน่าจะเป็นทั้งหมดต้องรวมกันได้เท่ากับ 1 พอดี
m∑i=1pi=1
และเมื่อเป็นค่าความน่าจะเป็นก็แน่นอนว่าต้องอยู่ระหว่าง 0 ถึง 1
0≤pi≤1
ยกตัวอย่างเช่นทอยลูกเต๋าซึ่งมี 6 หน้าทั้งหมด 100 ครั้ง แล้วนับจำนวนที่ออกแต่ละหน้า ผลลัพธ์ก็จะมี 6 หมวดหมู่ นั่นคือ m=6 ในที่นี้ความน่าจะเป็นแต่ละตัวคือ p
1,p
2,...p
6=1/6 จำนวนครั้งที่ทดลองคือ n=100 จำนวนที่ออกในแต่ละหน้าอาจเขียนแทนด้วย k
1,k
2,...,k
6 เป็นต้น
ลองเขียนเป็นโค้ดสุ่มดูจริงๆในไพธอน
ผลที่ได้
โดยเฉลี่ยแล้วแต่ละหน้าน่าจะได้สัก 16-17 ครั้ง แต่การทดลองงวดนี้ 2 ดูจะออกมาเยอะเป็นพิเศษ ซึ่งก็เป็นเรื่องที่มีโอกาสเกิดขึ้นได้
ค่าคาดหมายและความแปรปรวนของการแจกแจงอเนกนาม介
ค่าคาดหมายของแต่ละหมวดหมู่คำนวณได้เป็น
E(ki)=npi
ความแปรปรวนของแต่ละหมวดหมู่เป็น
σ2ki)=npi(1−pi)
ความแปรปรวนร่วมเกี่ยวระหว่างต่างหมวดหมู่เป็น
σ2ki,kj=−npipj
เมื่อ i≠j
และจะได้เมทริกซ์ความแปรปรวนร่วมเกี่ยวเป็น
Σ=n[p1(1−p1)−p1p2⋯−p1pm−p2p1p2(1−p2)⋯−p2pm⋮⋮⋱⋮−pmp1−pmp2⋯pm(1−pm)]
ความสัมพันธ์ระหว่างการแจกแจงอเนกนามกับการแจกแจงทวินามและแบร์นุลลี介
ถ้าหาก m=2 ซึ่งก็หมายถึงว่ามีแค่ 2 หมวดหมู่แล้ว การแจกแจงความน่าจะเป็นก็จะได้เป็น
P(→k)=n!pk11k1!pk22k2!
ความน่าจะเป็นรวมต้องเป็น 1 และผลรวมของ k ต้องเป็น n ดังนั้น
p1+p2=1p2=1−p1k1+k2=nk2=n−k1
จึงเขียนใหม่ได้เป็น
P(k1)=n!pk11(1−p1)n−k1k1!(n−k1)!=C(n,k1)pk11(1−p1)n−k1
ซึ่งก็จะกลายเป็นการแจกแจงทวินาม (แค่เอาเลข 1 ที่ห้อยอยู่ออกไป)
และถ้า m=2 อีกทั้งยัง n=1 ก็จะกลายเป็นการแจกแจงแบร์นุลลี
P(k1)=pk11(1−p1)1−k1
ดังนั้นการแจกแจงทวินามก็ถือได้ว่าเป็นกรณีเฉพาะแบบหนึ่งของการแจกแจงอเนกนาม ในกรณีที่หมวดหมู่มีเพียง 2
การแจกแจงแบบหมวดหมู่介
การแจกแจงอเนกนามในกรณีที่ n=1 จะเป็นกรณีเฉพาะที่เรียกว่า
การแจกแจงแบบหมวดหมู่ (类别分布, categorical distribution)
P(→k)=P(k1,k2,...,km)=m∏i=1pkiiki!
ความสัมพันธ์ของการแจกแจงแบบหมวดหมู่กับการแจกแจงอเนกนามนั้นคือเช่นเดียวกับความสัมพันธ์ระหว่างการแจกแจงแบร์นุลลีและการแจกแจงทวินาม
อาจถือได้ว่าทั้งการแจกแจงแบร์นุลลี, การแจกแจงทวินาม, การแจกแจงแบบหมวดหมู่ ล้วนเป็นกรณีพิเศษของการแจกแจงอเนกนาม
ตัวอย่างกรณีสามหมวดหมู่介
ลองดูตัวอย่างกรณีที่ง่ายรองลงมาจากกรณี 2 หมวดหมู่ (ซึ่งก็คือการแจกแจงทวินาม) นั่นคือกรณีที่ผลลัพธ์มี 3 หมวดหมู่
ถ้ามี 3 หมวดหมู่ ผลลัพธ์คือจำนวนครั้งที่ได้ในแต่ละหมู่ก็จะมี 3 ค่า เป็น
→k=[k1,k2,k3]T
เพียงแต่ว่าถ้าทำการทดลอง n ครั้ง จำนวนรวมทั้งหมดก็ย่อมเป็น n แบบนั้นบอกแค่ค่า 2 ตัวแรกก็ย่อมรู้ค่าตัวที่ 3 แน่ชัดอยู่แล้ว
k3=n−k1−k2
ดังนั้นในที่นี้จะแสดงการแจกแจง 2 มิติ ระหว่าง k
1 กับ k
2
ตัวอย่างเช่นให้จำนวนครั้งที่ลองเป็น n=10 แล้วให้
→p=[0.5,0.2,0.3]T ผลการแจกแจงจะออกมาแบบนี้
จะเห็นว่าค่าสูงสุดอยู่ที่ k
1=5,k
2=2 (ซึ่งแน่นอนว่า k
3 ก็จะเป็น 3) ซึ่งเป็นจำนวนที่ตรงตามสัดส่วนความน่าจะเป็น และค่าอื่นก็จะมีความน่าจะเป็นน้อยลงลดหลั่นไป
ลองทำเป็นภาพเคลื่อนไหว แสดงกรณีที่ให้
→p=[0.3,0.2,0.5]T แล้วเพิ่มจำนวน n ไปเรื่อยๆ
หรือลองดูกรณีที่ให้ n คงที่ที่ 50 แล้วเปลี่ยนค่า
→p ไปเรื่อยๆ
ตัวอย่างกรณีมากกว่าสามหมวดหมู่介
ต่อไปลองมาดูกรณีที่เพิ่มมาอีกหมวด เป็น 4 หมวด ดูการแจกแจงของ k
1,k
2 เหมือนเดิม แต่ให้ k
3 เปลี่ยนไปเรื่อยๆ โดยคงจำนวนค่า n (ส่วน k
4 ก็เป็น n-k
1-k
2-k
3 ไปโดยปริยาย) เทียบดูผลลัพธ์แต่ละกรณี
ในที่นี้พยายามแสดงตัวอย่างการแจกแจงเป็นภาพ ซึ่งก็มักจะแสดงได้แค่สองมิติ หรือใช้การเปลี่ยนแปลงตามเวลาเพื่อช่วยเป็นอีกมิติ แต่พอจำนวนหมวดหมู่เพิ่มขึ้นก็มีตัวแปรมากยิ่งขึ้นจึงยากที่จะเขียนแสดงเป็นภาพ แต่โดยรวมแล้วถ้าเข้าใจความหมายก็น่าจะนึกภาพตามออกได้
ผลลัพธ์อาจจะมีมากมาย แต่ถ้ามีรูปแบบแน่นอน จำนวนหมวดหมู่ก็เป็นจำนวนเต็ม แล้วก็ยังใช้การแจกแจงอเนกนามอธิบายการแจกแจงความน่าจะเป็นได้
ความสัมพันธ์กับการแจกแจงชนิดต่างๆ介
สุดท้ายลองมาดูสรุปความสัมพันธ์ระหว่างการแจกแจงต่างๆที่เกี่ยวข้องกัน
เริ่มจากการแจกแจงแบบแบร์นุลลีซึ่งเป็นการทดลองที่ง่ายที่สุด คือมีผลลัพธ์แค่ 2 แบบคือสำเร็จกับล้มเหลว และทำแค่ 1 ครั้ง
ถ้าเปลี่ยนเป็นทำหลายครั้งก็จะกลายเป็นการแจกแจงทวินาม
ถ้าผลลัพธ์มีหลายแบบ แต่ยังทำแค่ 1 ครั้งก็จะเป็นการแจกแจงแบบหมวดหมู่
ถ้าผลลัพธ์มีหลายแบบ และทำหลายๆครั้งก็จะเป็นการแจกแจงอเนกนาม
ส่วนการแจกแจงเบตาคือความน่าจะเป็นก่อนหน้าสังยุคของการแจกแจงทวินามและการแจกแจงแบร์นุลลี
และในทำนองเดียวกัน การแจกแจงดีริคเลคือความน่าจะเป็นก่อนหน้าสังยุคของการแจกแจงอเนกนามและการแจกแจงแบบหมวดหมู่
สำหรับเรื่องของการแจกแจงดีริคเลจะเขียนถึงในบทต่อไป
บทถัดไป >>
บทที่ ๒๒