ต่อจาก
บทที่ ๒๑
ในบทนี้เป็นเรื่องของ
การแจกแจงดีริคเล (狄利克雷分布, Dirichlet distribution)
ฟังก์ชันการแจกแจงความน่าจะเป็นของการแจกแจงดีริคเล
การแจกแจงดีริคเล เป็น
การแจกความน่าจะเป็นก่อนหน้าสังยุคของ
การแจกแจงอเนกนาม
ลักษณะความสัมพันธ์เช่นเดียวกับที่
การแจกแจงเบตาเป็นการแจกแจงความน่าจะเป็นก่อนหน้าสังยุคของ
การแจกแจงทวินาม
ดังนั้นอาจถือว่าเป็นการแจกแจงเบตาในกรณีหลายหมวดหมู่นั่นเอง
ฟังก์ชันการแจกแจงเป็นดังนี้
โดยในที่นี้ B คือฟังก์ชันเบตาแบบหลายมิติ นิยามโดย
ในที่นี้
คือความน่าจะเป็นของหมวดต่างๆ (คือ
ในการแจกแจงอเนกนาม) มีทั้งหมด m หมวด รวมกันทุกตัวต้องเป็น 1
พารามิเตอร์ในที่นี้คือ
เรียกว่าเป็น
พารามิเตอร์ความเข้มข้น (集中度参数, concentration
parameter) ไม่ใช่เลขตัวเดียงแต่มีทั้งหมด m ตัว เท่ากับจำนวนหมวดหมู่ที่พิจารณา ทุกตัวเป็นจำนวนจริงบวก
เป็นค่าที่บอกถึงน้ำหนักความสำคัญของแต่ละหมวดหมู่
หาก m=2 ซึ่งหมายถึงมีแค่ 2 หมวดหมู่แล้ว
ซึ่งถ้าแทน α
1 ด้วย α และแทน α
1 ด้วย β ก็จะกลายเป็นการแจกแจงเบตา
ดังนั้นตรงนี้ก็พิสูจน์ได้ว่าการแจกแจงเบตาก็คือรูปแบบหนึ่งของการแจกแจงดีริคเลในกรณีที่มีแค่ 2 หมวดหมู่
สำหรับความหมายของ
ในการแจกแจงดีริคเลก็จะเหมือนกับ α และ β ในการแจกแจงเบตา แต่คราวนี้ไม่ได้มีแค่
2 ตัว แต่มีจำนวนตัวแปรมากเท่าจำนวนหมวดหมู่
ค่าคาดหมายและส่วนเบี่ยงเบนมาตรฐานของการแจกแจงดีริคเล
ค่าคาดหมายของแต่ละหมวดหมู่ในการแจกแจงรีริคเลก็คือ
โดยในที่นี้ให้
แทนผลรวมของ α ทั้งหมด
ค่าความแปรปรวนของแต่ละหมวดหมู่คือ
ความแปรปรวนร่วมเกี่ยวระหว่างต่างหมวดหมู่คือ
เมื่อ i≠j
เมทริกซ์ความแปรปรวนร่วมเกี่ยวได้เป็น
การแจกแจงความน่าจะเป็นของพารามิเตอร์ของการแจกแจงอเนกนาม
เพื่อพิสูจน์ว่าการแจกแจงดีริคเลเป็นการแจกแจงความน่าจะเป็นก่อนหน้าสังยุคของการแจกแจงอเนกนาม
ในที่นี้จะทำเหมือนกับที่ทำกับการแจกแจงทวินามใน
บทที่
๑๕ วิธีการจะคล้ายๆกันแค่เปลี่ยนจากการแจกแจงทวินามเป็นการแจกแจงอเนกนาม ดังนั้นจะไม่เขียนถึงรายละเอียดมากนัก
ในที่นี้จะเขียนแทนการแจกแจงดีริคเลด้วย
แบบนี้
ในที่นี้ก็จะดึงส่วนที่ไม่เกี่ยวข้องกับ
มาใส่ไว้ใน
ให้หมดแล้วพิจารณาเฉพาะส่วนที่เหลือเพื่อความง่าย
เช่นเดียวกับที่ทำมาในบทก่อนๆ
พิจารณาการแจกแจงของ
ซึ่งเป็นการแจกแจงอเนกนาม m หมวด สมมุติว่ามีผลการทดลองใหม่เข้ามาเป็น
พิจารณาการแจกแจงความน่าจะเป็นภายหลังตามทฤษฎีบทของเบส์ได้ว่า
ในส่วนของการแจกแจงก่อนหน้านั้นในที่นี้หากเริ่มจากไม่มีข้อมูลอะไรก็ให้เป็นค่าคงตัว ซึ่งก็คือ
ทุกตัวมีค่าเป็น 1 ทั้งหมด
ส่วนฟังก์ชันควรจะเป็นในที่นี้เป็นการแจกแจงอเนกนาม
เมื่อเอามารวมกันก็ได้การแจกแจงความน่าจะเป็นภายหลังออกมา ซึ่งเขียนให้อยู่ในรูปของการแจกแจงดีริคเลได้ดังนี้
เท่านี้ก็คงจะพอมองออกได้ว่าต่อมาหากมีข้อมูลเข้ามาอีกหลายๆชุด เป็นจำนวน n ชุด ก็เอาค่า k
ของแต่ละชุดมาบวกกันให้หมด
และถ้าการแจกแจงก่อนหน้าไม่ใช่ 1 ทั้งหมด แต่มีค่า α ตั้งต้นอยู่แล้วเป็น α
0
แบบนั้นแล้วความน่าจะเป็นภายหลังก็จะมีค่า
เพิ่มเข้าไปอีกแทน 1 เป็น
การแจกแจงดีริคเลสามหมวดหมู่
เช่นเดียวกับที่ใน
บทที่ ๑๑
ได้อธิบายและแสดงการเปลี่ยนแปลงของการแจกแจงความน่าจะเป็นตามจำนวนข้อมูลที่เพิ่มเข้ามาด้วยฟังก์ชันเบตาไปแล้ว
บทนี้จะยกตัวอย่างกรณี 3 หมวดหมู่ ซึ่งเพิ่มเติมมาจากกรณี 2 หมวดหมู่ของการแจกแจงเบตา
ให้
เป็นความน่าจะเป็นของแต่ละหมวดหมู่ แล้ว α
ก็เป็นพารามิเตอร์ความเข้มข้นของหมวดหมู่นั้น
ในที่นี้จะพิจารณาการแจกแจงค่า p
1 กับ p
2 ส่วน p
3 ก็จะถูกกำหนดค่าไปเองโดยอัตโนมัติ
ตามเงื่อนไขที่ว่า
เริ่มแรก กรณีที่ไม่มีข้อมูลใดๆเลย การแจกแจงทั้งหมดจะเท่ากันหมด นั่นคือ α ทุกตัวเป็น 1
ในที่นี้การแจกแจงจะมีแค่ครึ่งล่างซ้าย เพราะถ้า p
1+p
2>1 จะทำให้ p
3 ติดลบ
ซึ่งไม่มีอยู่จริง
ต่อมาหากสุ่มครั้งแรกแล้วได้ผลลัพธ์เป็นหมวดหมู่ที่ 1 แล้ว ค่า α
1 ก็จะเพิ่มอีก 1
แล้วการแจกแจงความน่าจะเป็นก็จะกลายเป็นแปรตาม p
1
หรือถ้าหากเปลี่ยนเป็นได้ผลลัพธ์เป็นหมวดหมู่ที่ 3 แทน แบบนี้การแจกแจงความน่าจะเป็นก็จะแปรตาม p
3 ซึ่งก็คือ
1-p
1-p
2
ถ้าได้ทั้งหมวดหมู่ที่ 1 และ 2 เพิ่มมาพร้อมกัน การแจกแจงก็จะเพิ่มตามค่า p
1 และ p
2
ถ้าเปลี่ยนเป็นได้หมวดหมู่ที่ 1 และ 3 แทน การแจกแจงก็เปลี่ยนไปเป็นทางนี้
ถ้าแต่ละหมวดต่างก็เพิ่มมา 1 กลายเป็น 2 ทั้งหมด การแจกแจงตรงขอบก็จะเป็น 0 แล้วตรงกลางที่ 1/3 ก็จะมีค่าสูงขึ้นมา
ถ้า α ตัวไหนมาก การแจกแจงก็จะเอนเอียงไปทางนั้นมาก
ถ้า α แต่ละตัวเท่าๆกัน แต่ค่าเพิ่มขึ้นเรื่อยๆ จุดสูงสุดก็ยังอยู่ที่ 1/3
แต่การแจกแจงจะยิ่งกองรวมกันตรงนั้นมากขึ้น
ในทางตรงกันข้าม ค่า α สามารถจะไม่เป็นจำนวนเต็ม ซึ่งจะเป็นค่าน้อยกว่า 1 ได้ด้วย
ในกรณีนั้นจะกลายเป็นว่าตรงขอบค่าสูงกว่า
ลองทำเป็นภาพเคลื่อนไหวแสดงความเปลี่ยนแปลง เปรียบเทียบกรณีที่ α เท่ากันทั้ง 3 ตัว แต่ค่อยๆเพิ่มขึ้นไปพร้อมกัน
จะเห็นว่าเมื่อ α น้อยกว่า 1 ตรงกลางจะเว้า แล้วพอ α เป็น 1 ก็จะเรียบเท่ากันหมด แล้วพอ α มากกว่า 1
ก็จะเริ่มนูนตรงกลางแทน