φυβλαςのβλογ
phyblasのブログ



ความน่าจะเป็นเบื้องต้นสำหรับเขียนโปรแกรม บทที่ ๒๒: การแจกแจงดีริคเล
เขียนเมื่อ 2020/09/12 14:09

ต่อจาก บทที่ ๒๑

ในบทนี้เป็นเรื่องของการแจกแจงดีริคเล (狄利克雷分布, Dirichlet distribution)




ฟังก์ชันการแจกแจงความน่าจะเป็นของการแจกแจงดีริคเล

การแจกแจงดีริคเล เป็นการแจกความน่าจะเป็นก่อนหน้าสังยุคของการแจกแจงอเนกนาม

ลักษณะความสัมพันธ์เช่นเดียวกับที่การแจกแจงเบตาเป็นการแจกแจงความน่าจะเป็นก่อนหน้าสังยุคของการแจกแจงทวินาม ดังนั้นอาจถือว่าเป็นการแจกแจงเบตาในกรณีหลายหมวดหมู่นั่นเอง

ฟังก์ชันการแจกแจงเป็นดังนี้


โดยในที่นี้ B คือฟังก์ชันเบตาแบบหลายมิติ นิยามโดย


ในที่นี้ คือความน่าจะเป็นของหมวดต่างๆ (คือ ในการแจกแจงอเนกนาม) มีทั้งหมด m หมวด รวมกันทุกตัวต้องเป็น 1


พารามิเตอร์ในที่นี้คือ เรียกว่าเป็นพารามิเตอร์ความเข้มข้น (集中度参数, concentration parameter) ไม่ใช่เลขตัวเดียงแต่มีทั้งหมด m ตัว เท่ากับจำนวนหมวดหมู่ที่พิจารณา ทุกตัวเป็นจำนวนจริงบวก เป็นค่าที่บอกถึงน้ำหนักความสำคัญของแต่ละหมวดหมู่


หาก m=2 ซึ่งหมายถึงมีแค่ 2 หมวดหมู่แล้ว


ซึ่งถ้าแทน α1 ด้วย α และแทน α1 ด้วย β ก็จะกลายเป็นการแจกแจงเบตา ดังนั้นตรงนี้ก็พิสูจน์ได้ว่าการแจกแจงเบตาก็คือรูปแบบหนึ่งของการแจกแจงดีริคเลในกรณีที่มีแค่ 2 หมวดหมู่

สำหรับความหมายของ ในการแจกแจงดีริคเลก็จะเหมือนกับ α และ β ในการแจกแจงเบตา แต่คราวนี้ไม่ได้มีแค่ 2 ตัว แต่มีจำนวนตัวแปรมากเท่าจำนวนหมวดหมู่




ค่าคาดหมายและส่วนเบี่ยงเบนมาตรฐานของการแจกแจงดีริคเล

ค่าคาดหมายของแต่ละหมวดหมู่ในการแจกแจงรีริคเลก็คือ


โดยในที่นี้ให้ แทนผลรวมของ α ทั้งหมด


ค่าความแปรปรวนของแต่ละหมวดหมู่คือ


ความแปรปรวนร่วมเกี่ยวระหว่างต่างหมวดหมู่คือ


เมื่อ i≠j

เมทริกซ์ความแปรปรวนร่วมเกี่ยวได้เป็น





การแจกแจงความน่าจะเป็นของพารามิเตอร์ของการแจกแจงอเนกนาม

เพื่อพิสูจน์ว่าการแจกแจงดีริคเลเป็นการแจกแจงความน่าจะเป็นก่อนหน้าสังยุคของการแจกแจงอเนกนาม ในที่นี้จะทำเหมือนกับที่ทำกับการแจกแจงทวินามในบทที่ ๑๕ วิธีการจะคล้ายๆกันแค่เปลี่ยนจากการแจกแจงทวินามเป็นการแจกแจงอเนกนาม ดังนั้นจะไม่เขียนถึงรายละเอียดมากนัก

ในที่นี้จะเขียนแทนการแจกแจงดีริคเลด้วย แบบนี้


ในที่นี้ก็จะดึงส่วนที่ไม่เกี่ยวข้องกับ มาใส่ไว้ใน ให้หมดแล้วพิจารณาเฉพาะส่วนที่เหลือเพื่อความง่าย เช่นเดียวกับที่ทำมาในบทก่อนๆ

พิจารณาการแจกแจงของ ซึ่งเป็นการแจกแจงอเนกนาม m หมวด สมมุติว่ามีผลการทดลองใหม่เข้ามาเป็น พิจารณาการแจกแจงความน่าจะเป็นภายหลังตามทฤษฎีบทของเบย์ได้ว่า


ในส่วนของการแจกแจงก่อนหน้านั้นในที่นี้หากเริ่มจากไม่มีข้อมูลอะไรก็ให้เป็นค่าคงตัว ซึ่งก็คือ ทุกตัวมีค่าเป็น 1 ทั้งหมด


ส่วนฟังก์ชันควรจะเป็นในที่นี้เป็นการแจกแจงอเนกนาม


เมื่อเอามารวมกันก็ได้การแจกแจงความน่าจะเป็นภายหลังออกมา ซึ่งเขียนให้อยู่ในรูปของการแจกแจงดีริคเลได้ดังนี้


เท่านี้ก็คงจะพอมองออกได้ว่าต่อมาหากมีข้อมูลเข้ามาอีกหลายๆชุด เป็นจำนวน n ชุด ก็เอาค่า k ของแต่ละชุดมาบวกกันให้หมด


และถ้าการแจกแจงก่อนหน้าไม่ใช่ 1 ทั้งหมด แต่มีค่า α ตั้งต้นอยู่แล้วเป็น α0


แบบนั้นแล้วความน่าจะเป็นภายหลังก็จะมีค่า เพิ่มเข้าไปอีกแทน 1 เป็น





การแจกแจงดีริคเลสามหมวดหมู่

เช่นเดียวกับที่ในบทที่ ๑๑ ได้อธิบายและแสดงการเปลี่ยนแปลงของการแจกแจงความน่าจะเป็นตามจำนวนข้อมูลที่เพิ่มเข้ามาด้วยฟังก์ชันเบตาไปแล้ว

บทนี้จะยกตัวอย่างกรณี 3 หมวดหมู่ ซึ่งเพิ่มเติมมาจากกรณี 2 หมวดหมู่ของการแจกแจงเบตา

ให้ เป็นความน่าจะเป็นของแต่ละหมวดหมู่ แล้ว α ก็เป็นพารามิเตอร์ความเข้มข้นของหมวดหมู่นั้น


ในที่นี้จะพิจารณาการแจกแจงค่า p1 กับ p2 ส่วน p3 ก็จะถูกกำหนดค่าไปเองโดยอัตโนมัติ ตามเงื่อนไขที่ว่า


เริ่มแรก กรณีที่ไม่มีข้อมูลใดๆเลย การแจกแจงทั้งหมดจะเท่ากันหมด นั่นคือ α ทุกตัวเป็น 1



ในที่นี้การแจกแจงจะมีแค่ครึ่งล่างซ้าย เพราะถ้า p1+p2>1 จะทำให้ p3 ติดลบ ซึ่งไม่มีอยู่จริง

ต่อมาหากสุ่มครั้งแรกแล้วได้ผลลัพธ์เป็นหมวดหมู่ที่ 1 แล้ว ค่า α1 ก็จะเพิ่มอีก 1 แล้วการแจกแจงความน่าจะเป็นก็จะกลายเป็นแปรตาม p1



หรือถ้าหากเปลี่ยนเป็นได้ผลลัพธ์เป็นหมวดหมู่ที่ 3 แทน แบบนี้การแจกแจงความน่าจะเป็นก็จะแปรตาม p3 ซึ่งก็คือ 1-p1-p2



ถ้าได้ทั้งหมวดหมู่ที่ 1 และ 2 เพิ่มมาพร้อมกัน การแจกแจงก็จะเพิ่มตามค่า p1 และ p2



ถ้าเปลี่ยนเป็นได้หมวดหมู่ที่ 1 และ 3 แทน การแจกแจงก็เปลี่ยนไปเป็นทางนี้



ถ้าแต่ละหมวดต่างก็เพิ่มมา 1 กลายเป็น 2 ทั้งหมด การแจกแจงตรงขอบก็จะเป็น 0 แล้วตรงกลางที่ 1/3 ก็จะมีค่าสูงขึ้นมา



ถ้า α ตัวไหนมาก การแจกแจงก็จะเอนเอียงไปทางนั้นมาก







ถ้า α แต่ละตัวเท่าๆกัน แต่ค่าเพิ่มขึ้นเรื่อยๆ จุดสูงสุดก็ยังอยู่ที่ 1/3 แต่การแจกแจงจะยิ่งกองรวมกันตรงนั้นมากขึ้น





ในทางตรงกันข้าม ค่า α สามารถจะไม่เป็นจำนวนเต็ม ซึ่งจะเป็นค่าน้อยกว่า 1 ได้ด้วย ในกรณีนั้นจะกลายเป็นว่าตรงขอบค่าสูงกว่า



ลองทำเป็นภาพเคลื่อนไหวแสดงความเปลี่ยนแปลง เปรียบเทียบกรณีที่ α เท่ากันทั้ง 3 ตัว แต่ค่อยๆเพิ่มขึ้นไปพร้อมกัน



จะเห็นว่าเมื่อ α น้อยกว่า 1 ตรงกลางจะเว้า แล้วพอ α เป็น 1 ก็จะเรียบเท่ากันหมด แล้วพอ α มากกว่า 1 ก็จะเริ่มนูนตรงกลางแทน





-----------------------------------------

囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧囧

ดูสถิติของหน้านี้

หมวดหมู่

-- คณิตศาสตร์ >> ความน่าจะเป็น

ไม่อนุญาตให้นำเนื้อหาของบทความไปลงที่อื่นโดยไม่ได้ขออนุญาตโดยเด็ดขาด หากต้องการนำบางส่วนไปลงสามารถทำได้โดยต้องไม่ใช่การก๊อปแปะแต่ให้เปลี่ยนคำพูดเป็นของตัวเอง หรือไม่ก็เขียนในลักษณะการยกข้อความอ้างอิง และไม่ว่ากรณีไหนก็ตาม ต้องให้เครดิตพร้อมใส่ลิงก์ของทุกบทความที่มีการใช้เนื้อหาเสมอ

目次

日本による名言集
モジュール
-- numpy
-- matplotlib

-- pandas
-- opencv
-- pytorch
機械学習
-- ニューラル
     ネットワーク
maya
javascript
確率論
日本での日記
中国での日記
-- 北京での日記
-- 香港での日記
-- 澳門での日記
台灣での日記
北欧での日記
他の国での日記
qiita
その他の記事

記事の類別



ติดตามอัปเดตของบล็อกได้ที่แฟนเพจ

  記事を検索

  おすすめの記事

ภาษาจีนแบ่งเป็นสำเนียงอะไรบ้าง มีความแตกต่างกันมากแค่ไหน
ทำความเข้าใจระบอบประชาธิปไตยจากประวัติศาสตร์ความเป็นมา
เรียนรู้วิธีการใช้ regular expression (regex)
หลักการเขียนทับศัพท์ภาษาจีนกวางตุ้ง
การใช้ unix shell เบื้องต้น ใน linux และ mac
หลักการเขียนทับศัพท์ภาษาจีนกลาง
g ในภาษาญี่ปุ่นออกเสียง "ก" หรือ "ง" กันแน่
ทำความรู้จักกับปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง
ค้นพบระบบดาวเคราะห์ ๘ ดวง เบื้องหลังความสำเร็จคือปัญญาประดิษฐ์ (AI)
หอดูดาวโบราณปักกิ่ง ตอนที่ ๑: แท่นสังเกตการณ์และสวนดอกไม้
พิพิธภัณฑ์สถาปัตยกรรมโบราณปักกิ่ง
เที่ยวเมืองตานตง ล่องเรือในน่านน้ำเกาหลีเหนือ
บันทึกการเที่ยวสวีเดน 1-12 พ.ค. 2014
แนะนำองค์การวิจัยและพัฒนาการสำรวจอวกาศญี่ปุ่น (JAXA)
เล่าประสบการณ์ค่ายอบรมวิชาการทางดาราศาสตร์โดยโซวเคนได 10 - 16 พ.ย. 2013
ตระเวนเที่ยวตามรอยฉากของอนิเมะในญี่ปุ่น
เที่ยวชมหอดูดาวที่ฐานสังเกตการณ์ซิงหลง
บันทึกการเที่ยวญี่ปุ่นครั้งแรกในชีวิต - ทุกอย่างเริ่มต้นที่สนามบินนานาชาติคันไซ
หลักการเขียนทับศัพท์ภาษาญี่ปุ่น
ทำไมจึงไม่ควรเขียนวรรณยุกต์เวลาทับศัพท์ภาษาต่างประเทศ
ทำไมถึงอยากมาเรียนต่อนอก
เหตุผลอะไรที่ต้องใช้ภาษาวิบัติ?

月別記事

2021年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2020年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2019年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2018年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

2017年

1月 2月 3月 4月
5月 6月 7月 8月
9月 10月 11月 12月

もっと前の記事

ไทย

日本語

中文