วันจันทร์ที่ 25 มิถุนายน พ.ศ. 2555

การใช้ excel ทดสอบความกระจายแบบปกติของข้อมูล 1 (How do you test data normality)

การใช้ excel ในบทความนี้จะเป็นส่วนเสริมของการวิเคราะห์ข้อมูลหรือการทดสอบสมมุติฐานซึ่งได้นำเสนอการทดสอบด้วยสถิติ t (t test) โดยทั่วไปแล้วเงื่อนไขการทดสอบสมมุติฐานทางสถิติ เรามักจะพบเงื่อนไขที่สมมุติว่าตัวอย่างที่สุ่มมานั้นต้องมีการกระจายแบบปกติ (Normal Distribution) ซึ่งหากตัวอย่างที่สุ่มมานั้นมีการกระจายไม่เป็นแบบปกติจะส่งผลให้เกิดความคลาดเคลื่อนตั้งแต่น้อยไปจนถึงยอมรับไม่ได้ ดังนั้นการทดสอบความกระจายแบบปกติของข้อมูลจึงเป็นสิ่งที่ไม่อาจหลีกเลี่ยงได้ หากท่านผู้อ่านเรียนสถิติมาบ้างคงจำได้ว่าการตรวจสอบลักษณะการกระจายตัวสามารถทำได้โดยการพิจารณา แผนภูมิฮิสโตแกรมของกลุ่มข้อมูล โดยฮิสโตแกรมจะมีรูปร่างสมมาตรรอบจุดๆหนึ่งหากข้อมูลมีการกระจายแบบปกติ ซึ่งเราจะเรียกวิธีการนี้ว่า การวิเคราะห์ลักษณะการกระจายตัว (Distribution analysis) โดยในบทความถัดไปจะนำเสนอวิธีการดังกล่าวด้วยการใช้ excel ตั้งแต่การประยุกต์ใช้สูตร excel : rept หรือใช้เครื่องมือการวิเคราะห์ข้อมูล (Data analysis)  ของ excel ในบทความนี้จะนำเสนอการวิเคราะห์ข้อมูลโดยวิธี Normal Quantile Plot  ซึ่งเหมาะกับจำนวนข้อมูลที่ไม่มากนัก
สมมุติฐาน
ตัวอย่างที่เก็บมาจากประชากรที่มีการกระจายแบบ Normal  ก็ควรจะมีการกระจายของค่าตัวอย่างเป็นแบบ Normal เช่นกัน ซึ่งหากสมมุติฐานดังกล่าวเป็นจริงเราจะพบว่าความสัมพันธ์ระหว่าง ค่าตัวอย่างกับค่าสถิติ Z จะใกล้เคียงเส้นตรง ที่มีความชัน (Slope) เท่ากับ  ค่าความแปรปรวนของประชากร และจุดตัดบนแกน Y (Intercept) จะเท่ากับ ค่าเฉลี่ยของประชากร ซึ่งหมายถึงว่า  จุดตัดของแนวเส้นบนแกน Y เป็นค่าเฉลี่ยของตัวอย่างด้วย
Normal Quantile Plot
เป็นการ plot จุดตัดระหว่างค่า Z quantiles กับค่าตัวอย่าง สมมุติว่า i = 1, 2 ......n  เป็นค่าอันดับของตัวอย่าง หลังจากเรียงลำดับค่าจากน้อยไปมากแล้ว  ค่า quantiles ของข้อมูลหาได้จากสมการ  ( i - 0.5 ) / n  ดังนั้นขั้นตอนการทำ Normal quantile plot สามารถทำได้ดังนี้
1.  เรียงลำดับค่าตัวอย่างที่มีอยู่จากน้อยไปหามาก (Sort the data)
2. คำนวณค่า Sample quantiles จากสมการ  ( i - 0.5 ) / n
3. ค่า Sample quantile ที่ได้ตามข้อ 2 คือ ค่าพื้นที่ใต้กราฟของ Z-Distribution หรือ Standard Normal Distribution  ให้นำค่า Sample quantiles ดังกล่าวไปหาค่า Z
4. plot จุดของคู่ลำดับ (x,y) Z percentiles กับ ค่าตัวอย่าง (แกน Y)
จากขั้นตอนที่กล่าวมาเราสามารถใช้ excel ช่วยคำนวณและ plot กราฟได้ โดยมีแนวคิดดังนี้
  1. เรียงลำดับค่าตัวอย่างโดยใช้การ Sort ใน excel
  2. คำนวณค่า Sample quantiles ได้โดยกำหนดสูตร excel ได้ง่ายๆ
  3. คำนวณค่า Z ได้โดยใช้สูตร excel : NORMSINV
  4. ใช้ excel plot กราฟ แบบ Scatter
ตัวอย่าง
มีการสุ่มค่าความร้อนของถ่านหินในเหมืองหนึ่ง ได้ทั้งหมด 6 ค่าดังนี้
7950   7890   7910   8040    7970    7840
เราสามารถดำเนินการตามขั้นตอนที่กล่าวมาแล้วใน excel ได้ดังภาพที่ 1
image
ภาพที่ 1 การใช้ excel Plot Normal Quantile
ท่านผู้อ่านจะสังเกตุจากความเป็นเส้นตรงของ Normal Quantile Plot ได้โดยการเพิ่มเส้นแนวโน้มลงในแผนภูมิ Normal Quantile โดยหากค่า R มีค่าเกินกว่า 0.9 แสดงให้เห็นว่าข้อมูลมีแนวโน้มเป็นเส้นตรง ซึ่งนั่นหมายถึงว่าตัวอย่างที่เราสุ่มมามีการกระจายแบบปกติ ซึ่งเราสามารถนำตัวอย่างดังกล่าวไปใช้ในการทดสอบสมมุติฐานต่อไป
ข้อสังเกต
การสังเกตลักษณะการเรียงตัวของข้อมูลและใช้เป็นข้อมูลในการตัดสินใจเรียกว่าการตัดสินใจด้วยการวิเคราะห์เชิงคุณภาพ ( Qualitative )
การวิเคราะห์เส้นแนวโน้มและพิจารณาค่า R ของสมการเส้นตรงที่เป็นตัวแทนของการกระจายดังกล่าวและใช้เป็นข้อมูลในการตัดสินใจเรียกว่า การตัดสินใจด้วยการวิเคราะห์เชิงปริมาณ
จากที่ได้กล่าวมาก็ได้เห็นไปแล้วว่าการใช้ excel ทดสอบความกระจายตัวแบบปกติของข้อมูลสามารถทำได้ง่าย หวังว่าคงเป็นประโยชน์กับท่านผู้อ่านนะครับ

2 ความคิดเห็น:

utid กล่าวว่า...

ได้ทดลองไปใช้กันรึยังครับ

๋JOME RODRIGUEZ กล่าวว่า...

ขอบคุณครับ

แสดงความคิดเห็น

Yahoo bot last visit powered by  Ybotvisit.com