การวิเคราะห์การจำแนกข้อมูลที่ไม่สมดุลในแต่ละกลุ่มกรณีศึกษาการจำแนกกลุ่มเสี่ยงโรคเบาหวาน

Authors

  • ทัศนีย์ น้าเจริญ หลักสูตรมหาบัณฑิต สาขาสถิติ คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์

Keywords:

โรคเบาหวาน, ค่าอัตราความผิดพลาด, การวิเคราะห์การจำแนกที่อิงพารามิเตอร์, การวิเคราะห์การจำแนกที่ไม่อิงพารามิเตอร์, Parametric Discriminant Analysis, Nonparametric Discriminant Analysis, Diabetes, Error Rate

Abstract

การศึกษานี้เป็นการเปรียบเทียบประสิทธิภาพของวิธีการวิเคราะห์การจำแนกที่อิงพารามิเตอร์และการวิเคราะห์การจำแนกที่ไม่อิงพารามิเตอร์ ในการจำแนกข้อมูล 3 กลุ่ม โดยที่มีความสมดุลของข้อมูลแต่ละกลุ่ม ข้อมูลที่นำมาศึกษาเป็นข้อมูลกลุ่มเสี่ยงโรคเบาหวานของเจ้าหน้าที่ที่ปฏิบัติงานในโรงพยาบาลรัฐแห่งหนึ่งจำนวน 599 คน มีการวินิจฉัยเป็น 3 กลุ่ม คือกลุ่มที่เสี่ยงโรคเบาหวาน มีประมาณ 90% กลุ่มเสี่ยงโรคเบาหวาน มีประมาณ 5% และกลุ่มเป็นโรคเบาหวาน มีประมาณ 5% ข้อมูลดังกล่าวไม่มีการแจกแจงแบบปกติพหุและความแปรปรวนร่วมแต่ละกลุ่มไม่เท่ากัน ในการศึกษานี้ได้ทำการบูตสแตรปข้อมูลกลุ่มเสี่ยงโรคเบาหวานจำนวน 50 ชุด แต่ละชุดจะทำการการวิเคราะห์การจำแนกที่อิงพารามิเตอร์ ด้วยฟังก์ชันการจำแนกเชิงเส้นและกำลังสอง และวิเคราะห์การจำแนกที่ไม่อิงพารามิเตอร์ด้วยวิธีเคเนียเรสเนเบอร์ เมื่อกำหนด k เป็น 3, 4, 5 พร้อมทั้งกำหนดค่าความน่าจะเป็นก่อนหน้าด้วยสัดส่วนที่เท่ากันและสัดส่วนที่แตกต่างกันสำหรับสร้างกฎการจำแนกกลุ่มที่เหมาะสม และวัดประสิทธิภาพของวิธีการวิเคราะห์การจำแนกแต่ละวิธีด้วยค่าเฉลี่ยอัตราความผิดพลาด ผลการศึกษาพบว่าจากข้อมูลบูตสแตรป 50 ชุด การวิเคราะห์การจำแนกด้วยวิธีเคเนียเรสเนเบอร์ เมื่อ k=3 หรือ 4 และเมื่อกำหนดค่าความน่าจะเป็นก่อนหน้าของกลุ่มไม่เสี่ยงโรคเบาหวาน : กลุ่มเสี่ยงโรคเบาหวาน : กลุ่มเป็นโรคเบาหวาน ด้วยสัดส่วน 0.90 : 0.05 : 0.05 หรือ 0.80 : 0.10 : 0.10 พบว่าค่าเฉลี่ยอัตราความผิดพลาดในการจำแนกกลุ่มผิดมีค่าต่ำที่สุด
The  purpose of this  research is  tocompare  the  classification performance among parametric discriminant  analysis and nonparametric discriminant analysis in three- group classification, imbalance in each group. The data is Diabetes Risk Group, nor multivariate normality and neither the groupin the data nor the covariance  matrices  of the three groups were equal. The data have made 50 bootstrap samples, to analyze classification  method that consists of parametric discriminant analysis,which linear discriminant function and quadratic discriminant function. And k - nearest neighbor when  k=3, 4, 5 in the nonparametric discriminant analysis. The prior probability was proportional. Using the Error Rate performance in comparison  to classify  that  50 bootstrap samples, k - nearest neighbor will provide the error rate in the classification  minimum when k=3, 4. And  determining  the prior probability 0.90 : 0.05 : 0.05 or 0.80 : 0.10 : 0.10. To  keep the error rate in the classification minimum.

Downloads

How to Cite

น้าเจริญ ท. (2016). การวิเคราะห์การจำแนกข้อมูลที่ไม่สมดุลในแต่ละกลุ่มกรณีศึกษาการจำแนกกลุ่มเสี่ยงโรคเบาหวาน. Academic Journal Phranakhon Rajabhat University, 6(1), 250–261. Retrieved from https://so01.tci-thaijo.org/index.php/AJPU/article/view/54610

Issue

Section

บทความวิจัย (Research Article)