การพัฒนาระบบตรวจให้คะแนนอัตโนมัติสำหรับแบบสอบเขียนตอบ วิชาภาษาไทย ระดับมัธยมศึกษาตอนต้น

Main Article Content

จิราพร ก้อนดินจี่
ประกฤติยา ทักษิโณ

บทคัดย่อ

การวิจัยครั้งนี้มีความมุ่งหมาย คือ 1) เพื่อพัฒนาแบบสอบเขียนตอบ วิชาภาษาไทย ระดับมัธยมศึกษาตอนต้น  2) เพื่อพัฒนาระบบตรวจให้คะแนนอัตโนมัติสำหรับแบบสอบเขียนตอบ วิชาภาษาไทย ระดับมัธยมศึกษาตอนต้น และ3) เพื่อเปรียบเทียบคุณภาพของการตรวจระหว่างผลที่ได้จากคนตรวจและผลที่ได้จากระบบตรวจให้คะแนน กลุ่มตัวอย่าง    ในการวิจัย คือ นักเรียนที่กำลังศึกษาอยู่ในชั้นมัธยมศึกษาปีที่ 3 จำนวน 300 คน  ครูผู้สอนในวิชาภาษาไทย จำนวน 5 คน     โดยใช้วิธีการสุ่มแบบหลายขั้นตอน และผู้ตรวจที่มีวุฒิการศึกษาด้านการสอนวิชาภาษาไทย จำนวน 3 คน ใช้วิธีการเลือก  แบบเจาะจง  เครื่องมือที่ใช้ในการวิจัย คือ แบบสอบเขียนตอบ วิชาภาษาไทย ระดับมัธยมศึกษาตอนต้น เรื่อง การจับใจความ  สรุปความ และย่อความ วิชาภาษาไทย และระบบตรวจให้คะแนนอัตโนมัติ ผลการวิจัยพบว่า 1) แบบสอบเขียนตอบ         วิชาภาษาไทย ระดับมัธยมศึกษาตอนต้น มีจำนวน 6 ข้อ จาก 4 สถานการณ์ และมีคะแนนเต็ม 140 คะแนน ผลการตรวจสอบคุณภาพของแบบสอบพบว่าข้อสอบมีความยากอยู่ในเกณฑ์นำไปใช้ได้ (p = 0.43 – 0.70) อำนาจจำแนกเหมาะสม (r = 0.20 – 0.34) มีความตรงเชิงเนื้อหามีความเหมาะสมทุกข้อ (IOC = 1.00) และเกณฑ์การให้คะแนนของแบบสอบเป็นแบบพิจารณารายละเอียด (Analytic Rubrics) มีความตรงเชิงเนื้อหาทุกข้อ (IOC = 1.00) โดยทั้งข้อสอบและเกณฑ์มีความเที่ยงเหมาะสม (α = 0.731) 2) ระบบตรวจให้คะแนนอัตโนมัติเป็นระบบออนไลน์ชื่อ ASSWT (Automated Scoring System for Writing Test) ที่เป็นระบบการสอบพร้อมตรวจให้คะแนน ประกอบด้วย 3 ส่วน ได้แก่ การใช้งานสำหรับครู การใช้งานสำหรับผู้เข้าสอบ และการปฏิบัติงานของระบบ และ 3) ผลการเปรียบเทียบคุณภาพของการตรวจระหว่างคนและระบบตรวจให้คะแนนอัตโนมัติ พบว่า ระบบตรวจให้คะแนนอัตโนมัติสามารถให้คะแนนได้อย่างสม่ำเสมอกว่าคนตรวจ รวมถึงมีอำนาจจำแนกสูงกว่าในบางกรณี เมื่อวิเคราะห์ความเที่ยงระหว่างผู้ตรวจพบว่าค่าสัมประสิทธิ์อยู่ในระดับปานกลางถึงสูงมาก (r = 0.496 – 0.819) และมีนัยสำคัญทางสถิติทุกข้อ (p < 0.001) ค่าสัมประสิทธิ์สหสัมพันธ์ภายในชั้นอยู่ระดับดีถึงดีเยี่ยม (ICC = 0.815 – 0.945) เมื่อรวมกับระบบตรวจให้คะแนนอัตโนมัติแล้ว ค่าสัมประสิทธิ์สหสัมพันธ์ภายในชั้นยังคงอยู่ในระดับสูง และเมื่อวิเคราะห์ด้วยทฤษฎี G-Theory (P × i × r) พบว่า การใช้ระบบอัตโนมัติร่วมกับผู้ตรวจทำให้ค่าสัมประสิทธิ์การสรุปอ้างอิงเพิ่มขึ้นอย่างชัดเจน โดยค่าสัมประสิทธิ์การสรุปอ้างอิงสำหรับการตัดสินใจสัมพัทธ์ (ρ2δ) เพิ่มจาก 0.26 เป็น 0.62 และสำหรับการตัดสินใจสัมบูรณ์ (ρ2Abs) เพิ่มจาก 0.17 เป็น 0.51 แสดงให้เห็นว่าการนำระบบตรวจให้คะแนนอัตโนมัติมาตรวจจะช่วยลดแหล่งความแปรปรวนที่ไม่พึงประสงค์และเพิ่มความน่าเชื่อถือของการให้คะแนนอย่างมีนัยสำคัญ


Article Details

รูปแบบการอ้างอิง
ก้อนดินจี่ จ., & ทักษิโณ ป. . (2025). การพัฒนาระบบตรวจให้คะแนนอัตโนมัติสำหรับแบบสอบเขียนตอบ วิชาภาษาไทย ระดับมัธยมศึกษาตอนต้น. Journal of Inclusive and Innovative Education, 9(3), 129–148. สืบค้น จาก https://so01.tci-thaijo.org/index.php/cmujedu/article/view/283658
ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

Apaikawee, D., Tuksino, P., & Tangdhanakanond, K. (2020). A Study of the Results of Subjective Test Scoring by Applying the Many-Facet Rasch Model and Generalizability Theory. Journal of Educational Measurement, Mahasarakham University, 26(1), 110–124. [in Thai]

Broadfoot, P. & Rockey, J. (2025). Generative AI and the social functions of educational assessment. Oxford Review of Education, 51(2), 283–299.

Bureau of Educational Testing. (2022). Manual for the use of standardized essay test instruments based on the Basic Education Core Curriculum B.E. 2551 (2008) (Revised B.E. 2560/2017) for primary education. Bangkok: Aksornthai Press. [in Thai]

Chansima, N. & Tuksino, P. (2019). Comparison of quality of scoring for essay test under different of scoring pattern and item characteristics and raters : application of generalizability theory (Master’s thesis). Faculty of Education, Khon Kaen University. [in Thai]

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed). New Jersey: Lawrence Erlbaum Associates.

Cronbach, J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334.

Crossley, S.A., Bradfleld, F. & Bustamante, A. (2019). Using human judgments to examine the validity of automated grammar, syntax, and mechanical errors in writing. Journal of Writing Research, 11(2), 251- 270.

Department of Local Administration. (2023). Notification of the allocation of the annual budget expenditure for the fiscal year 2023 on the Reading Test (RT) for Grade 1 students and the National Test (NT) for Grade 3 students in the academic year 2022. Retrieved from https://www.dla.go.th/upload/document/type2/2023/1/28676_1_1673249130936.pdf?time= 1673249864225 [in Thai]

Dikli, S. (2006). An Overview of Automated Scoring of Essays. The Journal of Technology, Learning and Assessment, 5(1), 1-36.

Janprasert, B., Lawthong, N., & Ngadgratoke, S. (2020). Inter-rater Reliability of Alignment between Science Items and Indices. Journal of Education Studies, 48(3), 144–163. [in Thai]

Kanchanawasri, S. (2013). Classical test theory (7th ed.). Bangkok: Chulalongkorn University Press.

Koo, T.K. & Li, M.Y. (2016). A Guideline of Selecting and Reporting Intra-Class Correlation Coefficients for Reliability Research. Journal of Chiropractic Medicine, 15(2), 155 – 163.

Office of the Basic Education Commission. (2023). Number of students and classrooms by gender and grade level, academic year 2023. Bangkok: Office of the Basic Education Commission. [in Thai]

Pattani Provincial Education Office. (2023). The Office of the Basic Education Commission (OBEC) revised the Basic Education Core Curriculum B.E. 2551 (2008), updated version B.E. 2566 (2023). Retrieved from https://www.ptnpeo.go.th/ednews/7191/ [in Thai]

Rovinelli, R.J. & Hambleton, R.K. (1976). The use of content specialists in the assessment of criterion-referenced test item validity. Tijdschrift Voor Onderwijs Research, 2, 49-60.

Suchato, A., Pratanwanich, N., Chomphooyod, P., & Wiriyachaiphon, P. (2023). Complete research report on the study of applying artificial intelligence to develop reading skills for elementary school students. Retrieved from https://www.onec.go.th/th.php/book/BookView/2008 [in Thai]

Sukwichai, S., Junpeng, P., Tawarungruang, C., & Intharah, T. (2023). Designing Automated Scoring System of Open-Ended Test by Providing Automatic Feedback to Diagnose Mathematical Proficiency Levels through Machine Learning. Journal of Educational Measurement, Mahasarakham University, 29(1), 210–230. [in Thai]

Thitikanpodchana, W., & Tuksino, P. (2021). Comparisons of the generalizability coefficient scores of English writing ability test of mattayom 3 with different rater's linguistics background and scoring designs. Retrieved from https://app.gs.kku.ac.th/gs/th/publicationfile/item/22nd-ngrc-2021/HMO18/HMO18.pdf [in Thai]

Thongsilp, A., Tangdhanakanond, K., & Chaimongkol, N. (2020). Development of Automated Scoring System for Thai Writing Ability Test of Primary Education Level (Doctoral dissertation). Faculty of Education, Chulalongkorn University. [in Thai]

Wiboonsri, Y. (2013). Measurement and Achievement Test Contstruction (11st ed.). Bangkok: Chulalongkorn University Press. [in Thai]

Zhang, M. & Williamson, D.M. (2023). Reliability improvement in writing assessment: The complementary role of AI-enhanced scoring systems. Educational Measurement: Issues and Practice, 42(1), 12-24.