Xây dựng ứng dụng AI hỗ trợ tóm tắt bài đọc tiếng Việt cho học sinh tiểu học

Các tác giả

  • Hoàng Ngọc Long Trường Đại học Quốc tế Hồng Bàng
  • Huỳnh Thạnh Phú Trường Đại học Quốc tế Hồng Bàng
DOI: https://doi.org/10.59294/HIUJS2025057

Từ khóa:

giáo dục tiểu học, trí tuệ nhân tạo, tóm tắt văn bản, xử lý ngôn ngữ tự nhiên

Tóm tắt

Sự phát triển nhanh của trí tuệ nhân tạo (AI) và xử lý ngôn ngữ tự nhiên (NLP) mở ra cơ hội ứng dụng trong giáo dục, đặc biệt là hỗ trợ đọc hiểu cho học sinh tiểu học. Tuy nhiên, các giải pháp tóm tắt văn bản dành riêng cho học sinh tiểu học tiếng Việt hiện nay vẫn còn hạn chế, cả về số lượng lẫn hiệu quả. Nghiên cứu này đề xuất một hệ thống AI tóm tắt bài đọc tiếng Việt cho học sinh lớp 1 - 5, nhằm giúp các em tiếp cận nội dung học tập hiệu quả hơn. Hệ thống tích hợp hai mô hình ngôn ngữ tiên tiến là PhoBERT (cho tóm tắt trích xuất) và mT5 (cho tóm tắt diễn giải), được tinh chỉnh trên bộ dữ liệu 6,000 bài đọc từ sách giáo khoa và truyện thiếu nhi. Mỗi bản tóm tắt được kiểm soát theo độ dài, từ vựng và đặc điểm ngôn ngữ phù hợp từng cấp lớp theo chương trình giáo dục tiểu học. Kết quả đánh giá cho thấy hệ thống đạt hiệu suất tốt trên các chỉ số ROUGE, BLEU, BERTScore và nhận được đánh giá tích cực từ người dùng gồm học sinh, giáo viên và phụ huynh. Nghiên cứu không chỉ góp phần vào ứng dụng AI trong giáo dục mà còn mở ra hướng phát triển cho các công cụ học tập hỗ trợ ngôn ngữ tiếng Việt.

Abstract

The rapid development of artificial intelligence (AI) and natural language processing (NLP) has opened up opportunities for applications in education, particularly in supporting reading comprehension for primary school students. However, existing text summarization solutions tailored specifically for Vietnamese primary learners remain limited in both quantity and effectiveness. This study proposes an AI-based system for summarizing Vietnamese reading materials for students in grades 1 through 5, aiming to help them access learning content more effectively. The system integrates two advanced language models: PhoBERT (for extractive summarization) and mT5 (for abstractive summarization), both fine-tuned on a dataset of 6,000 reading passages collected from textbooks and children's literature. Each summary is controlled in terms of length, vocabulary, and linguistic features to match the appropriate grade level according to the national primary education curriculum. Evaluation results indicate that the system performs well on ROUGE, BLEU, and BERTScore metrics, and receives positive feedback from users including students, teachers, and parents. This research not only contributes to the application of AI in education but also opens up new directions for the development of learning tools that support the Vietnamese language.

Tài liệu tham khảo

[1] V. Jagtap, P. Parlewar, S. Dhande, A. Langhe, H. Choudhary và A. Mishra, “Advancements in Text Summarization Through Machine Learning: A Comprehensive Survey and Analysis,” Journal of Electrical Systems, tập 1, số 20, pp. 833-849, 2024.

DOI: https://doi.org/10.52783/jes.835

[2] M. M. Saiyyad và N. N. Patil, “Text Summarization Using Deep Learning Techniques: A Review,” Engineering Proceedings, p. 194, 2024.

DOI: https://doi.org/10.3390/engproc2023059194

[3] Q.-A. Nguyen, D.-C. Can, H.-Q. Le và M.-V. Tran, “VLSP 2022 Abmusu Task Dataset: A resource for Vietnamese abstractive multi-document summarization,” International Journal of Asian Language Processing, p. 1-18, 2023.

[4] D. Q. Nguyen, T. T. Nguyen và P. M. Hiếu, “PhoBERT: Pre-trained language models for Vietnamese,” Findings of ACL: EMNLP 2020, p. 1037-1042, 2020.

DOI: https://doi.org/10.18653/v1/2020.findings-emnlp.92

[5] L. Xue, N. Constant , A. Roberts, M. Kale , R. Al-Rfou , A. Siddhant, A. Barua và C. Raffel, “mT5: A massively multilingual pre-trained text-to-text transformer,” trong Proceedings of NAACL-HLT 2021, 2021.

DOI: https://doi.org/10.18653/v1/2021.naacl-main.41

[6] R. Dorgham, “The impact of using summarizing strategy on secondary student's reading comprehension skills,” Journal of Faculty of Education, pp. (138), April, Part (3), 2024.

[7] T. Shaik, X. Tao , Y. Li, C. Dann, J. McDonald, P. Redmond và L. Galligan, “A review of the trends and challenges in adopting natural language processing methods for education feedback analysis,” p. 56720-56739, 2022.

DOI: https://doi.org/10.1109/ACCESS.2022.3177752

[8] L. Q. Tường, P. T. Phi và Đ. Đ. Hào, “Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence,” Tạp chí Khoa học Đại học Cần Thơ, tập 5, số 1, p. 125-132, 2017.

DOI: https://doi.org/10.22144/ctu.jsi.2017.017

[9] I. Khoshnevis và S. Parvinnejad, “The effect of text summarization as a cognitive strategy on the achievement of male and female language learners' reading comprehension,” International Journal of Learning & Development, p. 57-69, 2015.

DOI: https://doi.org/10.5296/ijld.v5i3.8271

[10] S. Kumar và A. Solanki, “ROUGE-SS: A New ROUGE Variant for Evaluation of Text Summarization,” p. 1-15, 2023.

DOI: https://doi.org/10.22541/au.168984209.92955863/v1

[11] K. Papineni, S. Roukos, T. Ward và W.-J. Zhu, “BLEU: a method for automatic evaluation of machine translation,” trong Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002.

DOI: https://doi.org/10.3115/1073083.1073135

[12] T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger và Y. Artzi , “BERTScore: Evaluating text generation with BERT,” trong Proceedings of the 7th International Conference on Learning Representations (ICLR), 2019.

[13] M. Xia, E. Kochmar và T. Briscoe, “Automatic learner summary assessment for reading comprehension,” trong Proceedings of NAACL-HLT 2019, 2019.

DOI: https://doi.org/10.18653/v1/N19-1261

Tải xuống

Số lượt xem: 1527
Tải xuống: 247

Đã xuất bản

24.07.2025

Cách trích dẫn

[1]
H. N. Long và H. T. Phú, “Xây dựng ứng dụng AI hỗ trợ tóm tắt bài đọc tiếng Việt cho học sinh tiểu học”, HIUJS, vol 36, tr 173–182, tháng 7 2025.

Số

Chuyên mục

KỸ THUẬT VÀ CÔNG NGHỆ

Các bài báo được đọc nhiều nhất của cùng tác giả