การทำเหมืองข้อความ
จากวิกิพีเดีย สารานุกรมเสรี
การทำเหมืองข้อความ (อังกฤษ: text mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูลเอกสาร (Knowledge Discovery in Document Databases) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อความจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อความ คือ กระบวนการที่กระทำกับข้อความ(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อความนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง หลักคณิตศาสตร์ หลักการประมวลเอกสาร (Document Processing) หลักการประมวลผลข้อความ (Text Processing) และหลักการประมวลผลภาษาธรรมชาติ (Natural Language Processing)
ความรู้ที่ได้จากการทำเหมืองข้อความมีหลายรูปแบบ ได้แก่
- การสรุปเอกสารข้อความ (Document Summarization)
เป็นการลดความซับซ้อนและขนาดของเอกสารข้อความโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป
- การแบ่งประเภทเอกสารข้อความ (Document classification)
จัดแบ่งประเภทของกลุ่มเอกสารข้อความออกเป็นคลาส โดยการใช้ชุดข้อมูลตัวอย่างของเอกสารข้อความที่เรียกว่า Training Set สำหรับสร้าง Classifier Model และทดสอบ Classifier Model ด้วย Test Set ขั้นตอนวิธี ได้แก่ Supervised Learning Neural Networks, C4.5 Decision Tree
- การแบ่งกลุ่มเอกสารข้อความ (Document clustering)
จัดแบ่งเอกสารข้อความออกเป็นกลุ่ม โดยใช้การวัดความคล้ายคลึงและความแตกต่างของคุณลักษณะของเอกสารข้อความ เพื่อนำไปใช้ประโยชน์ในด้านการข่าว ข้อมูลเอกสารจะถูกแปลงให้เป็นชุดข้อมูลตัวเลขโดยวิธีการ DFxIDF (Vector Space Model) จากนั้นถึงใช้ขั้นตอนวิธีการแบ่งกลุ่มข้อมูล ได้แก่ K-Mean, Unsupervised Learning Neural Networks, Hierarchical Clustering
[แก้] ขั้นตอนการทำเหมืองข้อความ
- ทำความเข้าใจปัญหา
- ทำความเข้าใจข้อมูล
- เตรียมข้อมูล (Text Corpus: Training set, Test set)
- สร้างแบบจำลอง จากขั้นตอนวิธี
- ประเมิน
- นำไปใช้งาน
[แก้] ดูเพิ่ม
- คลังข้อมูล (Data warehouse)
- การทำเหมืองข้อมูล (Data mining)
- การทำเหมืองเว็บ (Web mining)
- ฐานข้อมูล (Database)
[แก้] แหล่งข้อมูลอื่น
- KDnuggets - a portal for Data Mining, Knowledge Discovery, Genomic Mining, Web Mining
- Data Mining whitepapers, webcasts and case studies
- Open Directory Project - Data Mining websites
- กลุ่มวิจัยในประเทศไทย