กระบวนการค้นพบความรู้ในการวิเคราะห์ข้อมูล (Knowledge Discovery in Databases Process: KDD) คือ องค์ความรู้ (knowledge extraction) ที่ได้จากการวิเคราะห์ข้อมูล (Data) โดยใช้กระบวนการค้นหาและแยกข้อมูลคัดเลือกเอาข้อมูลที่มีประโยชน์ ออกจากเอกสารหรือข้อมูลขนาดใหญ่ (Big Data) กระบวนการนี้จะทำการค้นหาลักษณะแฝงของข้อมูลที่อยู่ในกลุ่มข้อมูลจํานวนมาก ซึ่งอาจเรียกว่าการทำเหมืองข้อมูล (Data Mining) เป็นกระบวนการที่สําคัญในการค้นหาลักษณะที่น่าสนใจของข้อมูล เช่น ลักษณธของข้อมูลที่มี รูปแบบความสัมพันธ์ การจัดตำแหน่งข้อมูล การรวมกลุ่มและการกระจายตัว การเปลี่ยนแปลงโครงสร้างข้อมูลที่มี หรือลักษณะที่ผิดปกติของข้อมูล ที่พบจากการวิเคราะห์ข้อมูลจํานวนมากที่มีการเก็บไว้ในฐานข้อมูลหรือแหล่งที่เก็บข้อมูลอื่นที่เรียกว่าข้อมูลขนาดใหญ๋ ซึ่งวิธีการที่ค้นหาและนํามาใช้ในการทําคือ การทำเหมืองข้อมูลก็มีวัตถุประสงค์ที่แตกต่างกันหลายวิธีขึ้นอยู่กับผลลัพธ์ของกระบวนการที่ต้องการ ดังนั้นจึงนําเสนอวิธีการที่หลากหลายสําหรับเป้าหมายที่แตกต่างเพื่อให้ได้ผลลัพธ์ที่เหมาะสมตามที่ต้องการหลังจากนําไปใช้งานแล้ว และเนื่องจากความแพร่หลายของการจัดเก็บข้อมูล ในลักษณะที่เป็นรูปแบบทางอิเล็กทรอนิกส์ และความต้องการในการเปลี่ยนข้อมูลเหล่านั้นให้เป็นข้อมูลที่มีประโยชน์ต่อการนําไปประยุกต์ใช้ในงานด้านต่าง ๆ เช่น การจัดการพยากรณ์ การวางแผนเพื่อการจัดการ การวิเคราะห์ด้านการตลาด การบริหารธุรกิจสมัยใหม่ หรือระบบช่วยสนับสนุนการตัดสินใจ เป็นต้น ดังนั้นจึงทําให้มีนำนำเอาวิธีการทำเหมืองข้อมูลมาใช้เพิ่มมากขึ้น กระบวนการค้นหาลักษณะแฝงของข้อมูลที่มีประโยชน์ในฐานข้อมูล (Knowledge Discovery in Database: KDD) ซึ่งมี 5 ขั้นตอนที่สำคัญ ดังนี้
1. การคัดเลือกข้อมูล (Data Selection) เป็นการระบุถึงแหล่งข้อมูลที่จะนํามาใช้ รวมถึงการนําข้อมูลที่ต้องการออกมาจากฐานข้อมูล เพื่อทําการพิจารณาในเบื้องต้นต่อไป
2. การจัดเตรียมข้อมูล (Data Preprocessing) หรือ การกรองข้อมูล (Data Cleaning) เป็นกระบวนการที่ทําให้เกิดความมั่นใจในคุณภาพของข้อมูล ที่จะนํามาใช้วิเคราะห์ว่าถูกต้อง โดยการนําข้อมูลที่ไม่ถูกต้องออก
3. การแปลงรูปแบบข้อมูล (Data Transformation) เป็นการแปลงข้อมูลที่เลือกมาให้อยู่ในรูปแบบที่เหมาะสม สําหรับการนําไปใช้วิเคราะห์ตามอัลกอริทึม (Algorithm) และแบบจําลองที่ใช้ในการทำเหมืองข้อมูลต่อไป
4. การทำเหมืองข้อมูล (Data Mining) โดยการใช้เทคนิคภายในการทำเหมืองข้อมูล สามารถแบ่งกลุ่มได้เป็น 2 ประเภท คือ
- Predictive Data Mining คือ การคาดคะเนลักษณะหรือประมาณค่าที่ชัดเจนของข้อมูลที่จะเกิดขึ้น โดยใช้พื้นฐานจากข้อมูลที่ผ่านมาในอดีต
- Descriptive Data Mining คือ การหาแบบจําลองเพื่ออธิบายลักษณะบางอย่างของข้อมูลที่มีอยู่ ซึ่งส่วนใหญ่จะเป็นลักษณะการแบ่งกลุ่มให้กับข้อมูล
5. การตีความและประเมินผล (interpretation / Evaluation) คือ การวิเคราะห์แปลความหมายและการประเมินผลลัพธ์ที่ได้ ว่ามีความเหมาะสมหรือตรงกับวัตถุประสงค์ที่ต้องการหรือไม่ โดยทั่วไปมักมีการนำเสนอหรือแสดงผลในรูปแบบที่สามารถเข้าใจได้ง่ายเช่น กราฟ หรือรูปภาพ เป็นต้น
----------------------------------------------------------------
สนใจข้อมูลเพิ่มเติมดูที่
การวิเคราะห์ข้อมูล (Data Analytics) รวมข้อมูล