Big Data การทำเหมืองข้อมูลโดยวิธี Cross-Industry Standard Process for Data Mining (CRISP-DM)
ขั้นตอนการทำเหมืองข้อมูล ที่นิยมใช้ในปัจจุบันมีหลายแบบแต่ที่จะนำมากล่าวคือวิธี Cross-Industry Standard Process for Data Mining (CRISP-DM) ที่มีการพัฒนาเป็น Workflow มาตรฐานสำหรับการทำเหมืองข้อมูล ประกอบด้วย 6 ขั้นตอนคือ
1 ทำความเข้าใจระบุโอกาสหรือหาปัญหาที่จะเกิดขึ้นกับธุรกิจ (Business Understanding)กำหนดขอบเขตของข้อมูลที่จะนำวิเคราะห์เพื่อหาความได้เปรียบทางการตลาด เพื่อนำมาแก้ไขปัญหาองค์กร และต้องสามารถระบุผลลัพธ์ที่มีได้
2 ทำความเข้าใจข้อมูล (Data Understander)โดยการรวบรวมข้อมูลที่เกี่ยวข้องให้อยู่รวมกลุ่มกัน คัดเลือกให้เหลือเพียงข้อมูลที่มีความสำคัญต่อการทำงาน
3 เตรียมข้อมูล (Data Preparation)ขั้นตอนนี้จะเป็นขั้นตอนที่ใช้เวลามากที่สุดใน 6 ขั้นตอน เพราะคุณภาพของงานที่ได้นั้นจะดีเพียงใด ต้องขึ้นอยู่กับคุณภาพข้อมูลที่ได้จัดเตรียมในขั้นตอนนี้ การเตรียมข้อมูลประกอบด้วย การคัดเลือกข้อมูล การกลั่นกรองข้อมูล และแปลงรูปแบบของข้อมูล
4 สร้างแบบจำลอง (Modeling) นำผลที่ได้มาทดลองทำแบบจำลอง เพื่อใช้ถ่ายทอดข้อมูลหรือทำการเปลี่ยนแปลงข้อมูลให้อยู่ในรูปสารสนเทศเป็นข้อมูลที่นำไปใช้ประโยชน์ได้จริงในทางธุรกิจ
5 การประเมินผล (Evaluation) เพื่อเป็นการทดสอบผลที่ได้โดยการวัดประสิทธิภาพจากผลลัพธ์ที่ได้มาจัดทำงานจริงและติดตามตรวจสอบผลที่ได้ใหม่ ซึ่งสามารถตรวจสอบได้หลายทางเช่น วัดจากส่วนแบ่งของตลาด วัดจากปริมาณลูกค่า หรือ วัดจากกำไรสุทธิ เป็นต้น
6 การปฏิบัติตามผลเสนอแนะ (Deployment) คือ การนำเอาข้อมูลที่เป็นผลลัพธ์มาลองปฏิบัติจริงกับธุรกิจ โดยแปลงแนวคิดที่มีให้เกิดเป็นการนำไปใช้ประโยชน์ และติดตามรวบรวมผลที่ได้เพื่อการปรับปรุงต่อไป
จากขั้นตอนที่กล่าวมาคือการทำเหมืองข้อมูลในงานระบบทางธุรกิจ เป็นกระบวนการทางสถิติที่เน้นการทำกับข้อมูลที่มีจำนวนมากในหลากหลายรูปแบบ คัดเลือกเฉพาะข้อมูลที่สำคัญและจำเป็นต้องนำมาใช้งาน จัดทำการกำหนดรูปแบบจัดแบ่งกลุ่มลำดับความสำคัญ จากนั้นจึงจะเริ่มค้นหารูปแบบแนวทางและความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยแต่ละขั้นตอนจะอาศัยผลลัพธ์จากอีกขั้นตอนหนึ่งกลายเป็นข้อมูลให้ขั้นตอนต่อไป การทำเหมืองข้อมูลจะช่วยเปลี่ยนข้อมูลดิบให้เป็นสารสนเทศที่มีประโยชน์ การระบุแหล่งข้อมูลที่ถูกต้องจึงเป็นสิ่งที่สำคัญต่อผลลัพธ์ที่ได้จากการวิเคราะห์
----------------------------------------------------------------
สนใจข้อมูลเพิ่มเติมดูที่
Big Data รวมข้อมูลและเรื่องราวที่เกี่ยวกับข้อมูลขนาดใหญ่ (Big Data)