Big Data เรื่องการทำเหมืองข้อมูล (Data Mining)
โลกของข้อมูลและทิศทางการเติบโตของโลกจากการใช้ข้อมูล บริษัทที่ดำเนินกิจการเกี่ยวกับข้อมูลสารสนเทศ ไม่ว่าจะเป็นส่วน Hardware, Software, Network, Information หรือ Data Managements ล้วนประสบความสำเร็จติดอันดับต้น ๆ แต่อย่างไรก็ดีการก้าวเข้าไปสู่ยุคข้อมูลขนาดใหญ่ (Big Data) ไม่ใช่ว่าจะเกิดผลดีได้เลยต่อทุกคน เพราะหากจะให้เกิดประโยชน์ได้จริงผู้ใช้จะต้องมีความรู้ความเข้าใจ มีความสามารถทำการวิเคราะห์ข้อมูลที่มีอยู่มากมายนั้นให้มาเป็นข้อมูลสารสนเทศที่ดีมีประโยชน์ เทคนิคที่ได้รับการศึกษาและนิยมมามาพูดถึงกันในปัจจุบันคือ การทำเหมืองข้อมูล (Data Mining) ซึ่งจะเน้นการจัดการข้อมูลที่ถูกต้อง จัดกลุ่มค้นหาความสัมพันธ์ในกลุ่มข้อมูล และนำมาสร้างแบบจำลองเพื่อทำนายสิ่งที่จะเกิดขึ้นในอนาคต ความสัมพันธ์ของข้อมูลที่มีในปัจจุบัน
- ข้อมูล (Data) คือ ข้อเท็จจริงหรือสาระที่เกี่ยวข้องกับงานที่ปฏิบัติ อาจเป็นตัวเลขหรือข้อความที่เกิดขึ้นจากการดำเนินงานเองหรือที่ได้จากหน่วยงานอื่นๆ ข้อมูลส่วนใหญ่จะยังไม่สามารถนำไปใช้ประโยชน์หรือใช้ในการตัดสินใจได้ทันที ส่วนใหญ่จะใช้ได้ก็ต่อเมื่อผ่านกระบวนการประมวลผลแล้ว
- ฐานข้อมูล (Database) คือ ระบบที่ใช้ในการเก็บข้อมูลที่มีการใช้ความสัมพันธ์ข้อมูลมาช่วยในการจัดการ จะเน้นการจัดการข้อมูลที่ดีขึ้นเช่น เก็บ เพิ่ม แก้ไข ค้นหา และลบข้อมูล
- คลังข้อมูล (Data Warehouse) คือ การรวมข้อมูลจากหลายฐานข้อมูล มาอยู่ในแหล่งที่สามารถเข้าถึงได้ง่าย โดยอาจกระจายในทางกายภาพ แต่จะต้องสามารถเข้าถึงได้ง่ายต้องมีการแปลงข้อมูลให้เป็นมาตรฐานเดียวกัน ใช้ประโยชน์ได้ในการสืบค้น เรียกดูข้อมูล คัดกรอง สรุปข้อมูล และจัดทำรายงาน
- แหล่งข้อมูลขนาดใหญ่ (Data Lake) คือ แหล่งข้อมูลจากหลายที่ซึ่งเราสามารถเข้าถึงได้ โดยจะอยู่นอกเหนือการเก็บของเรา อาจกระจายในช่องทางเครือข่ายอินเตอรเน็ต หรือจากการเก็บของผู้อื่นที่ไม่ใช่ของเราเอง จะไม่สามารถเข้าถึงได้ง่ายเพราะ มีความหลากหลายในรูปแบบข้อมูล แบบแหล่งอาจเป็นข้อมูลแบบไม่มีโครงสร้าง ต้องมีการจัดการเพื่อแปลงข้อมูลให้เป็นมาตรฐานเดียวกันก่อนจึงจะสามารถนำมาใช้ประโยชน์ได้
- การทำเหมืองข้อมูล (Data Mining) คือ เป็นการนำข้อมูลที่มีจากแหล่งข้อมูลขนาดใหญ่ Data Lake มาทำการวิเคราะห์เพื่อค้นหาความสัมพันธ์ หรือรูปแบบที่จะเป็นประโยชน์จากการใช้ข้อมูล เพื่อจัดทำเป็นสารสนเทศให้กับผู้บริหาร
- สารสนเทศ (Information) คือ ข้อมูลที่ได้ผ่านกระบวนการประมวลผลแล้ว อาจใช้วิธีง่ายทางสถิติหรือใช้เทคนิคขั้นสูงเช่น การวิจัยดำเนินงาน การทำงานเหมืองแร่ข้อมูล เป็นต้น เพื่อเปลี่ยนแปลงสภาพข้อมูลทั่วไปให้อยู่ในรูปแบบที่มีความสัมพันธ์หรือมีความเกี่ยวข้องกัน นำไปใช้ประโยชน์ในการตัดสินใจหรือตอบปัญหาการทำงานได้
การทำเหมืองข้อมูล (Data Mining) เป็นเทคนิคเพื่อค้นหารูปแบบของข้อมูลจากแหล่งข้อมูลในปัจจุบัน ที่มีเป็นจำนวนมากมายมหาศาล โดยแยกข้อมูลที่มีประโยชน์ออกมาใช้งาน จึงเปรียบเทียบคล้ายกับการทำเหมืองแร่ ที่จะต้องทำการแยกเศษหินดินทรายที่ไม่มีค่าและมีปริมาณมาก ให้ออกจากแร่ที่มีมูลค่ามากและมักจะมีปริมาณน้อยนำมาใช้ประโยชน์ได้ การทำเหมืองข้อมูล จะใช้ขั้นตอนวิธีทางสถิติ การเรียนรู้แบบจดจำ และการเรียนรู้ระบบปัญญาประดิษฐ์ ซึ่งจะค้นหาความสัมพันธ์และรูปแบบทั้งหมดซึ่งมีอยู่ในฐานข้อมูล โดยความสัมพันธ์และรูปแบบเหล่านั้นอาจไม่เด่นชัดหรือถูกซ่อนไว้ภายในข้อมูลจำนวนมาก การทำเหมืองข้อมูลจะทำการสำรวจและวิเคราะห์ข้อมูลที่มี ให้อยู่ในรูปแบบเดียวกันมีความหมายและรูปแบบของกฎ โดยความสัมพันธ์หน่วยนี้แสดงให้เห็นถึงความรู้ (Knowledge) ที่มีประโยชน์ในฐานข้อมูล ปัจจุบันองค์กรธุรกิจส่วนใหญ่เผชิญกับปัญหาของข้อมูลดิบจำนวนมาก แต่สารสนเทศที่สามารถนำมาใช้ประโยชน์ได้จริงยังมีน้อย การทำเหมืองข้อมูล จึงเป็นเรื่องที่น่าจะเป็นที่รู้จักและนำมาใช้ประยุกต์ใช้มากในอนาคต เนื่องจากจะช่วยให้สามารถดึงความรู้ออกมาจากข้อมูลจำนวนมากที่ถูกเก็บสะสมและซ่อนไว้
ประโยชน์จาก การทำเหมืองข้อมูล (Data Mining) การทำเหมืองข้อมูลจำเป็นต้องอาศัยบุคลากรจากหลายฝ่ายและต้องอาศัยความรู้จำนวนมากถึงจะได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จากขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะนำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลยก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำเหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง
----------------------------------------------------------------
สนใจข้อมูลเพิ่มเติมดูที่
Big Data รวมข้อมูลและเรื่องราวที่เกี่ยวกับข้อมูลขนาดใหญ่ (Big Data)
----------------------------------------------------------------