งานข้อมูลขนาดใหญ่ ขั้นตอนการทำงาน (Big Data Operational) มีดังนี้
- การรวบรวมข้อมูล (Data collection) เป็นการรวบรวมข้อมูลจากแหล่งต่าง ๆ เช่น อุปกรณ์ตรวจวัดค่าหรือเซ็นเซอร์ ข้อมูลในช่องทางโซเชียลมีเดีย เอกสารการทำธุรกรรมบัญชี และแหล่งข้อมูลอื่นๆ โดยข้อมูลที่รวบรวมจะมีในหลายรูปแบบ เช่น ข้อมูลมีโครงสร้าง (structured data) ข้อมูลกึ่งมีโครงสร้าง (semi-structured data) หรือข้อมูลในรูปแบบที่ไม่มีโครงสร้าง (unstructured data)
- การจัดเก็บข้อมูล (Data storage) ข้อมูลที่รวบรวมจะต้องถูกจัดเก็บในลักษณะที่ทำให้สามารถเข้าถึงการประมวลผลได้ง่าย ซึ่งมักจะเกี่ยวข้องกับการใช้แพลตฟอร์มข้อมูลขนาดใหญ่ เช่น Hadoop หรือโซลูชันการจัดเก็บข้อมูลบนคลาวด์
- การประมวลผลข้อมูลล่วงหน้า (Data pre-processing) เป็นการปรุงปรุงจัดการข้อมูลและเปลี่ยนแปลงข้อมูลให้เป็นรูปแบบที่มีการกำหนดไว้ ให้สามารถนำมาวิเคราะห์ร่วมกับข้อมูลที่มีในระบบได้ง่าย ซึ่งในขั้นตอนนี้จะรวมถึงการการจัดการลบและแก้ไขข้อมูลที่ไม่เกี่ยวข้อง แก้ไขข้อผิดพลาด และแปลงข้อมูลเป็นรูปแบบมาตรฐาน
- การวิเคราะห์ข้อมูล (Data analysis) เกี่ยวข้องกับการใช้เครื่องมือและเทคนิคในการเปิดเผยข้อมูลเชิงลึกและรูปแบบในข้อมูล ซึ่งอาจรวมถึงวิธีการวิเคราะห์ข้อมูลแบบดั้งเดิม เช่น การวิเคราะห์ทางสถิติ ตลอดจนเทคนิคขั้นสูง เช่น การเรียนรู้ของเครื่อง
- การแสดงข้อมูล (Data visualization) เป็นการนำเสนอข้อมูลเชิงลึกและรูปแบบที่ค้นพบผ่านการวิเคราะห์ข้อมูลในรูปแบบภาพ เช่น แผนภูมิและกราฟ เพื่อให้เข้าใจและสื่อสารผลลัพธ์ได้ง่ายขึ้น
- การตีความข้อมูล (Data interpretation) สิ่งนี้เกี่ยวข้องกับการทำความเข้าใจความหมายของข้อมูลเชิงลึกและรูปแบบที่ค้นพบผ่านการวิเคราะห์ข้อมูล และใช้ความเข้าใจนั้นในการตัดสินใจหรือขับเคลื่อนการดำเนินการ
- การจัดการข้อมูล (Data management) สิ่งนี้เกี่ยวข้องกับการจัดการข้อมูลและโครงสร้างพื้นฐานที่ใช้ในการจัดเก็บและประมวลผลอย่างต่อเนื่อง เพื่อให้แน่ใจว่าข้อมูลยังคงถูกต้องและเป็นปัจจุบัน
ขั้นตอนเหล่านี้เป็นส่วนหนึ่งของกระบวนการวิทยาศาสตร์ข้อมูลที่กว้างขึ้น และขั้นตอนเฉพาะที่เกี่ยวข้องในโครงการข้อมูลขนาดใหญ่จะแตกต่างกันไปขึ้นอยู่กับข้อกำหนดและเป้าหมายเฉพาะของโครงการ
----------------------------------------------------------------
สนใจข้อมูลเพิ่มเติมดูที่
Big Data รวมข้อมูลและเรื่องราวที่เกี่ยวกับข้อมูลขนาดใหญ่ (Big Data)