Big Data องค์ประกอบของระบบข้อมูลขนาดใหญ่ (Big data Elements)
Big Data องค์ประกอบของระบบข้อมูลขนาดใหญ่ (Big data Elements) การเริ่มต้นทำ Big Data Project ที่ดี คือ การเข้าใจว่าปัญหาขององค์กรคืออะไร อยู่ ณ ส่วนใดขององค์ประกอบของระบบ Data บางที่มีปัญหาเรื่องไม่มีแหล่งที่มาของข้อมูล บางที่มีปัญหาไม่สามารถเชื่อมโยงข้อมูลได้ บางที่มีปัญหาไม่สามารถวิเคราะห์ได้ บางที่ไม่สามารถแสดงผลได้ และหลายที่ มีปัญหาที่ไม่รู้ว่าตัวเองมีปัญหาอะไรประกอบด้วย 5 ส่วน ได้แก่
1. แหล่งที่มาของข้อมูล (Data Source ) เป็นแหล่งข้อมูลต้นน้ำที่จะนำเข้าสู่ระบบ (Input) อาจจะเป็นข้อมูล (Data) ฐานข้อมูล (Data Base) ข้อมูลในโปรแกรมระบบ (Application) หรือสารสนเทศ (Informatione) ที่ได้จากแหล่งต่าง ๆ มักจะมาจากแหล่งข้อมูลที่หลากหลายมีรูปแบบข้อมูลแตกต่างกันไปหลาหลาย เกิดความยากลำบากในการจัดการข้อมูลโครงสร้างแตกต่างกัน ในการที่จะนำมาจัดเตรียมให้ข้อมูลที่นำมารวมกันนั้นมีความพร้อมใช้ต่อไป
2. ช่องทางการเชื่อมโยงข้อมูล (Gateway) การเชื่อมโยงข้อมูล เป็นส่วนที่สำคัญมากและเป็นปัญหาใหญ่ในการทำงาน Big Data ในส่วนนี้ต้องอาศัยทักษะของวิศวกรข้อมูล (Data Engineer) ในส่วนของการเชื่อมโยงข้อมูลโดยการใช้กระบวนการจัดการ ETL (Extract-Transform-Load) หรือโปรแกรม ETL ซึ่งมีหลายแบบ ทั้งเป็นโปรแกรม Software หรือเป็น Function ในโปรแกรม Cloud Computing มีทั้งแบบที่ทำการเขียนโปรแกรมเองและใช้เครื่องมือสำเร็จที่มีอยู่มากมาย การออกแบบช่องทางการเชื่อมโยงข้อมูลจะทำได้อย่างสมบูรณ์จึงจำเป็นต้องทราบก่อนว่าจะนำข้อมูลใดไปทำอะไรต่อบ้าง เพื่อสร้างช่องทางการเชื่อมข้อมูลมาจัดการก่อนที่จะส่งไปเก็บที่คลังข้อมูลต่อไป
3. คลังข้อมูล (Data Warehouse) หรือแหล่งเก็บข้อมูล (Storage) เป็นการรวบรวมเก็บข้อมูลที่ผ่านการจัดการจากแหล่งข้อมูลต่าง ๆ จากหลายแหล่ง มาเก็บไว้เพื่อรอการใช้งานในขั้นตอนต่อไป ซึ่งอาจจะเป็นที่พักข้อมูลให้พร้อมใช้ สำรองข้อมูล หรือเป็นแหล่งเก็บข้อมูลที่มีการเปลี่ยนแปลในอดีต
4. การวิเคราะห์ข้อมูล (Analytics) ส่วนนี้เป็นหน้าที่หลักของ Data Scientist ซึ่งแบ่งงานออกเป็น 2 ลักษณะ คือ การวิเคราะห์เบื้องต้น โดยการใช้วิธีทางสถิติ หรือจะเป็นการวิเคราะห์เชิงลึกโดยการสร้าง Model แบบต่าง ๆ รวมไปถึงการใช้ Machine Learning เพื่อให้ได้ผลลัพธ์เฉพาะจงเจาะในแต่ละปัญหา และแต่ละชุดข้อมูลในส่วนของ Analytics เองก็เช่นกัน เฉพาะ Machine Learning ก็มี Algorithm มากมาย และยังต้องมีการปรับค่า Parameter อีกด้วย ไม่ร่วมไปถึงการออกแบบตัวแปร ว่าจะนำข้อมูลใดมาวิเคราะห์ เพื่อให้ได้ผลลัพธ์อะไร เรียกได้ว่า แค่ความรู้อย่างเดียวไม่ได้ ต้องมีประสบการณ์ในการระบุปัญหา และทักษะในการออกแบบการใช้ Model อีกด้วย
5. การรายงาน (Report) หรือใช้ผลการวิเคราะห์ข้อมูล (Result/Action) ผลลัพธ์ที่ได้จากการวิเคราะห์สามารถนำไปใช้งานได้ 2 รูปแบบ คือ ออกเป็นรายงาน (Report) เพื่อให้ Data Analyst นำผลลัพธ์ที่ได้ไปใช้กับงานทางธุรกิจต่อไป หรือจะเป็นการนำไปกระทำเลยโดยที่ไม่ต้องมีมนุษย์คอยตรวจสอบ ซึ่งจำเป็นต้องมีการเขียนโปรแกรมเพิ่มเพื่อให้มีการกระทำออกไปที่เรียกว่าการทำแบบอัตตโนมัติ Artificial Intelligence
การทำงานในนิเวศน์ข้อมูลขนาดใหญ่ (Big Data Ecosystem) ให้ได้ทั้งหมดทำได้ยากและต้องใช้เวลา จึงควรต้องมีการวางเป้าหมายให้ชัดว่าต้องการอะไร ทำควรเข้าใจในภาพรวมหรือต้องการทำเองให้เป็น
----------------------------------------------------------------
สนใจข้อมูลเพิ่มเติมดูที่
Big Data รวมข้อมูลและเรื่องราวที่เกี่ยวกับข้อมูลขนาดใหญ่ (Big Data)