Big Data เรื่องทะเลสาบข้อมูล (Data Lake)
แหล่งข้อมูลขนาดใหญ่หรือทะเลข้อมูล (Data Lake) คำนี้เริ่มเข้ามาพร้อมกับคำว่า Big Data เกิดขึ้นเนื่องจากมีการนำเอาข้อมูลจากแหล่งข้อมูลภายนอกองค์กร หรือแหล่งข้อมูลจากเครือข่ายข้อมูล (Network) ที่มีกระจายไปทั่วโลกมาใช้มากขึ้น โดยปริมาณข้อมูลจากแหล่งภายนอกนั้นจะมีเพิ่มอย่างต่อเนื่องและมีแนวโน้มที่จะเติบโตแบบก้าวกระโดดมากขึ้น ปัญหาของ Data Lake ข้อมูลที่จัดเก็บคือ
- ข้อมูลดิบมีจำนวนมากมายขนาดใหญ่
- ข้อมูลไม่มีรูปแบบที่แน่นอน จึงดูเป็นข้อมูลที่ยังซับซ้อนยากในการใช้ ต้องมีการจัดการข้อมูลเบื้องต้น เพื่อทำให้เป็นข้อมูลที่มีโครงสร้างข้อมูล และลดขนาดข้อมูลลงไปอีกด้วย
- การเข้าถึงข้อมูลไม่สามารถเข้าถึงได้ง่ายนักหากขาดความรู้ความเข้าใจ ต้องใช้ความสามารถจำเป็นต้องการผู้เชี่ยวชาญเข้ามาจัดการข้อมูลเพื่อให้ใช้งานได้ มักใช้เจ้าหน้าที่วิเคราะห์ข้อมูล (Data Scientist) ที่ต้องมีพื้นฐานความรู้มากด้านวิทยาศาตร์ ให้ความสำคัญกับปัญหาคุณภาพของข้อมูลอย่างมาก
ปัจุจบันข้อมูลใหม่จะถูกสร้างขึ้นตลอดเวลาผ่านเครือข่ายการสื่อสารในโลกอินเทอร์เน็ต การที่เข้าสู่ยุคโลกดิจิทัลลที่ทุกกิจกรรมมักถูกขับเคลื่อนด้วยระบบคอมพิวเตอร์ ข้อมูลทุกอย่างเริ่มมีการเปลี่ยนสภาพไปเป็นรูปแบบข้อมูลดิจิตอล (Digital Format) คนเริ่มทำงานบน คอมพิวเตอร์ มือถือ หรือแท็บเล็ตมากขึ้น เกิดมีข้อมูลมากขึ้นเป็นที่มาของคำว่า Big Data การจัดการกับข้อมูลที่มีแบบเดิมคือข้อมูลที่มีในคลังข้อมูลและมีรูปแบบโครงสร้างข้อมูลที่ชัดเจนเริ่มไม่สามารถทำได้ จึงมีการคิดค้นพัฒนาระบบการจัดการข้อมูลประเภทนี้เรียกว่า Data Lake Architecture เพื่อมาแก้ไขข้อจำกัดหลายอย่างของ Data Warehouse ที่ใช้กันมานานเช่น
- ปริมาณข้อมูล เนื่องจากการเพิ่มปริมาณข้อมูลปัจจุบันมีจำนวนมากมายมหาศาล ส่วนใหญ่จะเป็นข้อมูลไร้โครงสร้าง (Unstructured) มีการเกิดเพิ่มขึ้นตลอดเวลา ทั้งข้อมูลที่มีประโยชน์และไม่มีประโยชน์มีการเก็บอยู่รวมกัน ทำอย่างไรที่จะวิเคราะห์ข้อมูลที่มีให้เกิดประโยชน์ในทางธุรกิจ เริ่มมีการคิดค้นวิธีการจัดการข้อมูลที่เรียกว่า Data Lake Architecture แล้วเกิดอาชีพใหม่ที่เป็นที่ต้องการขององค์กรธุรกิจคือ Data Science เพื่อมาช่วยวิเคราะห์หาประโยชน์จากข้อมูลเหมือนที่หลายองค์กรได้นำมาใช้เช่น Google, Facebook, Twitter หรือ YouTube เป็นต้น องค์กรที่ประสบความสำเร็จมักจะมีการวิเคราะห์ข้อมูลของลูกค้าทั้งที่มีและที่หาได้ มาใช้เพื่อวางแผนออกแบบสร้างสินค้าและบริการนี้ ในมุมของเรา
- การทำงานด้วยข้อมูล (Data Driven Business) ปัจจุบันจะเน้นการนำข้อมูล ทั้งที่มีภายในขององค์กรเช่น ข้อมูลการขาย ข้อมูลเกี่ยวกับสินค้า ข้อมูลเกี่ยวกับพนักงาน ข้อมูลของลูกค้า ข้อมูลคู่แข่ง และข้อมูลภายนอกองค์กรเช่น ข้อมูล Social Network, Email, Website log เป็นต้น ทำการรวบรวมจัดแบ่งกลุ่มและเริ่มวิเคราะห์ เป็นการทำงานรูปแบบใหม่ที่เรียกว่า Data Driven Business แทนการทำงานโดยใช้สัญชาตญาณบุคคลหรืออารมณ์ หรือแม้กระทั่งประสบการณ์ในอดีต เพราะปัจจุบันในเปลี่ยนแปลงนั้นรวดเร็ว ความสำเร็จในอดีตจึงไม่สามารถใช้ได้ในปัจจุบันในบางครั้ง การทำงานภายใต้การตัดสินใจด้วยข้อมูลหรือ Data Driven ถูกพิสูจน์แล้วในประเทศที่พัฒนาและบริษัทขนาดใหญ่ของโลกที่เป็นผู้นำในด้านต่างๆอยู่ในขณะนี้
- ราคาเครื่องมือและอุปกรณ์ในการจัดเก็บข้อมูล เนื่องจากอุปกรณ์และเครื่องมือที่ใช้ในการเก็บบันทึกข้อมูลเช่น Hard disk, USB Disk หรือ Storage Media อื่นๆ ที่เคยมีราคาจะสูงตามปริมาณความจุนั้นมีแนวโน้มจะถูกลงและมีประสิทธิภาพดีเพิ่มมากขึ้นเรื่อยๆ เป็นเหตุผลว่าให้คนเริ่มเก็บข้อมูลทุกอย่าง เพราะบางข้อมูลอาจไม่สามารถย้อนกลับไปเก็บข้อมูลเหล่านั้นได้ ซึ่งลดข้อจำกัดของระบบการจัดการข้อมูลแบบ Enterprise Data Warehouse (EDW) ในอดีตที่เคยมีราคาสูง ดังนั้นบ่อยครั้งจึงต้องเลือกที่จะเก็บข้อมูลเพียงเฉพาะที่จำเป็นเท่านั้น ทำให้เกิดการสูญเสียข้อมูลบางอย่าง
- การ Transform Data ทำให้เสียทั้งเวลาและประสิทธิภาพ คือ การแปลงข้อมูลให้อยู่ในรูปแบบโครงสร้างที่กำหนดตามการออกแบบของ Data Analyse ซึ่งทำตามความต้องการของธุรกิจ และเมื่อมี requirement เกิดขึ้นก็ต้องไปหาข้อมูล และนำมาออกแบบ Database Schema แล้วทำ Data Transform และเมื่อมี requirement ใหม่อีกก็ต้องทำเช่นนี้อยู่เรื่อยไป
ดัดแปลงภาพจาก http://www.datasciencecentral.com/profiles/blogs/demystifying-data-lake-architecture
- การทำงาน Data Lake จะมีการทำ 2 เรื่องคือ E (Extract Data) และ L (Loader Data) โดยจะทำการนำเข้าข้อมูลเฉพาะที่ต้องการ และส่งไปเก็บยัง Storage โดยตรง ต้องการที่จะอยากรู้ในเรื่องอะไร ค่อยวิเคราะห์จัดทำ Query หรือใช้ Analytical Sandboxes เพื่อหา และในปัจจุบัน มี Software ประเภท Self Services BI มากมาย ที่ใช้งานง่ายจนถึงขั้นไม่ต้องเขียน code กันเลยทีเดียว ทำให้เกิดปรากฎการณ์ Users Driven แทน IT Driven เหมือนในปัญหา Enterprise Data Warehouse ที่เกิดขึ้น
ที่มา http://www.digitalthailand.in.th/digital-thailandplan
----------------------------------------------------------------
สนใจข้อมูลเพิ่มเติมดูที่
BI ความรู้เบื้องต้นเกี่ยวกับระบบธุรกิจอัจฉริยะ (introduction to business intelligence)
Big Data รวมข้อมูลและเรื่องราวที่เกี่ยวกับข้อมูลขนาดใหญ่ (ฺBig Data)