Google Translate Widget by Infofru

Author Site Reviewresults

Big Data เรื่องคลังข้อมูล (Data Warehouse) และทะเลสาบข้อมูล (Data Lake)

 

ปัจจุบันการจัดการกับข้อมูลที่มีแบบเดิมคือ ข้อมูลที่มีในคลังข้อมูลและมีรูปแบบโครงสร้างข้อมูลที่ชัดเจนเริ่มไม่สามารถทำได้ จึงมีการคิดค้นพัฒนาระบบการจัดการข้อมูลประเภท Data Lake Architecture เพื่อมาแก้ไขข้อจำกัดหลายอย่างของ Data Warehouse

คลังข้อมูล (Data Warehouse) คือ คำเรียกแหล่งข้อมูลที่มีการจัดเก็บภายในองค์กร เน้นการใช้ข้อมูลที่มีความเกี่ยวข้องในองค์กรเช่น ข้อมูลของลูกค้า, ข้อมูลการขาย, ข้อมูลเกี่ยวกับสินค้า, ข้อมูลเกี่ยวกับพนักงาน,  ข้อมูลคู่แข่งเป็นต้น Data Warehouse ต้องทำการสร้างเพียง โครงสร้างข้อมูลเดียว สำหรับการใช้วิเคราะห์ทุกเรื่อง ซึ่งเป็นเรื่องที่ยากมาก หรืออาจจะใช้เวลานานในการเริ่มต้นระบบ ต้องมีการดูแลคุณภาพของข้อมูลที่จัดเก็บ และต้องทำการออกแบบ Data model ในส่วนนี้คนที่จะทำการวิเคราะห์ข้อมูลมักใช้ เจ้าหน้าที่วิเคราะห์ข้อมูล (Data Analyst) ดังนั้น Data Warehouse ในอดีตมักดำเนินการโดยใช้ฝ่าย IT เป็นหลัก พบมีปัญหาฝ่าย IT ส่วนใหญ่ที่เป็นพนักงานคอมพิวเตอร์มักจะไม่เข้าใจโจทธ์ทางธุรกิจ จึงทำให้บ่อยครั้งที่มีการนำเสนอข้อมูลที่ไม่สามารถแก้ปัญหาธุรกิจได้ ทำให้ Data Warehouse ขององค์กรส่วนใหญ่จึงมักจะล้มเหลวไม่สามารถใช้ประโยชน์ได้เต็มประสิทธิภาพ และการที่บางครั้งการจัดเตรียมข้อมูลต้องใช้เวลานานกว่าจะสำเร็จ ทำให้บางทีสภาพแวดล้อมทางธุรกิจเปลี่ยนทำให้โจทธ์ทางธุรกิจเดิมที่ใช้ต้องเปลี่ยนตามไปด้วย จึงไม่ทันต่อการเปลี่ยนแปลงในยุคดิจิตอลนี้

แหล่งข้อมูลขนาดใหญ่หรือทะเลข้อมูล (Data Lake) คำนี้เริ่มเข้ามาพร้อมกับคำว่า Big Data เกิดขึ้นเนื่องจากมีการนำเอาข้อมูลจากแหล่งข้อมูลภายนอกองค์กร ข้อมูลจากเครือข่ายข้อมูลที่มีกระจายไปทั่วโลกมาใช้มากขึ้น โดยปริมาณข้อมูลจากแหล่งภายนอกนั้นจะมีเพิ่มอย่างต่อเนื่องและมีแนวโน้มที่จะเติบโตแบบก้าวกระโดดมากขึ้น ปัญหาของ Data Lake ข้อมูลที่จัดเก็บคือ การมีข้อมูลดิบมีจำนวนมากมายขนาดใหญ่ การมีข้อมูลไม่มีรูปแบบที่แน่นอนจึงยังซับซ้อนยากในการนำมาใช้ ต้องมีการจัดการข้อมูลเบื้องต้นเพื่อทำให้เป็นข้อมูลที่มีโครงสร้างข้อมูลและลดขนาดข้อมูลลงไปด้วย รวมถึงการเข้าถึงข้อมูลที่ไม่สามารถเข้าถึงได้ง่ายหากขาดความรู้ความเข้าใจ ต้องใช้ความสามารถจำเป็นต้องการผู้เชี่ยวชาญเข้ามาจัดการข้อมูลเพื่อให้ใช้งานได้ มักใช้เจ้าหน้าที่วิเคราะห์ข้อมูล (Data Scientist) ที่ต้องมีพื้นฐานความรู้มากด้านวิทยาศาตร์ ให้ความสำคัญกับปัญหาคุณภาพของข้อมูลอย่างมาก

ปัจุจบันข้อมูลใหม่จะถูกสร้างขึ้นตลอดเวลาผ่านเครือข่ายการสื่อสารในโลกอินเทอร์เน็ต การที่เข้าสู่ยุคโลกดิจิตอลที่ทุกกิจกรรมมักถูกขับเคลื่อนด้วยระบบคอมพิวเตอร์ ข้อมูลทุกอย่างเริ่มมีการเปลี่ยนสภาพไปเป็นรูปแบบข้อมูลดิจิตอล (Digital Format) คนเริ่มทำงานบน คอมพิวเตอร์ มือถือ หรือแท็บเล็ตมากขึ้น เกิดมีข้อมูลมากขึ้นเป็นที่มาของคำว่า Big Data การจัดการกับข้อมูลที่มีแบบเดิมคือข้อมูลที่มีในคลังข้อมูลและมีรูปแบบโครงสร้างข้อมูลที่ชัดเจนเริ่มไม่สามารถทำได้ จึงมีการคิดค้นพัฒนาระบบการจัดการข้อมูล Data Lake Architecture เพื่อมาแก้ไขข้อจำกัดหลายอย่างของ Data Warehouse ที่ใช้

- ปริมาณข้อมูล เนื่องจากการเพิ่มปริมาณข้อมูลปัจจุบันมีจำนวนมากมายมหาศาล ส่วนใหญ่จะเป็นข้อมูลไร้โครงสร้าง (Unstructured) มีการเกิดเพิ่มขึ้นตลอดเวลา ทั้งข้อมูลที่มีประโยชน์และไม่มีประโยชน์มีการเก็บอยู่รวมกัน ทำอย่างไรที่จะวิเคราะห์ข้อมูลที่มีให้เกิดประโยชน์ในทางธุรกิจ เริ่มมีการคิดค้นวิธีการจัดการข้อมูลที่เรียกว่า Data Lake Architecture แล้วเกิดอาชีพใหม่ที่เป็นที่ต้องการขององค์กรธุรกิจคือ Data Science เพื่อมาช่วยวิเคราะห์หาประโยชน์จากข้อมูลเหมือนที่หลายองค์กรได้นำมาใช้เช่น Google, Facebook, Twitter หรือ YouTube เป็นต้น  องค์กรที่ประสบความสำเร็จมักจะมีการวิเคราะห์ข้อมูลของลูกค้าทั้งที่มีและที่หาได้ มาใช้เพื่อวางแผนออกแบบสร้างสินค้าและบริการนี้ ในมุมของเรา 

- การทำงานด้วยข้อมูล (Data Driven Business) ปัจจุบันจะเน้นการนำข้อมูล ทั้งที่มีภายในขององค์กรเช่น ข้อมูลการขาย ข้อมูลเกี่ยวกับสินค้า ข้อมูลเกี่ยวกับพนักงาน ข้อมูลของลูกค้า ข้อมูลคู่แข่ง และข้อมูลภายนอกองค์กรเช่น ข้อมูล Social Network, Email, Website log เป็นต้น ทำการรวบรวมจัดแบ่งกลุ่มและเริ่มวิเคราะห์ เป็นการทำงานรูปแบบใหม่ที่เรียกว่า Data Driven Business แทนการทำงานโดยใช้สัญชาตญาณบุคคลหรืออารมณ์ หรือแม้กระทั่งประสบการณ์ในอดีต เพราะปัจจุบันในเปลี่ยนแปลงนั้นรวดเร็ว ความสำเร็จในอดีตจึงไม่สามารถใช้ได้ในปัจจุบันในบางครั้ง การทำงานภายใต้การตัดสินใจด้วยข้อมูลหรือ Data Driven ถูกพิสูจน์แล้วในประเทศที่พัฒนาและบริษัทขนาดใหญ่ของโลกที่เป็นผู้นำในด้านต่างๆอยู่ในขณะนี้

- ราคาเครื่องมือและอุปกรณ์ในการจัดเก็บข้อมูล เนื่องจากอุปกรณ์และเครื่องมือที่ใช้ในการเก็บบันทึกข้อมูลเช่น Hard disk, USB Disk หรือ Storage Media อื่นๆ ที่เคยมีราคาจะสูงตามปริมาณความจุนั้นมีแนวโน้มจะถูกลงและมีประสิทธิภาพดีเพิ่มมากขึ้นเรื่อยๆ เป็นเหตุผลว่าให้คนเริ่มเก็บข้อมูลทุกอย่าง เพราะบางข้อมูลอาจไม่สามารถย้อนกลับไปเก็บข้อมูลเหล่านั้นได้ ซึ่งลดข้อจำกัดของระบบการจัดการข้อมูลแบบ Enterprise Data Warehouse (EDW) ในอดีตที่เคยมีราคาสูง ดังนั้นบ่อยครั้งจึงต้องเลือกที่จะเก็บข้อมูลเพียงเฉพาะที่จำเป็นเท่านั้น ทำให้เกิดการสูญเสียข้อมูลบางอย่าง

- การ Transform Data ทำให้เสียทั้งเวลาและประสิทธิภาพ คือ การแปลงข้อมูลให้อยู่ในรูปแบบโครงสร้างที่กำหนดตามการออกแบบของ Data Analyse ซึ่งทำตามความต้องการของธุรกิจ และเมื่อมี requirement เกิดขึ้นก็ต้องไปหาข้อมูล และนำมาออกแบบ Database Schema แล้วทำ Data Transform และเมื่อมี requirement ใหม่อีกก็ต้องทำเช่นนี้อยู่เรื่อยไป  

 

ที่มา www.iok2u.com

ผู้สนับสนุน (Sponser)

Geological Society of Thailand (GST)
อัลปั้มภาพ
iOK2ucom Fanpage Facebook
Orapin Udomtanateera
Big Brother DIP
Fanpage KKUGTA
google
ชมรมเพื่อนเบ็ญจะมะ รุ่น 2521-2526 www.ben21-26.org
กองโลจิสติกส์ กรมส่งเสริมอุตสาหกรรม
Kiattiphong Udomtanateera

.

.

Copyright © 2014. All Rights Reserved.

เว็บไซต์เพื่อแลกเปลี่ยนเรียนรู้และประชาสัมพันธ์ ไม่สามารถใช้อ้างอิงในทางกฏหมาย โปรดตรวจสอบความถูกต้องกับแหล่งที่มาข้อมูลอีกครั้ง

โครงการภายใต้การดูแลของ iOK2u.com พัฒนาเว็บไซต์โดย เกียรติพงษ์ อุดมธนะธีระ

🌏 ติดตามข้อมูลข่าวสารได้จากช่องทางสื่อสาร iOK2u ได้ที่

💻 Web: www.iok2u.com / 💻 Twister: iok2ucom / 💻 Facebook: www.facebook.com/iok2ucom / 💻 YouTube: iok2ucom / 💻 Line: @iok2ucom / 💻 E-Mail: iok2ucom@gmail.com