เปรียบเทียบการจัดเก็บข้อมูล 3 แบบ Database, Data Warehouse และ Data Lake
การเก็บข้อมูลเป็นเรื่องสำคัญในงานข้อมูลขนาดใหญ่ (Big Data) โดยทั่วไปการเก็บข้อมูลที่เรารู้จักคุ้นเคยในรูปแบบฐานข้อมูล (Database) ในอดีต เป็นแบบที่มีการเก็บข้อมูลที่มีโครงสร้างชัดเจน (Structured Data) และมีขนาดไม่ใหญ่มาก ซึ่งมีความเร็วในการประมวลผลไม่มากนัก ในปัจุจบันในส่วนของงานการเก็บข้อมูลขนาดใหญ่ เรามักจะพบว่ามีการจัดเก็บในชื่อ Data Warehouse หรือ Data Lake เป็นที่เก็บข้อมูล หลายครั้งทำให้เราเกิดความสับสน ทั้งที่จริงๆแล้วมีความแตกต่างกันมาก ทั้งด้านโครงสร้าง การประมวลผล ไปจนถึงคนและเหฅุผลในการใช้งาน
Database คือ ที่เก็บข้อมูลที่มีโครงสร้างชัดเจน (Structured Data) ในแหล่งข้อมูลที่เดียวกัน สามารถเก็บค้นหาและบอกได้ว่าอะไรอยู่ในนั้น
Data Warehouse คือ ที่เก็บขนาดใหญ่สำหรับข้อมูลที่มีโครงสร้างชัดเจนจากหลายแหล่งรวมกันไว้ โดยที่บริษัทขนาดกลางไปจนถึงขนาดใหญ่มักจะมีไว้ใช้ในการแชร์ข้อมูลระหว่างทีมหรือระหว่างแผนก นักวิเคราะห์ธุรกิจ (Business Analyst) สามารถดึง insight ออกมา ทำเป็นรายงานไว้สำหรับการตัดสินใจด้านธุรกิจของฝั่งบริหาร เรียกได้ว่าเป็นแกนหลักสำหรับการวิเคราะห์ข้อมูลเลยทีเดียว
Data Lake คือ ที่เก็บขนาดใหญ่ที่สามารถเก็บข้อมูลได้ทุกรูปแบบจากหลายแหล่งโดยที่ไม่ต้องมีการแปลงข้อมูลก่อน มักใช้เก็บข้อมูลที่ได้มาเบื้องต้นหรือข้อมูลดิบ (Raw) สามารถเก็บได้ท้งข้อมูลที่มีโครงสร้าง (Structured Data), ข้อมูลกึ่งโครงสร้าง (Semi-Structured Data) ข้อมูลที่เกือบจะมีโครงสร้างในระดับหนึ่งแต่ก็ต้องนำมาจัดให้อยู่ในรูปแบบที่ง่ายต่อการใช้งานก่อน เช่น JSON, XML และ HTML และข้อมูลที่ไม่มีโครงสร้างแน่นอน (Unstructured Data) ที่ไม่สามารถบอกได้เลยว่าโครงสร้างเป็นอย่างไร เช่น ข้อความ รูปภาพ หรือเสียง
Database | Data Warehouse | Data Lake | |
คำนิยาม | การเก็บข้อมูลที่มีโครงสร้างชัดเจนจากแหล่งข้อมูลหนึ่งไว้ในที่เดียวกัน | การเก็บข้อมูลที่มีโครงสร้างชัดเจนจากหลายแหล่งข้อมูลไว้ในที่เดียวกัน | การเก็บข้อมูลทุกรูปแบบจากหลายแหล่งข้อมูลไว้ในที่เดียวกัน |
ข้อมูลที่เก็บ | ข้อมูลที่มีโครงสร้างซัดเจน | ข้อมูลที่มีโครงสร้างชัดเจน, ข้อมูลกึ่งโครงสร้าง | ข้อมูลที่มีโครงสร้างซัดเจน, ข้อมูลกึ่งโครงสร้าง, ข้อมูลที่ไม่มีโครงสร้าง |
การใช้งาน | ดึงข้อมูลทำรายงาน, วิเคราะห์ข้อมูล, ระบบอัตในมัติ, สำหรับธุรกิจขนาดเล็ก | ดึงข้อมูลทำรายงาน, วิเคราะห์ข้อมูล, แลกเปลี่ยนระหว่างแผนก สำหรับธุรกิจขนาดกลางถึงใหญ่ | งานด้าน Data Science, วิเคราะห์ข้อมูล real time, สร้างโมเดล ML |
ตัวอย่างเทคโนโลยีที่ใช้ | Oracle. PostgreSQL, MongoDB MySQL, Microsoft SOL Server | Snowflake, Yellowbrick Teradata, Amazon Redshift | Hadoop, Azure, Amazon S3 |
----------------------------------------------------------------
สนใจข้อมูลเพิ่มเติมดูที่
Big Data รวมข้อมูลและเรื่องราวที่เกี่ยวกับข้อมูลขนาดใหญ่ (Big Data)
----------------------------------------------------------------