Data Lake, Data Governance, Data Analytics, Data Cleansing เหมือนจะเป็นหัวข้อโครงการคนละหัวข้อกัน แต่ทั้งหมดนี้ ถือเป็นหัวข้อในการดำเนินโครงการ Big Data โดยทั้งสิ้น เพียงแต่ผู้เชี่ยวชาญและแนวทางในการแก้ปัญหาในแต่ละหัวข้อ อาจจะไม่ใช่คนเดียวกัน
โครงการ Data Lake คือ โครงการเก็บข้อมูลกลาง ในรูปแบบดิบ ๆ โดยไม่จำเป็นต้องจัดโครงสร้างของข้อมูลให้พร้อมใช้ ทั้งนี้ ในการออกแบบ Data Lake ที่ดี จะต้องออกแบบให้มีการใช้ทรัพยากรที่เหมาะสม เช่น เก็บเป็นสกุลไฟล์ที่เหมาะต่อความถี่ในการใช้งาน เป็นต้น การทำ Data Lake เป็นรากฐานของการทำโครงการ Big Data ทั้งหมด เพียงแต่ผลลัพธ์ของการทำ Data Lake จะไม่ได้อยู่ในรูปแบบที่จับต้องได้ แต่การมี Lake จะทำให้การต่อยอดไปโครงการอื่น ๆ ทำได้สะดวกมากขึ้น
นอกจากนี้ใน Lake ไม่จำเป็นต้องเก็บเฉพาะข้อมูลภายใน แต่สามารถเก็บข้อมูลภายนอกอื่น ๆ ได้อีกด้วย ถ้าไม่มี Data Lake การดำเนินโครงการ จะต้องมีขั้นตอนในการค้นหาข้อมูล และสร้าง Lake ย่อย ๆ อยู่ร่ำไป ส่วน Data Warehouse จะเป็นการเก็บข้อมูลที่มีโครงสร้างพร้อมใช้ ซึ่งอาจจะเป็นข้อมูลที่ Aggregate มาจาก Lake หรือเป็นข้อมูลที่จัดโครงสร้างมาจาก Lake ก็ได้
โครงการ Data Governance คือ การกำหนดสิทธิในการเข้าถึงและดูแลข้อมูล รวมไปถึงการวางโครงสร้างของระบบข้อมูล จึงเกี่ยวข้องกับเรื่อง Data Infrastructure, Data Privacy และ Data Security ด้วย แต่การจะดำเนินโครงการ Data Governance ได้ จะต้องมีการวาง Data Architecture ให้เรียบร้อยเสียก่อน และจำเป็นต้องมี Data Dictionary เพื่อให้สามารถระบุสถานะของข้อมูล ตั้งแต่ แหล่งกำหนด ผู้รับผิดชอบ โครงสร้างของข้อมูล และระยะเวลาในการเก็บ ผลลัพธ์ที่ได้จากการทำ Data Governance คือ ช่องทางที่เปิดให้ผู้ใช้งานสามารถเข้าถึงข้อมูลตามสิทธิของตัวเองได้ เพื่อประหยัดเวลาในการ Query ข้อมูล และลดการทำงานซ้ำซ้อนของทีม IT
โครงการ Data Analytics คือ โครงการวิเคราะห์ข้อมูล ซึ่งอาจใช้ทั้งข้อมูลภายนอกและข้อมูลภายใน ถ้าเป็นการวิเคราะห์เพียงครั้งเดียวหรือชั่วคราว จะไม่จำเป็นต้องขึ้นระบบ แต่หากเป็นการวิเคราะห์แบบอัตโนมัติ เป็นการสร้าง Machine Learning หรือมีการใช้ AI จะจำเป็นต้องนำระบบประมวลผลนั้นไปขึ้นระบบ ซึ่งระบบนี้เกี่ยวข้องกับระบบ Big Data ในทางตรง ผลลัพธ์ที่ได้จากการดำเนินโครงการ Data Analytics คือ Dashboard ที่สามารถแสดงผลลัพธ์ได้อัตโนมัติ หรือการกระทำอัตโนมัติ เช่น การส่ง Auto Email, การตอบกลับอัตโนมัติ, การแปลภาษา หรือ การกระทำอื่นๆ ที่เลียนแบบพฤติกรรมของมนุษย์
โครงการ Data Cleansing คือ การปรับปรุงคุณภาพของข้อมูล ในการทำงานจริง จะแบ่งออกเป็น 2 ส่วน ได้แก่ การปรับปรุงคุณภาพในเชิงโครงสร้างและการปรับปรุงคุณภาพก่อนสร้าง Model
ในส่วนแรก คือ ส่วนการปรับปรุงคุณภาพเชิงโครงสร้าง ควรดำเนินการตั้งแต่เริ่มต้นเก็บข้อมูล โดยการระบุคุณสมบัติของข้อมูลให้ดี เช่น วัน/เดือน/ปี ชื่อภาษาอังกฤษ หรือภาษาไทย เก็บเป็น Format อะไร เป็นต้น ทั้งนี้ ในส่วนของการปรับปรุงคุณภาพก่อนสร้าง Model จะเกิดขึ้นได้ก็ต่อเมื่อนำข้อมูลนั้นไปสร้าง Model และมีการทำ Exploratory Data Analysis เช่น การเช็คความ Bias ของข้อมูล การวิเคราะห์ Outlier เป็นต้น Data Cleansing เป็นโครงการที่ใช้ระยะเวลานานที่สุด แต่เป็นโครงการที่ต้องทำ และเป็นส่วนหนึ่งของการทำงานในทุก ๆ โครงการ
ตามทฤษฎีแล้ว คงไม่มีใครบอกได้ว่า จะต้องทำอะไรก่อนหลัง เพราะแต่ละเรื่อง ต้องการผู้เชี่ยวชาญในการแก้ปัญหาที่แตกต่างกัน อย่างไรก็ตาม ในเชิงการทำงาน สิ่งที่ควรดำเนินการก่อน คือ การมี Data Lake โดยไม่จำเป็นต้องเป็น Lake ที่สมบูรณ์ อาจจะเป็น Lake ย่อยๆ ร่วมกับการดำเนินโครงการอื่น ค่อย ๆ สะสมกลายเป็น Lake ใหญ่ขององค์กร ส่วนการดำเนินโครงการ Data Analytics กับ Data Cleansing จะแยกส่วนของจากการทำ Data Management ก็ได้ (อันได้แก่ การสร้าง Data lake การเชื่อมโยงข้อมูล การออกแบบ Data Infrastructure และการทำ Data Governance) แต่หากมี Data Management ที่ดี จะทำให้การดำเนินโครงการอื่น ๆ สามารถกระทำได้สะดวกและรวดเร็วขึ้น
ดังนั้น คำถามที่ว่า Data Lake, Data Governance, Data Analytics, Data Cleansing ควรทำอะไรก่อน? คงตอบชัดเจน 100% ไม่ได้ แต่แนวโน้มที่ชัดเจนที่สุด คือ การมี Data Lake ก่อน และจะต้องมี Data Dictionary ด้วย เพื่อให้รู้ว่า ในระบบที่เก็บข้อมูลนั้น มีข้อมูลอะไรบ้าง และมีสถานะของข้อมูลเป็นอย่างไร
แม้หัวข้อในการดำเนินโครงการจะแยกส่วนกัน แต่สุดท้ายแล้ว โครงการทั้งหมดนี้มีวัตถุประสงค์ในการดำเนินการเดียวกัน นั้นก็คือการใช้ประโยชน์จากข้อมูล ที่จะต้องมีการระบุแหล่งข้อมูล เชื่อมโยงข้อมูล จัดเก็บข้อมูล วิเคราะห์ข้อมูล และแสดงผลลัพธ์จากการวิเคราะห์ ทั้งหมดนี้ คือ องค์ประกอบของโครงการ Big Data โดยทั้งสิ้น
We turn your DATA into your KEY of success.
เราพาคุณขับเคลื่อนสู่ความสำเร็จด้วยข้อมูล
คอราไลน์ พร้อมให้คำปรึกษาและพัฒนาโครงการ Big Data, Data Governance, Data Management, Data Analytics, Data Driven Transformations, AI, ChatGPT
สนใจบริการติดต่อ
Tel: 02-096-4465
Email: inquiry@coraline.co.th
Facebook: https://www.facebook.com/coralineltd
Comments