จากการไปดูงานมาที่บริษัทที่มีนโยบายเกี่ยวกับ Big Data ที่ชัดเจน สิ่งที่เขาจะใช้เป็น Reference ในการบรรยายเสมอๆ คือ Data Flow หรือ Data Ecosystem ซึ่งเป็นสิ่งที่ทำให้เห็นชัดทั้งระบบว่าการไหลเข้าออกของข้อมูลคืออะไร ปัญหาอยู่ที่ตรงไหน Data pipeline มีลักษณะเช่นไร แต่ละส่วนต้องใช้เครื่องมืออะไร มีการเขียนโค้ดส่วนไหนและใครรับผิดชอบ
อย่างไรก็ตาม หลายองค์กร ไม่มี Flow นี้ และยิ่งไปกว่านั้น ในแต่ละกล่องที่มีความเกี่ยวข้องกัน มีการแยกทีมกันทำงาน และไม่มีการประสานงานกัน ทำให้เกิดช่องว่าในการใช้ข้อมูล จึงเป็นที่มาว่า มีข้อมูล แต่ไม่สามารถนำไปใช้ต่อได้
ปัญหาหน้างานที่เกิดขึ้นคือ เมื่อเราขอให้องค์กรช่วยเขียน Data Workflow กลายเป็นว่าไม่มีใครสามารถเขียนได้ และต่างอ้างกันไป อ้างกันมา เพราะมองว่าไม่ใช่หน้าที่ของตน
และเมื่อเขียน Flow นี้ได้จบ ก็จะพบว่า ข้อมูลหลายส่วนมีความซ้ำซ้อน และไม่ได้ถูกใช้งานจริงแต่อย่างใด
การเขียน Data Flowchart อาจจะยุ่งยากในตอนแรก แต่มันคืองานที่ "จำเป็น" ต้องมี ก่อนที่จะพูดถึง Machine Learning หรือซื้อ BI Software มาใช้งานด้วยซ้ำไป
ดังนั้น วันนี้เราอยากแนะนำให้ทุกองค์กรที่กำลังจะทำ Big Data ไม่ว่าจะเป็น Big Data Management หรือจะทำ Data Science and AI ควรเริ่มจากการเขียน Data Flow ให้ได้เสียก่อน ตั้งแต่ Flow ปัจจุบัน ไปจนถึง Flow ที่อยากให้เป็น แล้วคุณจะเข้าใจแนวทางการทำงานของ Big Data ได้มากขึ้นต่อไป
ทั้งนี้ อยากรณรงค์ให้มีการนำเสนอ Data Flow หรือ Data Ecosystem ทุกสัมมนาที่เกี่ยวกับ Technology หรือ Tech Start Up เพื่อความชัดเจนในเชิงเทคนิค และนั้นยิ่งแสดงให้เห็นได้ว่า ผู้บรรยายมีความเชี่ยวชาญ และเข้าใจ Big Data นั้นจริงๆ
รูป Data Flow นี้ เป็นรูปที่ Coraline ทำขึ้นมาเพื่อเสนอ Solution ให้องค์กรแห่งหนึ่ง