ก่อนอื่น มาวิเคราะห์กันก่อนว่าทำไมข้อมูลไม่สะอาด ส่วนใหญ่ที่ข้อมูลไม่สะอาดก็เป็นเพราะกรอกข้อมูลไม่ถูก ไม่มีระบบให้กรอกอย่างเหมาะสม ทำให้กระบวนการสร้างข้อมูลไม่ถูกต้อง และมักจะทราบถึงปัญหาข้อมูลไม่มีคุณภาพก็เมื่อจำเป็นต้องนำข้อมูลไปใช้งาน ทำให้ต้องมีกระบวนการทำความสะอาดข้อมูล
ดังนั้นการแก้ไขก็ควรจะแก้ที่ต้นเหตุ ไม่ใช่ที่ปลายเหตุ นั่นคือ การมีนโยบายให้ชัดเจนว่าชุดข้อมูลแต่ละชุดต้องกรอกรูปแบบไหน กรอกในระบบไหน มีใครเป็นคนรับผิดชอบ ผ่านจากกระบวนการกรอกก็ต้องมีระบบตรวจสอบ โดยเฉพาะข้อมูลที่สำคัญที่ผิดไม่ได้ เช่น การกรอกที่อยู่ มีการแบ่งช่องให้ชัดเจน เป็น ถนน ตำบล อำเภอ จังหวัด และรหัสไปรษณีย์ หรือถ้าจำเป็นต้องกรอกข้อมูลเลขบัตรประชาชน จะต้องกรอกตัวเลขให้ครบ 13 หลัก เป็นต้น
นอกจากนี้ การที่ข้อมูลที่ไม่มีคุณภาพ ไม่ได้มีสาเหตุมาจากข้อมูลไม่สะอาดเพียงอย่างเดียว หลายครั้งพบว่า ข้อมูลไม่มีการ Update ให้เป็นปัจจุบัน ทำให้การใช้ข้อมูลจำเป็นต้องใช้ข้อมูลที่ล้หลัง กรณีนี้จะต้องมีการกำหนดนโยบายในการอัพเดตข้อมูลแต่ละชุด และมีการกำหนดผู้รับผิดชอบให้ชัดเจน
เมื่อระบบข้อมูลมีขนาดใหญ่ขึ้น อาจเป็นไปได้ว่า ข้อมูลรูปแบบเดียวกัน มีความซับซ้อนกันในหลายระบบข้อมูล แต่ข้อมูลเหล่านั้น ควรมีค่าที่สอดคล้องกัน เช่น ข้อมูลลูกค้าในระบบ CRM กับระบบ ERP เป็นต้น ในกรณีนี้ จะต้องมีการตรวจสอบในเชิงเทคนิคเพื่อให้ข้อมูลจาก 2 ระบบ สอดคล้องกัน หรือ syn กันให้ได้นั่นเอง
หากองค์กรให้ความสำคัญกับข้อมูลจริงๆ และต้องการให้ข้อมูลมีคุณภาพเพื่อให้พร้อมสำหรับการนำข้อมูลไปใช้งาน จะต้องมีการวางนโยบายด้านคุณภาพข้อมูล ในมิติดังต่อไปนี้
ถูกต้อง
ครบถ้วน
เป็นปัจจุบัน
สอดคล้อง
ตรงตามความต้องการของผู้ใช้
แต่ถ้าสุดท้ายแล้วยังพบเจอปัญหาข้อมูลไม่มีคุณภาพ ก็ต้องมีการส่ง Feedback เพื่อให้มีการปรับปรุงข้อมูล โดยพิจารณากระบวนการในการนำเข้าข้อมูล และการจัดเก็บ ซึ่งควรแก้ไขตั้งแต่ต้นทาง
ดังนั้นกระบวนการ Data Governance จึงสำคัญ เพราะเป็นกระบวนการในการวางนโยบายและมาตรฐานขององค์กร มีคนรับผิดชอบ ทั้งการสร้าง และการเป็นเจ้าของผู้ดูแลข้อมูล โดยเฉพาะ องค์กรขนาดใหญ่ที่มีการเชื่อมโยง และใช้งานข้อมูลจากหลายส่วน
ถ้าไม่มีสิ่งเหล่านี้ มันก็จะกลายเป็นว่า เราต้องทำความสะอาดข้อมูลที่ปลายทางอยู่ร่ำไป ทั้งๆ ที่ต้นเหตุของปัญหามิได้ถูกแก้ไข ๆ จนสุดท้ายผู้ใช้งานก็จะไม่มีความมั่นใจในการใช้ข้อมูล และใช้เวลาไปกับการทำความสะอาดข้อมูลที่ยาวนานเกินไป

Comments