กำแพงใหญ่ที่ว่านี้ คือ สิ่งที่เป็นอุปสรรค์ ที่ทำให้ไม่สามารถเคลื่อนทัพไปต่อข้างหน้าได้ งานที่ว่านั้น คือ "การจัดการข้อมูล" เรามักจะได้ยินประโยคนี้อยู่บ่อยครั้ง
1. ข้อมูลไม่พอ เช่น ยังไม่ได้เก็บข้อมูลเลย จะวิเคราะห์อะไรได้ 2. ข้อมูลไม่สะอาด เช่น เดี๋ยวกรอกว่า กทม. เดี๋ยวกรอกว่า กรุงเทพฯ ไหนจะ กรุงเทพมหานคร อีก จังหวัดเดียวกันแท้ๆ 3. ข้อมูลซ้ำซ้อน หรือ ไม่สามารถระบุความชัดเจนของข้อมูลได้ เช่น บุคคลบ้านอยู่จังหวัดเลย แต่ทำงานที่สงขลา แล้วจะคิดว่า บุคคลนี้ควรได้รับการดูแลทางการแพทย์ ที่จังหวัดใด 4. ข้อมูลอยู่ไม่เป็นรูปแบบที่สะดวกต่อการใช้งาน เช่น กรอกในกระดาษ ลายมือต่างคนต่างเขียน หรือแม้แต่ ข้อมูลที่อยู่ในรูปดิดิตอล แต่อยู่กันคนละระบบ ดึงข้อมูลออกมาใช้งานได้ลำบากเต็มที
แต่ถ้าไม่มีปัญหา ก็คงไม่มีผลสำเร็จให้ได้ชื่นชม ดังนั้น การเริ่มต้นทำ Big Data จึงไม่จำเป็นต้องรอให้ข้อมูลสมบูรณ์แบบก่อนจะเริ่มเป็นโปรเจค เพราะสิ่งที่เริ่มได้ก่อน คือ การตั้งเป้าหมายของงาน เพราะเป้าหมายที่ชัดเจน จะช่วยตอบคำถามต่างๆ เกี่ยวกับข้อมูลได้เอง
1. ข้อมูลไม่พอ แล้วอะไรไม่พอ ขาดตรงไหน ต้องเก็บข้อมูลอย่างไร ใช้เครื่องมืออะไร กำลัง และเวลายาวนานเท่าไหร่ 2. ข้อมูลไม่สะอาด สำหรับข้อมูลเก่า พยายามทำให้ข้อมูลสะอาดให้ได้มากที่สุด เพื่อใช้เป็นชุดข้อมูลตั้งต้นในการทำโมเดล หลังจากนั้นต้องออกแบบรูปแบบการเก็บข้อมูลให้ชัดเจน สำหรับข้อมูลใหม่ที่จะเข้ามาในอนาคต 3. ข้อมูลซ้ำซ้อน หรือ ไม่สามารถระบุความชัดเจนของข้อมูลได้ วางข้อตกลงหรือวิธีการในการใช้ข้อมูลในชัดเจน และแจ้งให้ทราบถึงที่มาที่ไป เพื่อให้เห็นชอบกันทุกฝ่าย 4. ข้อมูลอยู่ไม่เป็นรูปแบบที่สะดวกต่อการใช้งาน ออกแบบระบบที่สามารถเป็นระบบกลางในการใช้ข้อมูล วิเคราะห์ข้อมูล และสร้างการมองเห็นของข้อมูลได้ ซึ่งปัจจุบัน การใช้ Platform ประเภทนี้ ไม่จำเป็นต้องลงทุนด้าน software หรือ hardware มากเหมือนแต่ก่อน
อย่างไรก็ตาม ในการทำงานเชิงวิเคราะห์ข้อมูลขนาดใหญ่ ขั้นตอนที่ใช้เวลานานที่สุด คือ ขั้นตอน Data Understand หรือ การ Clean ข้อมูล นั้นเอง ซึ่งขั้นตอนนี้ มีความสำคัญยิ่ง เปรียบดั่งเป็นการเตรียมวัตถุดิบ แต่อย่างไรก็ตาม หากเราไม่รู้ว่าเมนูที่จะสังสรรค์คืออะไร วัตถุดิบที่มีอยู่แล้ว ก็เปล่าประโยชน์ใดๆ
We turn your DATA into your KEY of SUCCESS.
Email: inquiry@coraline.co.th
Tel: 099-425-5398