top of page

Data Understanding ขั้นตอนที่หลายคนมองข้าม


ใน Process ของการวิเคราะห์ข้อมูล หรือ การทำ Data Science นั้น Data Understanding เป็นขั้นตอนที่ 2 ต่อจาก Business Understanding

((คลิกเพื่ออ่านบทความ “Data Science Process Cycle” ))

เมื่อการทำ Data Understanding เป็นขั้นตอนที่ 2 นั้นหมายความว่า จะมาถึงขั้นตอนนี้ได้ จำเป็นจะต้องทำ Business Understanding ให้สำเร็จก่อน เพราะหากไม่มีเป้าหมายของโครงการ ไม่มีรูปแบบความต้องการ และรายละเอียดของผลลัพธ์ที่ควรได้ ก็ไม่สามารถนำมาประเมินต่อได้ว่า ควรจะใช้ข้อมูลไหนเป็นทรัพยากรใดเพื่อใช้ในการดำเนินโครงการ

รายละเอียดของการทำ Data Understanding ประกอบไปด้วย

1. Gathering Data หรือ การรวบรวมข้อมูล

เมื่อทราบแล้วว่า ต้องการทำโครงการอะไร และมีรูปแบบของผลลัพธ์คร่าวๆ ก็จะสามารถระบุได้ว่า ข้อมูลปัจจัยที่เกี่ยวข้องในโครงการควรจะประกอบไปด้วยข้อมูลอะไรบ้าง

ในขั้นตอนของการรวบรวมข้อมูลนี้ รวมไปถึงการระบุที่มาของข้อมูลด้วย เช่น ข้อมูลที่มาจากช่องทางออนไลน์ ข้อมูลในระบบ หรือแม้แต่ข้อมูลที่ยังไม่มี ก็จะต้องระบุรายละเอียดเพื่อประเมินแนวทางในการได้ข้อมูลนั้นมา

เช่น โครงการ Marketing Analytics ควรจะมีข้อมูลจากระบบการซื้อขายสินค้าจากระบบ ERP และ E-Commerce เป็นราย Transaction ข้อมูลรายละเอียดของสินค้า ได้แก่ สินค้าประเภทอะไร ผลิตเมื่อไหร่ ช่องทางการขายที่ไหน มีคุณสมบัติอะไร เช่น สี ขนาด น้ำหนัก เป็นต้น ข้อมูลรายละเอียดโปรโมชั่นในอดีต เป็นตารางรายเดือน ข้อมูลใน Facebook เป็นรายวัน โดยผลลัพธ์ที่ได้ คือ การวิเคราะห์โปรโมชั่นที่เหมาะกับลูกค้าแต่ละกลุ่ม และความถี่ในการนำเสนอโปรโมชั่น เป็นต้น

2. Describing Data หรือ การอธิบายข้อมูล

เมื่อได้ข้อมูลมาแล้ว ลำดับต่อไปคือการนำข้อมูลนั้นมาทำความเข้าใจ โดยมีรายละเอียดดังนี้

  • แหล่งที่มาของข้อมูล ระบุชื่อแหล่งที่มาให้ชัด และความถี่ของการได้มาซึ่งข้อมูล

  • ประเภทของข้อมูล เช่น ลักษณะของไฟล์

  • ประเภทของ Attribute หรือ รายละเอียดในแต่ละ Column เช่น เป็นข้อมูลประเภทตัวเลข 1-100 หรือ เป็นตัวอักษรภาษาอังกฤษเพื่อระบุชื่อ หรือ เป็นข้อมูลที่ใช้บ่งบอกสี

  • รูปแบบในการเชื่อมโยง หรือ ส่งข้อมูล เช่น ส่งเป็น File หรือสามารถ Access เข้า Database ได้

หากเป็นข้อมูลที่มีอยู่ในระบบ เอกสารที่สำคัญที่สุด คือ Data Dictionary ซึ่งเป็นสิ่งที่หลายองค์กรไม่มี จึงเป็นอุปสรรคอย่างมาก ในการดำเนินโครงการ Big Data

ในกรณีที่ข้อมูลมีไม่ครบ อาจจำเป็นต้องออกแบบแนวทางในการได้มาซึ่ง Data ไม่ว่าจะเป็นพัฒนาระบบเพื่อเก็บข้อมูลเพิ่ม หรือ การมองหาข้อมูลอื่นเทียบเคียง

นอกจากนี้ ในกรณีที่มีข้อมูลจากแหล่งต่างๆ การจะเชื่อมข้อมูลได้นั้น จำเป็นต้องสร้าง ER-Diagram เพื่อมองหาจุดเชื่อมโยงระหว่างข้อมูล

3. Exploring Data หรือ การวิเคราะห์รายละเอียดของข้อมูล

ในเชิงเทคนิค ขั้นตอนนี้เรียกว่า Exploratory Data Analysis (EDA) หรือ การวิเคราะห์ข้อมูลขั้นตอน เพื่อทำความเข้าใจรายละเอียดภายในของข้อมูล ก่อนที่จะเข้าสู่กระบวนการทำความข้อมูลในลำดับต่อไป เช่น การนำข้อมูลมาเขียนกราฟ เพื่อวิเคราะห์ Distribution ของข้อมูล การวิเคราะห์การกระจายตัวของข้อมูล เป็นต้น

ประสบการณ์ของ Coraline พบว่า โครงการที่ไม่มีการวิเคราะห์ความพร้อมของข้อมูล และไม่มีการทำ EDA ก่อนเริ่มโครงการนั้น มีแนวโน้มว่าโครงการนั้นจะล้มเหลว โดยเฉพาะโครงการที่มีการว่าจ้างบุคคลภายนอก หรือ Vendor เพราะเจ้าของข้อมูล กับผู้พัฒนาระบบข้อมูลทำงานคนละส่วนกัน หากไม่มีการสรุปรายละเอียดของข้อมูลมาก่อน ก็ยากที่จะสามารถพัฒนา และส่งมอบระบบที่ตอบโจทย์ให้ได้ตามเป้าหมาย

4. Verifying Data Quality หรือ การสรุปความพร้อม และคุณภาพของข้อมูล

หลังจากมีการทำ EDA หรือ วิเคราะห์รายละเอียดของข้อมูลแล้ว ก็เข้าสู่กระบวนการสรุปรายละเอียดความพร้อมของข้อมูล เพื่อให้ฝ่ายต่างๆ ที่เกี่ยวข้อง มีความเข้าใจเกี่ยวกับข้อมูลที่ตรงกัน และหาแนวทางในการใช้ และปรับปรุงข้อมูลในอนาคต

การทำ Data Understanding เป็นหน้าที่ของ Data Scientist, Data Analyst, Data Engineer และ Business Analyst ที่ต้องทำงานร่วมกัน เพื่อสรุปเป็นความพร้อมของข้อมูลก่อนดำเนินเป็นโครงการ

ในความเป็นจริง ขั้นตอนนี้ควรทำก่อนที่จะเซ็นสัญญาเริ่มงานด้วยซ้ำไป เพราะหากเซ็นสัญญาเริ่มงานไปแล้ว มาพบว่าข้อมูลที่มี ไม่สามารถสร้าง Model หรือ ดำเนินการได้อย่างที่ตั้งเป้าหมายเอาไว้ โครงการนั้น ก็อาจจะล้มเหลวไปในที่สุด

สำหรับกรณีที่มีการว่าจ้าง Vendor หรือ บริษัทภายนอกเป็นผู้รับโครงการ การทำ Data Understanding ควรเป็นหน้าที่ของ Data Expert ที่เข้ามาสร้างระบบประมวลผล เพราะถือว่า เป็นคนที่จะต้องนำข้อมูลนี้ไปสร้าง Model ต่อ ในขณะที่การปรับคุณภาพของข้อมูลจะเป็นความร่วมมือร่วมกัน ระหว่างเจ้าของข้อมูล (บริษัทว่าจ้าง) และ Data Expert เพราะ Data Expert ไม่ใช่เจ้าของข้อมูล และไม่มีสิทธิในการแก้ไขข้อมูลดิบ จึงไม่มีหน้าที่ในการปรับปรุงคุณภาพโดยตรง แต่เป็นคนที่สามารถเสนอแนวทางในการปรับปรุงคุณภาพของข้อมูลได้

ดังนั้น หากมองข้ามขั้นตอนการทำ Data Understanding ไป จะถือว่า เป็นความเสี่ยงอย่างมากในการดำเนินโครงการ เพราะถ้ามีทรัพยากรที่ไม่มีคุณภาพ แล้วจะหวังให้ได้ผลผลิตที่มีคุณภาพได้อย่างไร


แท็ก:

Commentaires


bottom of page