ด้วย Trends ยุคดิจิตอล ที่ทำให้เป็นยุคทองของ Data Scientist ทำให้หลายๆ คนพากันมาศึกษาวิชาต่างๆ เพื่อสามารถเข้าใจและสร้าง Machine Learning อย่างไรก็ตาม การเป็น Data Scientist ต้องใช้พื้นฐานความเข้าใจในศาสตร์ของคณิตศาสตร์เป็นหลัก และใช้การเขียนโปรแกรม หรือ Code มาช่วยแก้ปัญหา ทำให้การจะเป็น Real Data Scientist นั้นต้องใช้เวลาในการศึกษาทักษะ พร้อมๆ กับการเรียนรู้เทคโนโลยีใหม่ๆ อย่างต่อเนื่อง ไม่มีวันจบ
ปัญหาของ Young Data Scientist หรือหลายคนที่พยายามเรียน Course เสริมจากหลายๆ แหล่งมาแล้ว แต่ไม่สามารถทำงานจริงได้ มีดังนี้
1. พื้นฐานวิชาคณิตศาสตร์ ความน่าจะเป็น และสถิติ ไม่แน่นพอ ในการทำงานจริง เมื่อไม่มีอาจารย์มาคอยแนะนำ การออกแบบโมเดลเองจึงถือว่าเป็นงานหินของ Data Scientist ซึ่งในขั้นตอนการขึ้น Model นี้ ต้องอาศัยหลักการต่างๆ ทั้งพื้นฐานเลขขั้นเทพ สถิติต้องแม่น และความน่าจะเป็นที่หลายๆ คนมักจะยอมแพ้กลางคันอีกด้วย แต่หากไม่สามารถออกแบบ Model หรือ ความสัมพันธ์ระหว่างผลลัพธ์กับตัวแปรต่างๆ ได้ ก็จะไม่สามารถทำงานต่อในขั้นตอนอื่นๆ ต่อได้
2. ไม่สามารถระบุประเภทของ Algorithm ได้ ใน Course ต่างๆ ที่สอน Online จะบอกชัดเจนว่า กำลังทำโจทย์อะไร มีตัวแปรอะไร ผลลัพธ์คืออะไร ใช้ Algorithm ไหนแก้ และสอนให้เขียนโปรแกรมตามที่แนะนำ แต่ในการทำงานจริง นอกจาก Model ที่ต้องเขียนขึ้นเองแล้ว ตัวโปรแกรม หรือวิธีการแก้ปัญหา ก็เป็นหน้าที่ของ Data Scientist ต้องเลือกใช้งานด้วยตัวเองอีกด้วย ซึ่งแต่ละ Algorithm ก็จะมีวิธีการ set parameter ไม่เหมือนกัน
3. ไม่รู้ว่าควรนำข้อมูลไหนมาใช้งาน เพราะในบางครั้งการทำงานของ Data Scientist จะเปรียบเหมือนเจ้าชายขี่ม้าขาวที่เข้ามาช่วยแก้ปัญหาหนักๆ เฉพาะหน้าให้ธุรกิจ แต่ Young Data Scientist เองมีประสบการณ์ในการทำงานเชิงธุรกิจน้อย จึงยังไม่มีมุมมองหรือเข้าใจระบบได้ทั้งหมด บางครั้งปัญหาจึงเกิดขึ้น เมื่อไม่สามารถระบุตัวแปร หรือข้อมูลที่ควรนำมาใช้ใน Model ได้ ต้องอาศัยการทำความเข้าใจหน้างาน
4. ไม่สามารถจัดการข้อมูลขนาดใหญ่ได้ ในคอร์สต่างๆ อาจมีการให้ลองฝึกเขียนโปรแกรมขึ้นมา โดยที่มีเวลาจำกัด จึงมีขนาดของข้อมูลจำนวนหนึ่ง แต่ในการทำงานจริง ข้อมูลที่นำมาใช้มีหลากหลายรูปแบบ ทั้ง structure และ unstructured และส่วนใหญ่เป็นข้อมูลที่ยังไม่พร้อมใช้งาน ต้องผ่านขั้นตอนของการ clean ก่อนอีกด้วย ดังนั้นนอกจากจะต้องศึกษา Algorithm ต่างๆ แล้ว Data Scientist ยังต้องศึกษาหลักการจัดการกับข้อมูลขนาดใหญ่ รวมไปถึง Outlier หรือ Missing Value อีกด้วย
ทั้งนี้ ในการทำงานสิ่งที่สำคัญไม่แพ้ความรู้ความสามารถของ Data Scientist คือ การทำงานเป็นทีม ดังนั้นหากมีการแจกจ่ายงานที่ดี และต่างใช้ความสามารถในทางที่เหมาะสมแล้ว ก็จะสามารถช่วยให้งานทุกงานเดินหน้าไปจนถึงจุดสำเร็จได้อย่างสวยงาม ส่วนประสบการณ์ต่างๆ นั้น เป็นสิ่งที่ต้องสะสมตลอดไปอย่างต่อเนื่อง ไม่ว่าจะเป็นการเรียน อ่าน กระทำ ฝึกฝน หรือถามผู้อื่น ล้วนเป็นสิ่งที่ช่วยต่อยอดให้แต่ละคนมีความรู้มากขึ้นโดยทั้งสิ้น ดังนั้นก็อยู่ที่ว่าแต่ละคนจะมองหาจุดเด่นและจุดด้อยของตัวเองเจอหรือไม่ เพื่อดึงให้ตัวเองมีศักยภาพที่โดดเด่นได้ และสนุกกับการทำงานในฝันกันต่อไป