มี Analytics Tool แล้วยังต้องมี Data Scientist หรือไม่
มารู้จัก Analytics Tool กันก่อน โดยเราจะขอแบ่ง Tool ออกเป็น 3 ประเภท ได้แก่
Statistical Analytics Tool คือ เครื่องมือที่สามารถใช้วิเคราะห์ข้อมูลในเชิงสถิติ หรือ Descriptive Analytics ได้ เช่น Microsoft Excel, SPSS หรือ โปรแกรม BI ยี่ห้อต่าง ๆ โดยส่วนใหญ่จะไม่สามารถสร้าง Machine Learning ได้
Advance Analytics Tool คือ เครื่องมือที่สามารถวิเคราะห์เชิงลึกได้ และมีระบบที่สร้าง AutoML ได้ เช่น RapidMiner, DataRobot, SAS เป็นต้น เครื่องมือเหล่านี้ มักจะเป็นโปรแกรมที่ต้องนำไปลงแบบ Desktop ทำให้มีค่าใช้จ่ายในการลงระบบ นอกจากนี้ แต่ละโปรแกรมจะมีฟังก์ชั่นการใช้งานที่แตกต่างกัน เช่น การ Drag and Drop และ Library ของแต่ละโปรแกรม อย่างไรก็ตาม ข้อเสียของโปรแกรมลักษณะนี้ คือ นำ Model ที่ได้ ไป Deploy กับระบบอื่นได้ยาก (หรืออาจจะทำไม่ได้) ทำให้ผลลัพธ์ที่ได้ส่วนใหญ่จะอยู่ในรูปเป็นของ Report
Cloud Based AutoML คือ การสร้าง Machine Learning โดยใช้เครื่องมือที่อยู่ใน Cloud Computing เช่น Google Cloud AutoML, Amazon Sagemaker Autopilot, IBM AutoAI, Azure automated ML เป็นต้น โดยการใช้งาน จะใช้งานผ่าน Cloud Computing ซึ่งจะมีค่าใช้จ่ายรายครั้ง แต่จะต้องนำข้อมูลเข้าสู่ระบบ Cloud ทำให้อาจมีค่าใช้จ่ายอื่นๆ ที่เกี่ยวข้องกับการนำข้อมูลเข้าออก Cloud อีกด้วย
ถ้าไม่มี Analytics Tool การวิเคราะห์ข้อมูลจะสามารถทำได้โดยการใช้โปรแกรมภาษา เช่น R และ Python ซึ่งเป็น Open-source ที่ไม่มีค่าใช้จ่าย
โดยทั่วไปแล้ว หลักการทำงานในการสร้าง Auto Machine Learning เป็นไปตามรูป
นำข้อมูลที่เป็นต้นแบบในการสร้าง Model เข้าสู่ระบบ แบ่งเป็น
- Supervised Model คือ Model ที่มีการระบุ Target
- Unsupervised Model คือ Model ที่ไม่มีการระบุ Target
ระบบจะทำการระบุสถานะของข้อมูล เช่น เป็นข้อมูลประเภทอะไร มี Missing Value หรือไม่ เป็นต้น
วิเคราะห์คามสัมพันธ์ของข้อมูล
สร้าง Model หรือที่เรียกว่า Training
- จัดโครงสร้างของข้อมูล
- เลือกประเภทของ Algorithm ที่จะใช้
- ปรับเปลี่ยน Parameter ต่างๆ ให้เหมาะสม
ประเมินผลลัพธ์ จากการเปลี่ยน Algorithm และ Parameter ต่างๆ
นำ Model ไปเชื่อมต่อกับระบบอื่นๆ
Go-live เพื่อนำข้อมูลชุดใหม่เข้ามาทดสอบ Model เพื่อให้ได้ผลลัพธ์
โดยในหัวข้อที่ 2 – 6 จะเป็นการทำงานแบบอัตโนมัติ และอาจมีการวน Loop จนว่าระบบจะมีความเสถียร
ดังนั้น การทำงานของ Analytics Tool จึงสามารถช่วยลดเวลาในการสร้าง Model ได้ แต่ก็ต้องแลกมากับค่าใช้จ่ายที่ต้องลงทุนกับ Tool นั่นเช่นกัน
อย่างไรก็ตาม สำหรับคำถามที่ว่า “มี Analytics Tool แล้วยังต้องมี Data Scientist หรือไม่” คำตอบจะค่อนข้างไปทาง “ต้องมี” เพราะอย่างที่เห็นในรูปแสดงการทำงานของระบบ AutoML จะเห็นได้ว่า เครื่องมือเป็นเพียงโปรแกรมสำเร็จที่ช่วยให้ได้ Model ในระยะเวลาที่เร็วขึ้น แต่ไม่สามารถช่วยตั้งโจทย์ได้ หรือแม้แต่การเลือกนำข้อมูลในข้อที่ 1 ก็ยังคงต้องเป็นหน้าที่ของ Data Scientist
คำถามต่อมาคือ แล้ว Tool มีความจำเป็นหรือไม่? ต้องอยู่ที่นโยบายในการใช้ประโยชน์จาก Tool เช่น ถ้าต้องการมีเครื่องมือไว้ทำงานวิจัยต่างๆ ที่เกิดขึ้นบ่อยครั้ง Tool เหล่านี้ก็จะเป็นประโยชน์ แต่ถ้าเป็นการทำโครงการเพียงครั้งเดียว การซื้อ Tool อาจไม่คุ้มค่า โดยสามารถพิจารณาการใช้ AutoML ใน Cloud Computing หรือ เขียนโปรแกรมขึ้นมาเองก็ได้
อย่างไรก็ตามในกรณีที่ไม่มี Senior Data Scientist การมี Tool จะเป็นเครื่องมือที่ทำให้ Data Scientist ทำงานได้เร็วขึ้น แต่ในทางกลับกัน หากเป็นองค์กรที่เน้นเทคโนโลยี และมี Core Business เป็นเทคโนโลยี การพัฒนา Model ด้วยทีม Developer อาจจะตอบโจทย์ได้มากกว่า ดังนั้นคำตอบจึงไม่สามารถฟันธงได้ชัดเจน
บทสรุปของ Analytics Tool ทำให้เห็นชัดเจนขึ้นว่า Data Scientist แตกต่างจาก Programmer ตรงที่ เขามีหน้าที่ในการวิเคราะห์โจทย์ เพื่อเลือกใช้ Algorithm ที่ให้ Solution ที่เหมาะสมได้ การเป็น Data Scientist ที่ดี จึงไม่จำเป็นต้องยึดติดที่ Tool อาจจะเป็นการใช้ Tool สำเร็จรูป หรือเขียนโปรแกรมขึ้นมาเองก็ได้ เพราะสุดท้าย สิ่งที่ธุรกิจต้องการ ก็คือผลลัพธ์ที่ใช้งานได้จริงและวัดผลได้
หากสนใจบริการด้าน Advance Analytics ไม่ว่าจะเป็น Machine Learning, Optimization, Statistic and Probability Model ติดต่อได้ที่
Tel: 099-425-5398
Email: inquiry@coraline.co.th
Facebook: https://www.facebook.com/coralineltd
We turn your DATA into your KEY of success.
เราพาคุณขับเคลื่อนสู่ความสำเร็จด้วยข้อมูล
คอราไลน์ พร้อมให้คำปรึกษาและพัฒนาโครงการ Big Data, Data Governance, Data Management, Data Analytics, Data Driven Transformations
Comments