Classification ต่างกับ Clustering อย่างไร?

Classification และ Clustering เป็น Model ที่ใช้เพื่อจัดกลุ่มของข้อมูล แต่มีแนวทางในการใช้งาน และผลลัพธ์ที่แตกต่างกันอย่างสิ้นเชิง

Classification เป็น Model ประเภท Supervised Model หมายถึง Model ที่ต้องมี Target หรือ ตัวแปรที่ใช้วัดเป้าหมาย เป็นตัวตั้งต้นให้เรียนรู้ โดย Target ของ Classification จะเป็นแบ่งออกเป็นกลุ่ม หรือมีลักษณะเป็น Discrete เช่น yes/no, A/B/C เป็นต้น ดังนั้น ในการประเมินผลลัพธ์ที่ได้จาก Classification Model จะสามารถวัดค่าความแม่นยำ หรือ Accuracy ได้ เช่น ใช้ Confusion matrix

ตัวอย่าง Tree-Based Model ที่ใช้เพื่อสร้าง Classification Model

จากรูปข้างต้น เป็นการแบ่งประเภทของอสังหาริมทรัพย์ออกเป็น 4 กลุ่ม ซึ่งก่อนหน้าที่จะมีการสร้าง Model การแบ่งกลุ่มจะเป็นไปตามการตัดสินใจหน้างานของเจ้าหน้าที่ ทำให้ต้องใช้เวลาในการดำเนินการ และอาจมีความคลาดเคลื่อนเกิดขึ้นได้

อย่างไรก็ตาม จะเห็นได้ว่า โอกาสในการเป็นประเภทนั้นๆ ไม่เท่ากัน เช่น มีสีฟ้าเข้ม สีฟ้าอ่อน ของ Type D เกิดจากการจัดกลุ่ม แล้วพบแนวโน้มของการเป็นประเภท Type D เพียงแต่มี %ความมั่นใจไม่เท่ากัน

Clustering Model เป็น Model ประเภท Unsupervised หมายถึง Model ที่ไม่มี Target เป็นตัวต้นแบบ ทำให้ไม่สามารถวัดผลในเชิง Accuracy ได้ เช่น ไม่เคยมีการจัดประเภทมาก่อนเลย แต่ต้องการให้ Model จัดกลุ่มให้ โดยใช้ Attribute หรือ คุณลักษณะ เป็นตัวแจกแจง แนวทางในการจัดกลุ่ม มีทั้งแบบ Connectivity models, Centroid models และ Distribution models ซึ่ง Algorithm ที่ได้รับความนิยมคือ K-Mean อย่างไรก็ตาม ข้อจำกัดของ K-Mean คือ จำเป็นต้องกำหนดจำนวนกลุ่มที่ต้องการจัดเป็นตัวตั้งต้น ทำให้หลายคนที่ไม่เข้าใจจะเกิดความสับสนว่าทำไมต้องกำหนดจำนวนกลุ่มตั้งแต่ตอนแรก ทั้งนี้ มี Model บางประเภทที่สามารถบอกได้ว่าควรจะมีกี่กลุ่ม โดยที่ไม่จำเป็นต้องใส่จำนวนกลุ่มตั้งแต่แรก แต่การตัดกลุ่มของ Algorithm จะเป็นการประเมินความเป็นกลุ่มก้อนของข้อมูล ซึ่งอาจจะตอบโจทย์หรือไม่ตอบโจทย์ในเชิงการใช้งานก็เป็นได้

ในการประเมินผลลัพธ์ที่ได้จาก Clustering Model ส่วนใหญ่จะใช้ User Experience เป็นหลัก เช่น การแบ่งกลุ่มสาขาออกเป็น 5 สาขา แล้วทำให้ Forecasting Model มีความแม่นยำมากขึ้น ส่งผลให้เกิดการบริหารจัดการที่ดีขึ้น หรือ การจัดกลุ่มประเภทของกลุ่มลูกค้า เพื่อสามารถนำเสนอสินค้าหรือบริการได้ตอบโจทย์มากขึ้น

คำว่า “Classification” หรือ “Clustering” ทั้งสองคำนี้ หมายถึงลักษณะของโจทย์ ในรายละเอียดการสร้าง Model จะมีการเลือก Algorithm ที่เหมาะสมในแต่ละโจทย์ และในแต่ละ Algorithm จะมี Parameter Setup เป็นตัวตั้งต้นที่แตกต่างกัน รายละเอียดเหล่านี้ เป็นหน้าที่ของ Data Scientist หรือ Machine Learning Engineer ที่จะต้องศึกษา และมั่น Update ความรู้อยู่เสมอ เพราะในแต่ละวัน มี Model ใหม่ๆ เกิดขึ้นอยู่ตลอด หรือแม้กระทั่ง Machine Learning Engineer เอง ก็จะสามารถสร้าง Algorithm ใหม่ๆ ได้เองอีกด้วย