ในยุคที่ Big Data กำลังถูกพูดถึงอย่างหนัก และ Data Scientist ได้เข้ามาเป็นบุคคลที่ทำให้การใช้งาน Big Data ครบวงจรมากขึ้น แท้จริงแล้ว ขั้นตอนแรกที่สำคัญที่สุดของการทำ Big Data คือ การตั้งโจทย์ และในมุมมองของธุรกิจเอง คนที่ตั้งโจทย์ได้เฉียบขาดที่สุด ก็คือ คนที่เป็นหัวเรือขององค์กร นั่นเอง
ดังนั้น หัวเรือใหญ่ขององค์กรรวมไปถึงระดับ Manager เองที่ต้องทำงานในเชิง Data-Driven Business จึงต้องมองปัญหาให้ออก พร้อมกับตั้งรูปแบบของคำตอบในใจเล็กน้อย เพื่อส่งต่อให้ Data Scientist สามารถแก้ปัญหาต่อไปได้
ก่อนอื่น เรามาทำความรู้จักกับ 5 Algorithms หรือ กระบวนการออกแบบโปรแกรม ที่เป็นหัวใจของ Machine Learning เบื้องต้นกัน
1.Classification
เป็นการจัดกลุ่มจัดก้อนของตัวแปร ซึ่งก่อนอื่น เราต้องกำหนดชุดข้อมูลที่เป็นตัวตั้งต้น แบ่งออกเป็น 2 ประเภท คือ Input และ Target ซึ่งในกรณีของ Classification ที่เรากำลังพูดถึงนี้ ตัว Target ที่เราต้องการ ก็คือประเภทกลุ่มก้อน ที่จะเป็นชุดข้อมูลเล็กที่ไม่ต่อเนื่องกัน เช่น Yes/No, A/B/C หรือ Male/Female
ตัวอย่างของปัญหาที่เราสามารถใช้ Classification ในการแก้
การอนุมัติเงินกู้ ซึ่งใช้ข้อมูลลูกค้าเพื่อวิเคราะห์ความเสี่ยงในการปล่อยกู้ Target คือ Loan/No Loan
การป้องกันความเสี่ยงการโจรกรรมต่างๆ Target คือ เสี่ยงมาก/เสี่ยงน้อย/ไม่เสี่ยง
การแบ่งประเภทของอสังหาริมทรัพย์ โดยอาจใช้ข้อมูลของโครงการ เช่น ปีที่เริ่มก่อสร้าง ขนาดของที่ดิน ขนาดพื้นที่ใช้สอยในอาคาร จำนวนห้อง หรือ จำนวนที่จอดรถ มาเป็น Input เพื่อหาTarget เป็นกรุ๊ป เช่น A/B/C
การแก้ปัญหาประเภทนี้ สามารถเลือกใช้ Model ได้หลากหลาย ตั้งแต่ Decision Tree, Random Forest หรือ Bayesian classification ขึ้นอยู่กับความเหมาะสมของงาน
ภาพตัวอย่าง Decision Tree ในการจำแนกประเภทของอสังหาริมทรัพย์ออกเป็น 4 ประเภท (สีเขียว, ส้ม, ชมพู, ฟ้า) ซึ่งกำหนดให้มี Input หรือตัวแปรต้นทั้งหมด 10 ตัวแปร
2.Regression
เป็น Algorithms ที่ใช้สำหรับทำนาย หรือหาความสัมพันธ์ และหาคำตอบใหม่ในกลุ่มข้อมูล โดยอาศัยชุดข้อมูลตัวตั้งต้นคือ Input กับ Target แบบเดียวกับ Classification เพียงแต่ว่า Target ของ Regression สามารถเป็นตัวเลขใดๆ ก็ได้
ตัวอย่างของปัญหาประเภทนี้พบได้ทั่วไป ตั้งแต่ การพยากรณ์อากาศ, การประมาณการณ์ยอดใช้งาน Call center ในช่วงเวลาต่างๆ, การกำหนดราคาเช่าห้องของ Airbnb เป็นต้น
Model ที่ใช้ทำ Regression ก็มีหลากหลายรูปแบบ ตั้งแต่ Linear Regression ที่เราคุ้นเคยกันดี ต่อยอดไปเป็น Multivariate Adaptive Regression Splines จนไปถึง Deep Learning
ภาพ Linear Regression
ภาพ Multivariate Adaptive Regression Splines
ภาพ Deep Learning
3.Clustering
2 Algorithms ที่กล่าวมาแล้วนั้น เป็นประเภทที่เรามี Target ตั้งต้นให้ ซึ่งเรียกโจทย์แบบนี้ว่า Supervised Learning แต่ในบางกรณี เราอยากรู้ความสัมพันธ์ใหม่จากกลุ่มข้อมูล โจทย์ประเภทนี้เรียกว่า Unsupervised Learning โดยการทำ Clustering นั้นกระบวนเป็นการ จัดกลุ่มจากข้อมูลเพื่อดูว่า Object ใดบ้างที่มีความใกล้เคียงกัน หรือ จัดอยู่ในกลุ่มเดียวกันได้
ตัวอย่างปัญหา เช่น การจัดกลุ่มลูกค้าในตลาดหุ้นจากลักษณะวิธีการซื้อ ขายหุ้นของแต่ละคน หรือการแบ่งกลุ่มประชากรจากสถานที่อยู่อาศัย เป็นต้น
Model หลักๆที่ใน Algorithm นี้ ได้แก่ K-means, Fuzzy C-means, Hierarchical Clustering เป็นต้น
ภาพ Clustering
4.Similarity Matching
Algorithm นี้ ใช้เปรียบเทียบวัตถุ โดยใช้ข้อมูลองค์ประกอบของแต่ละวัตถุมาให้คะแนนความเหมือน หรือความต่าง ซึ่งมักจะเห็นได้บ่อยในการเปรียบเทียบ Product ใน Web E-commerce ต่างๆ เพื่อเพิ่มช่องทางการเข้าถึงสินค้าให้ลูกค้า ได้มากขึ้น
สมการที่ใช้คิดค่าความเหมือนต่าง อาจใช้เป็น Squared Euclidean Distance ก็ได้ ขึ้นอยู่กับ Criteria ที่ใช้ออกแบบ
นอกจากใช้เปรียบเทียบสินค้าแล้ว Algorithm นี้ ยังมักจะถูกใช้ในการวิเคราะห์เอกลักษณ์ ลายนิ้วมือ หรือใช้ระบุบ่งชี้กลุ่มของประชากรได้อีกด้วย
5.Affinity Analysis หรือ Co-occurrence Relationships
เป็นการหาความน่าจะเป็นที่จะเกิดเหตุการณ์คู่กัน ในธุรกิจ Retail หรือ E-Commerce จะใช้ Algorithm ประเภทนี้เพื่อการทำ Cross-selling และ Up-selling ทั้งในมุมของการทำ Promotion, Loyalty programs, หรือแม้กระทั่งการออกแบบตำแหน่งของการวางสินค้า เป็นต้น
เรามักจะเห็นประโยคที่เป็น Keyword ที่มีเบื้องหลังเป็น Algorithm นี้ เช่น
“Frequently bought together” หรือประโยคที่ว่า “แล้วสินค้าพวกนี้หล่ะ” ใน Lazada.com เป็นต้น
ในโลกของการทำธุรกิจที่ใช้นโยบาย Data-Driven นั้น ไม่เพียงแต่แค่การมีข้อมูลเอาไว้ตอบคำถามลูกค้า แต่มันคือความสามารถของการนำข้อมูลที่มี หรือที่สามารถเก็บรวบรวมได้ มาต่อยอดให้เกิดประโยชน์สูงสุด ซึ่งในมุมของคนวางนโยบายนั้นจำเป็นที่จะต้องมีความรู้เบื้องต้น เกี่ยวกับรูปแบบต่างๆของ Mathematical Model เพื่อสามารถสร้างโจทย์ที่ท้าทายให้กับ Data Scientist และเป็น Decision maker ที่สามารถประเมินความล้ำค่าของ Data ได้ ส่วนหน้าที่การสร้าง Machine Learning หรือองค์รวมของระบบ Big Data นั้น เป็นเรื่องของบุคลากรที่มีคุณภาพทั้งหลาย ต้องช่วยกัน เพราะนอกจากเวลาที่ไม่รอเราแล้ว เชื่อว่าการเป็น Data-Driven Business นั้น กำลังเป้าหมายหลักของทุกองค์กรอย่างแน่นอน ดังนั้น ประโยคที่ว่า พร้อมก่อน เดินเกมก่อน สำเร็จก่อน คงไม่ใช่แค่คำขู่อีกต่อไป
#BigData #DataScience #Optimization #ProductivityImprovement #DigitalTransformation #MachineLearning #ArtificialIntelligence #DataManangement #DataGovernance #DataQuality #DeepLearning #Coraline
We turn your DATA into your KEY of SUCCESS.
Email: inquiry@coraline.co.th
Tel: 099-425-5398