ทำไมต้องมี Data Engineer เพราะ Data Engineer คือ คนที่สามารถเชื่อมโยงข้อมูล และออกแบบช่องทางการส่งผ่านข้อมูล หรือที่เรียกว่า Data Pipeline ซึ่งก่อนหน้านี้ หน้าที่นี้ยังไม่มีความสำคัญมากนัก เพราะส่วนใหญ่การเก็บข้อมูล จะเก็บโดยระบบสำเร็จรูป เช่น ERP และไม่จำเป็นต้องนำข้อมูลนั้นมาเชื่อมกับระบบอื่นๆ มากนัก
อย่างไรก็ตาม พื้นฐานหลักของการเป็น Data Engineer คือ ETL หรือ Extract-Transform-Load ซึ่งเป็นกระบวนการระบบ Data Warehouse เพื่อดึงข้อมูลออกมาจากหลายๆที่ นำไปตรวจสอบคุณภาพ และปรับปรุงข้อมูลให้เป็นไปในรูปแบบที่เหมาะสม ก่อนจะส่งมอบไปยังอีกระบบหนึ่ง ซึ่งพื้นฐานนี้ เป็นพื้นฐานที่มีอยู่แล้วใ นสาขาด้าน Computer แต่ก่อนหน้านี้ แม้แต่กระบวกการ ETL ในหลายๆ องค์กร ก็จะเน้นการใช้เครื่องมือสำเร็จรูปเสียมากกว่า ทำให้ Skill หรือ ทักษะการออกแบบ Data Pipeline ของ Data Engineer ไม่ได้มีโอกาสให้ฉายแววมากนัก
ปัจจุบัน แม้ว่าจะมีการใช้โปรแกรมสำเร็จรูป หรือใช้ระบบสำเร็จรูปอยู่บ้าง แต่การออกแบบระบบแบบ Customized เป็นพิเศษนั้นกลายเป็นหัวใจหลักของการทำงานด้าน Data ไปเสียแล้ว เพราะแต่ละองค์กร ก็จะมีรูปแบบของข้อมูลที่ไม่เหมือนกัน และจะให้ใช้ Tool แบบเดียวกันได้อย่างไร
ปรากฏการณ์ขาด Data Engineer ถือว่าเป็น วิกฤต เพราะหากไม่มี Data Engineer ทำหน้าที่เตรียมระบบ และเตรียมรูปแบบของข้อมูลให้ Data Scientist ก็จะทำงานไม่ได้ หรือแม้กระทั่ง เมื่อ Data Scientist สร้าง Model ได้สำเร็จแล้ว แต่ถ้าไม่มี Data Engineer (และ Software Developer) Model นั้น ก็จะไม่สามารถนำไปขึ้นระบบได้
ทั้งนี้ จะเห็นได้ว่าในด้านการศึกษา เรามักจะเห็นสาขาเปิดใหม่เน้นด้าน Data Science, Data Analytics และ AI เสียมากกว่า ทั้งๆ ที่ความเป็นจริงแล้ว โครงการ Big Data จะใช้ Skill ด้านการสร้าง Model คิดเป็นสัดส่วนน้อยกว่า 20%
นอกจากโครงการ Big Data แล้ว Data Engineer ยังมีส่วนร่วมในการสร้างระบบที่เกี่ยวข้องกับข้อมูลอีกมากมาย เช่น การทำ Website รวมไปถึง การสร้าง Blockchain
นี่เป็นช่องว่างระหว่างภาคการศึกษา และภาคตลาดแรงงานที่แสดงให้เห็นอย่างชัดเจน และหากยังคงเป็นเช่นนี้ สุดท้าย Data Scientist ที่สำเร็จการศึกษาออกมา ก็อาจจะไม่สามารถสร้างผลงานใดๆ ได้ หากไม่มีคนช่วยเตรียมข้อมูล และไม่มีคนช่วยสร้างระบบ
ทำไมการศึกษาถึงไม่ค่อยให้ความสำคัญกับศาสตร์ของ Data Engineer?
เพราะการจะเป็น Data Engineer จะต้องรู้จัก Tool หรือเครื่องมือต่างๆ หากหลาย และเครื่องมือต่างๆ เหล่านี้ ก็มักจะ Update ตัวเองตลอดเวลา ทำให้การจะเป็น Data Engineer ได้ ไม่ใช่แค่ต้องมีความรู้พื้นฐานด้าน Database หรือ Data Warehouse เท่านั้น แต่จะต้องเรียนรู้ Tool ใหม่ๆ อยู่ตลอดเวลา เช่น Cloud Computing ดังนั้น คนที่จะเรียกตัวเองว่าเป็น “Data Engineer” ได้ จะต้องเป็นคนที่ Update ตัวเองอยู่ตลอดเวลาเช่นเดียวกัน ยิ่งไปกว่านั้น การสะสมประสบการณ์ หมายถึงว่า จะต้อง “เคย” ผ่านโครงการต่างๆ ตั้งแต่ต้นน้ำ จนถึงปลายได้ เป็นจำนวน “หลาย” โครงการ
คนที่สามารถจะเป็น Data Engineer ณ ตอนนี้ได้ ก็คือ เหล่าคน IT ทั้งหลาย ไม่ว่าจะเป็น Database Admin, System Admin คนที่ดูแล Server หรือแม้แต่คนที่ทำ Query ข้อมูล ก็สามารถเบนเข็มตัวเองมาเป็น Data Engineer ได้
สำหรับอนาคต ก็ต้องบอกว่า การเป็น Data Engineer เป็นอาชีพที่มีอนาคตไกล และอาจจะมั่นคงกว่า Data Scientist (ในมุมความเสี่ยงที่จะโดน Disrupt) เพราะแม้ว่า Model จะสร้างสำเร็จแล้ว มีความเสถียรมากพอแล้ว แต่ข้อมูลที่ไหลเข้าระบบอย่างต่อเนื่อง มีการขยายขนาด และต้องการคนทำหน้าที่บำรุงรักษา อีกทั้ง ข้อมูลที่เกิดขึ้นบนโลกนี้ มีปริมาณมากขึ้นเรื่อยๆ และโลกนี้ก็ต้องการคนมาบริหารจัดการข้อมูลตรงนี้
ประโยคที่ว่า “ข้อมูลไม่ Syn กัน” หรือ “ไม่มีข้อมูลที่พร้อมใช้” หรือแม้แต่ “ยังไม่มีการเก็บข้อมูล” ประโยคเหล่านี้ ต้องแก้ด้วยการมี Data Engineer (และอาจจะต้องมี Data Scientist เป็นผู้ช่วยออกแบบแนวทางการใช้ข้อมูล) ดังนั้น หากต้องการทำโครงการ Big Data คนที่มีความสำคัญเป็นอันดับต้นๆ ก็ คือ Data Engineer นั่นเอง