วิทยาการข้อมูล (อังกฤษ: Data science) เป็นสหสาขาวิชาที่ใช้วิธีการ กระบวนการ อัลกอริทึม และระบบทางวิทยาศาสตร์มาใช้เพื่อหาความรู้จากข้อมูลหลากหลายรูปแบบ ทั้งจัดเก็บเป็นระเบียบและไม่เป็นระเบียบเป็นสาขาที่เกี่ยวข้องกับการทำเหมืองข้อมูล การเรียนรู้เชิงลึก และข้อมูลขนาดใหญ่
วิทยาการข้อมูลเป็นศาสตร์ที่เป็นการบูรณาการสถิติศาสตร์ การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องเข้าด้วยกันเพื่อให้สามารถเข้าใจและวิเคราะห์ปรากฏการณ์ที่เกิดขึ้นจริงในข้อมูลได้[3] ใช้เทคนิคและทฤษฎีที่ได้มาจากคณิตศาสตร์ สถิติศาสตร์ วิทยาการคอมพิวเตอร์ และวิทยาการสารสนเทศ
จิม เกรย์ นักวิทยาศาสตร์ผู้ได้รับรางวัลทัวริงมองว่า วิทยาการข้อมูลเป็นวิทยาศาสตร์แขนงที่สี่ ต่อยอดมาจากวิทยาศาสตร์การทดลอง วิทยาศาสตร์ทฤษฎี และวิทยาศาสตร์เชิงคำนวณ โดยเชื่อว่าทุกอย่างที่เกี่ยวข้องกับวิทยาศาสตร์กำลังจะเปลี่ยนไปโดยอิทธิพลของเทคโนโลยีสารสนเทศและการเพิ่มขึ้นของข้อมูล
เนื้อหา
- พื้นฐาน
- เส้นทางอาชีพ
- สาขาเฉพาะทางวิทยากรข้อมูล
- ผลกระทบวิทยากร
- เทคโนโลยีและเทคนิค
พื้นฐาน[แก้]
วิทยาการข้อมูลเป็นสหสาขาวิชาที่มุ่งเน้นการหาความรู้จากกลุ่มข้อมูลซึ่งส่วนมากมักมีขนาดใหญ่[6] ครอบคลุมตั้งแต่การเตรียมข้อมูลเพื่อวิเคราะห์ วิเคราะห์ และนำเสนอสิ่งที่ค้นพบให้กับผู้มีอำนาจใจการตัดสินใจในองค์กร จึงต้องใช้ทักษะทางด้านวิทยาการคอมพิวเตอร์ คณิตศาสตร์ สถิติศาสตร์ การนำเสนอข้อมูลด้วยภาพ การออกแบบกราฟิก และธุรกิจ[7][8]
นักสถิติศาสตร์หลายคน อาทิ เนท ซิลเวอร์ มองว่าวิทยาการข้อมูลไม่ได้เป็นศาสตร์ใหม่ แต่เป็นอีกชื่อหนึ่งของสถิติศาสตร์[9] แต่บ้างก็แย้งว่าวิทยาการข้อมูลเน้นการศึกษาปัญหาและเทคนิคที่แตกต่างกับวิชาสถิติ[10] โดยวิสันต์ ธาร์ ศาสตราจารย์ที่มหาวิทยาลัยนิวยอร์กมองว่าสถิติจะเน้นการศึกษาข้อมูลเชิงปริมาณและหาคำอธิบาย ส่วนวิทยาการข้อมูลจะเน้นศึกษาทั้งข้อมูลเชิงปริมาณและเชิงคุณภาพ (เช่นภาพ) และเน้นการพยากรณ์และการลงมือทำ[11]
เส้นทางอาชีพ
วิทยาการข้อมูลเป็นศาสตร์ที่กำลังเติบโต นักวิทยาการข้อมูลเป็นอาชีพหนึ่งที่ได้รับเงินเดือนระดับที่สูงมากในสหรัฐอเมริกา โดยมีค่ามัธยฐานอยู่ที่ 118,370 ดอลลาร์สหรัฐต่อปี หรือประมาณ 56.91 ดอลลาร์ต่อชั่วโมง การเติบโตของสายงานสูงกว่าค่าเฉลี่ยของแรงงานในตลาด คาดว่าจะเติบโตราวร้อยละ 16 ระหว่างปี ค.ศ. 2018 ถึง ค.ศ. 2028
สาขาเฉพาะทางของวิทยาการข้อมูล
- นักวิทยาศาสตร์การเรียนรู้ของเครื่อง มีหน้าที่วิจัยหาวิธีการวิเคราะห์ข้อมูบแบบใหม่และสร้างอัลกอริทึม
- นักวิเคราะห์ข้อมูล ใช้ข้อมูลขนาดใหญ่เพื่อรวบรวมข้อมูลที่ตรงตามความความสนใจของบริษัท
- ที่ปรึกษาด้านข้อมูล ทำงานร่วมกับภาคธุรกิจเพื่อศึกษาว่าจะใช้ข้อมูลจากการวิเคราะห์ให้เกิดประโยชน์ได้อย่างไร
- สถาปนิกข้อมูล สร้างโซลูชันข้อมูลที่เหมาะสมกับการนำไปใช้งาน
- สถาปนิกการนำไปใช้งาน ติดตามการนำไปใช้งานตลอดทั้งวงจรธุรกิจ
ผลกระทบของวิทยาการข้อมูล
เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่เริ่มเป็นเครื่องมือสำคัญสำหรับภาคธุรกิจและบริษัททุกระดับ การมีข้อมูลขนาดใหญ่และมีความสามารถในการตีความได้เปลี่ยนแปลงโมเดลธุรกิจรูปแบบเก่า ก่อให้เกิดการสร้างโมเดลแบบใหม่ ธุรกิจที่เกิดจากข้อมูลมีมูลค่ารวมกันสูงถึง 1.2 ล้านล้านดอลลาร์สหรัฐในปี ค.ศ. 2020 เพิ่มขึ้นจากปี ค.ศ. 2015 ที่มีอยู่เพียง 333 พันล้านดอลลาร์ นักวิทยาการข้อมูลเป็นผู้ที่ย่อยข้อมูลให้อยู่ในรูปแบบที่มีประโยชน์ สร้างซอฟต์แวร์และอัลกอริทึมที่ช่วยให้บริษัทและองค์กรค้นพบวิธีการที่ดีที่สุดในการดำเนินธุรกิจ ข้อมูลขนาดใหญ่มีผลกระทบอย่างมหาศาลทั่วโลก
เทคโนโลยีและเทคนิค
เทคนิค
การแบ่งกลุ่มข้อมูล (อังกฤษ: data clustering) หรือ การวิเคราะห์คลัสเตอร์ (cluster analysis) เป็นวิธีการจัดกลุ่มข้อมูลที่มีลักษณะเหมือนกันไว้ในกลุ่มเดียวกัน (เรียกว่า คลัสเตอร์) เป็นส่วนหลักของการการทำเหมืองข้อมูล การรู้จำแบบ, การวิเคราะห์ภาพ ชีวสารสนเทศศาสตร์ การบีบอัดข้อมูล คอมพิวเตอร์กราฟิกส์ การเรียนรู้ของเครื่อง และใช้ในการวิเคราะห์ข้อมูลทางสถิติ
การวิเคราะห์คลัสเตอร์ในตัวเองไม่ใช่อัลกอริทึมแต่เป็นการทำงานร่วมกันของอัลกอริทึมที่หลากหลายเพื่อแก้ปัญหาในการทำงาน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยจะแบ่งชุดข้อมูล (มักจะเป็นเวกเตอร์) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน การคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่างๆเช่น การวัดระยะแบบยูคลิด (Euclidean distance) การวัดระยะแบบแมนฮัตตัน (Manhattan distance) การวัดระยะแบบเชบิเชฟ (Chebychev distance)
การเรียนรู้ของเครื่อง (อังกฤษ: machine learning - ML) เป็นการศึกษาอัลกอริทึมของคอมพิวเตอร์ที่มีการพัฒนา[1] การเรียนรู้ของเครื่องถูกมองว่าเป็นส่วนหนึ่งของปัญญาประดิษฐ์ โดยอัลกอริทึมสร้างแบบจำลองทางคณิตศาสตร์จากข้อมูลตัวอย่าง (เรียกว่า ข้อมูลสอน) เพื่อที่จะคาดการณ์หรือตัดสินใจได้อย่างชัดเจน
การเรียนรู้ของเครื่องพัฒนามาจากการศึกษาการรู้จำแบบ เกี่ยวข้องกับการศึกษาและการสร้างอัลกอริทึมที่สามารถเรียนรู้ข้อมูลและทำนายข้อมูลได้ อัลกอริทึมนั้นจะทำงานโดยอาศัยโมเดลที่สร้างมาจากชุดข้อมูลตัวอย่างขาเข้าเพื่อการทำนายหรือตัดสินใจในภายหลัง แทนที่จะทำงานตามลำดับของคำสั่งโปรแกรมคอมพิวเตอร์ การเรียนรู้ของเครื่องมีเกี่ยวข้องอย่างมากกับสถิติศาสตร์ เนื่องจากทั้งสองสาขาศึกษาการวิเคราะห์ข้อมูลเพื่อการทำนายเช่นกัน นอกจากนี้ยังมีความสัมพันธ์กับสาขาการหาค่าเหมาะที่สุดในทางคณิตศาสตร์ที่แงของวิธีการ ทฤษฎี และการประยุกต์ใช้ การเรียนรู้ของเครื่องสามารถนำไปประยุกต์ใช้งานได้หลากหมาย ไม่ว่าจะเป็นการกรองอีเมล์ขยะ การรู้จำตัวอักษร เครื่องมือค้นหา และคอมพิวเตอร์วิทัศน์
เทคโนโลยี
ภาษาไพทอน (Python programming language) หรือที่มักเรียกกันว่าไพทอน เป็นภาษาระดับสูงซึ่งสร้างโดยคีโด ฟัน โรสซึม โดยเริ่มในปีพ.ศ.2533 การออกแบบของภาษาไพทอนมุ่งเน้นให้ผู้โปรแกรมสามารถอ่านชุดคำสั่งได้โดยง่ายผ่านการใช้งานอักขระเว้นว่าง (whitespaces) จำนวนมาก นอกจากนั้นการออกแบบภาษาไพทอนและการประยุกต์ใช้แนวคิดการเขียนโปรแกรมเชิงวัตถุในตัวภาษายังช่วยให้นักเขียนโปรแกรมสามารถเขียนโปรแกรมที่เป็นระเบียบ อ่านง่าย มีขนาดเล็ก และง่ายต่อการบำรุง
ไพทอนเป็นภาษาแบบไดนามิกพร้อมตัวเก็บขยะ ไพทอนรองรับกระบวนทัศน์การเขียนโปรแกรมหลายรูปแบบ ซึ่งรวมถึงแต่ไม่จำกัดเพียงการเขียนโปรแกรมตามลำดับขั้น การเขียนโปรแกรมเชิงวัตถุ หรือการเขียนโปรแกรมเชิงฟังก์ชัน นอกจากนี้ไพทอนเป็นภาษาที่มักถูกอธิบายว่าเป็นภาษาโปรแกรมแบบ "มาพร้อมถ่าน" (batteries included) กล่าวคือไพทอนมาพร้อมกับไลบรารีมาตรฐานจำนวนมาก เช่นโครงสร้างข้อมูลแบบซับซ้อน และไลบรารีสำหรับคณิตศาสตร์
ไพทอนมักถูกมองว่าเป็นภาษาที่สร้างต่อจากภาษา ABC โดยไพทอน 2.0 ซึ่งออกเผยแพร่เมื่อปีพ.ศ.2543 มาพร้อมกับเครื่องมือสำหรับการเขียนโปรแกรมจำนวหนึ่ง อย่างเช่นตัวสร้างแถวรายการ (list comprehension)
ไพทอนรุ่น 3.0 เป็นไพทอนรุ่นที่ได้รับการปรับปรุงและแก้ไขจำนวนมาก ทว่าความเปลี่ยนแปลงไนไพทอน 3 นั้นเป็นการเปลี่ยนแปลงที่ไม่เข้ากันแบบย้อนหลัง กล่าวคือชุดคำสั่งที่เขียนสำหรับไพทอน 2 อาจไม่ทำงานตามปกติเมื่อสั่งให้ทำงานบนตัวแปลภาษาของไพทอน 3
ไพทอนรุ่น 2.0 หมดการสนับสนุนอย่างเป็นทางการในปีพ.ศ.2563 โดยการหมดการสนับสนุนนี้ถูกวางแผนตั้งแต่ปีพ.ศ.2558 และไพทอนรุ่น 2.7.18 เป็นไพทอนรุ่น 2.7 และรุ่นตระกูล 2.0 ตัวสุดท้ายที่ออกเผยแพร่ โดยหลังจากนี้จะไม่มีการสนับสนุนความปลอดภัยหรือการปรับปรุงอื่นใดเพิ่มเติมสำหรับภาษาไพทอนรุ่น 2.0 อีก
อินเทอร์พรีเตอร์ของภาษาไพทอนสามารถใช้งานได้บนหลายระบบปฏิบัติการ ชุมชนนักพัฒนาโปรแกรมของไพทอนร่วมกันดูแลโครงการซีไพทอนโดยมีมูลนิธิซอฟต์แวร์ไพทอนซึ่งเป็นองค์กรไม่แสวงผลกำไร ทำหน้าที่ดูแลและจัดการทรัพยากรสำหรับการพัฒนาไพทอนและซีไพทอน
ไม่มีความคิดเห็น:
แสดงความคิดเห็น