Supervised
Learning
- หรือการเรียนรู้แบบมีผู้สอน เป็นศาสตร์แขนงหนึ่งใน AI หรือปัญญาประดิษฐ์ ภายใต้หัวข้อ Machine Learning ที่กำลังเป็นที่นิยมในการศึกษาและวิจัยกันในปัจจุบัน เนื่องจากทำได้ง่าย ต้นทุนต่ำ เพียงใช้คอมพิวเตอร์เครื่องเดียวก็สามารถศึกษาและทำงานจนเห็นผลได้เลย
- จริงๆ แล้วศาสตร์แขนงนี้มีมานานมากแล้วตั้งแต่ปี 1959 ถูกเสนอโดย Arthur Samuel เป็นนักวิทยาศาสตร์คอมพิวเตอร์ชาวอเมริกันผู้เชี่ยวชาญด้านเกมคอมพิวเตอร์ ปัญญาประดิษฐ์ และการเรียนรู้ของเครื่อง โปรแกรม แต่ด้วยเทคโนโลยีหรือระบบประมวลผลในตอนนั้นยังล้าสมัยอยู่ ทำให้ยังไม่เป็นที่นิยม ผิดกับในปัจจุบัน
Supervised Learning
เป็นกลุ่มของ algorithm ที่เน้นสอน computer โดยการศึกษาจากข้อมูลตัวอย่าง เพื่อทำให้คอมพิวเตอร์สามารถหาคำตอบของปัญหา(การแก้ปัญหา)ได้ด้วยตัวเอง หลังจากเรียนรู้จากชุดข้อมูลตัวอย่างที่ได้ป้อนให้ไปแล้วระยะหนึ่ง
โดยหลักการ Supervised Learning สามารถนำไปประยุกต์ใช้แก้ปัญหาได้ 2 รูปแบบ
- Regression
- Classification
ข้อแตกต่างระหว่าง
___ Regression และ Classification
Regression problem เป็นการพยายามที่จะทำนายคำตอบที่เป็น continuous output หรือคำตอบที่ต่อเนื่องกัน เช่นทำนายราคาบ้านในอนาคต จากทำเล ขนาดบ้าน เป็นตัวเลขออกมาเป็น 1 ล้าน 2 ล้าน 3 ล้านก็ว่าไป
ส่วน Classification problem เป็นการพยายามที่จะทำนายคำตอบที่เป็น discrete output หรือคำตอบที่ไม่ต่อเนื่องกันเช่น ตอบคำถามว่าเป็นหมาหรือแมวดังตัวอย่างข้างบนที่ผมได้ยกตัวอย่างไป
Classification
โดยหากจะให้เปรียบเทียบก็เหมือนกับการสอนเด็ก ลองนึกภาพว่าเราชี้ภาพสัตว์ให้เด็กที่ไม่เคยเห็นดู แล้วบอกว่าสัตว์ตัวไหนคือแมว ตัวไหนไม่ใช่แมว ชี้ไป 2–3 วัน ให้เด็กได้เจอสัตว์หลายๆ ประเภท จนเด็กเริ่มเข้าใจ วันที่ 4–5 เราอาจจะลองเอาแมวตัวที่เด็กไม่เคยเห็นมาให้ดูสัก 10 ตัว รวมกับสัตว์อื่นๆ อีกจำนวนหนึ่ง โดยคราวนี้เราไม่บอกว่าสัตว์ตัวไหนคือแมว ตัวไหนไม่ใช่แมว การสอนแบบนี้เรียกว่า Classification แบบไม่ซับซ้อน
Classification
ในทำนองเดียวกัน หากเราสอนเด็กไปเลยว่า สัตว์ที่เด็กเห็นนั้นเป็น แมว หมา หรือหมู เด็กก็อาจจะตอบได้มากกว่าแค่ แมว หรือไม่ใช่แมว วิธีนี้อาจจะต้องใช้กระบวนการสอนที่มีความซับซ้อนมากขึ้นไปอีก เราเรียกวิธีการสอนเด็ก แบบนี้ว่า Classification แบบซับซ้อน ซึ่งจะได้ผลลัพธ์ตามภาพด้านล่างครับ
Regression
วันถัดมา เราเรียกเด็กอีกคนมาสอนเรื่องราคาเพชร (diamond) เราหยิบเพชรอันนึง ขนาด 2 กะรัต สีเหลือง ระดับความสะอาด แล้วบอกเด็กว่า เนี่ยราคา 2 ล้านบาท หยิบอีกเม็ดขนาด 3 กะรัต สีฟ้า ระดับความสะอาด แล้วบอกเด็ก 3 ล้านบาท ทำแบบนี้ไปหลายๆ เม็ดจนเด็กเกิด model หรือ logic ในการคาดเดาราคาของเพชรขึ้นในหัว จนวันนึงสุ่มหยิบเพชรเม็ดใหม่ขึ้นมา ก็อาจให้เด็กคาดเดาราคาได้เลย เราเรียกกระบวนการสอนเด็กแบบนี้ว่า Regression
ในปัจจุบันมีการนำ AI model แบบ Supervised Learning นี้ไปประยุกต์ใช้แก้ปัญหาหลากหลายรูปแบบมากๆ
Speech Recognition — ใน application ผู้ช่วยส่วนตัวในมือถือต่างๆ เช่น ซีเรีย มีการนำ AI ไปใช้ในการรับรู้คำพูดของเรา
Style Transfer — บางคนอาจเคยได้ลองใช้ใน application เกี่ยวกับภาพถ่ายมันเป็นการนำเอาเทคนิคในการวาดภาพ หรือคุณลักษณะเด่นในภาพๆ นึง ไปใช้กับภาพอื่นๆ ที่เราต้องการ เช่น นำเอาเทคนิคการใช้สีน้ำมัน ในภาพ Mona Lisa มาใช้กับภาพอื่นๆ ทำให้เหมือนกับ เลโอนาร์โด ดา วินชี มาเป็นคนวาดเองเลยทีเดียว
Face Detection — เป็นสิ่งที่พบเห็นได้ทั่วไป เช่น เวลาเราโพสรูปภาพลงใน Facebook เราจะเห็นกรอบสี่เหลี่ยมล้อมรอบใบหน้าของคนในภาพ เพื่อให้เรา tag
การนำหัวข้อที่เกี่ยวข้องกับสถิติมาประยุกต์ในการแก้ไขปัญหา
Supervised Classification
การจําแนกข้อมูลแบบกํากับดูแล (Supervised Classification) โดยวิธี Maximum Likelihood Classifier เป็นการจําแนกข้อมูลโดยที่ผู้วิเคราะห์สามารถทราบตําแหน่งและลักษณะ ของสิ่งปกคลุมดินที่ต้องการ วิเคราะห์จากในข้อมูลภาพ ดังนั้นจึงสามารถกําหนดพื้นที่ตัวอย่าง ของสิ่งปกคลุมดินได้เพื่อเป็นตัวแทนในการวิเคราะห์เชิงสถิติให้กับข้อมูลภาพทั้งหมด โดยทําการ กําหนดพื้นที่เดียวกันทั้งหมดทุกภาพโดยการจําแนกข้อมูลแบ่งเป็น 2 ส่วนหลักๆ ดังนี้ – พื้นที่ในส่วนของหญ้าทะเล – พื้นที่อื่นๆ หมายถึงข้อมูลบริเวณที่ไม่ใช่หญ้าทะเลในพื้นที่ศึกษา
Based Classification
การแบ่งส่วนของภาพ (Image Segmentation) เป็นเทคนิคการจับกลุ่มของวัตถุที่ปรากฏบน ภาพที่มีลักษณะแบบเดียวกัน โดยภาพจะถูกแบ่งจะเป็นวัตถุบนภาพที่ยังไม่มีความหมาย โดยใน การศึกษานี้ใช้วิธีแบ่งส่วนแบบ Segmentation เป็นการจับกลุ่มของข้อมูลที่เริ่มจะจุดภาพ (Pixel) แต่ละจุดที่มีลักษณะเดียวกันมารวมกันเป็นกลุ่มวัตถุที่มีขนาดใหญ่ขึ้น จนกว่าจุดภาพข้างเคียงเป็น จุดภาพที่มีลักษณะที่ไม่เหมือนกัน ซึ่งวัตถุเหล่านี้จะถูกให้ความหมายในขั้นตอนของการจําแนกข้อมูล
Rule based Classification
ในการศึกษานี้จะประยุกต์ใช้ Rule based Classification เพื่อที่จะมาจําแนกพื้นที่ โดย เลือกมาทั้งหมด 3 ชนิด เพื่อเป็นกลุ่มตัวอย่างในการจําแนก คือ หญ้าทะเล พื้นที่บก (Land) และ นํ้าทะเล (Sea) และใช้ค่าช่วงดัชนีผลต่างพืชพรรณ (The Normalized Difference Vegetation) เข้ามาช่วยในการจําแนกพื้นที่ทั้ง 3 ชนิด โดยอ้างอิงตําแหน่งที่ตั้งจาก การลงภาคสนาม ทําให้ได้ค่าช่วงของแต่ละชนิด ดัชนีผลต่างพืชพรรณ (The Normalized Difference Vegetation ) เป็น เครื่องมือในการวิเคราะห์และทํานายการเปลี่ยนแปลงของพืชพรรณ สามารถแสดงให้เห็นรูปแบบ ของพืชพรรณที่แตกต่างกัน โดย The Normalized Difference Vegetation ) จะสามารถจําแนกหญ้าทะเลและแสดงในรูปแบบของพื้นที่