ความเข้าใจเครื่องมือแปลภาษาระบบประสาท
ปัญญาประดิษฐ์แปลวรรณกรรม “ได้ดี” เพียงไร

ปัญญาประดิษฐ์แปลวรรณกรรม “ได้ดี” เพียงไร
ปัญญาประดิษฐ์แปลวรรณกรรม “ได้ดี” เพียงไร | Philippos Vassiliades | CC-BY-SA

ตอนเปิดตัวครั้งแรกในปีพ.ศ. 2549 Google Translate แปลภาษาได้เพียง 2 ภาษาเท่านั้น และภายในปีพ.ศ.2559 ระบบนี้รองรับการแปลได้มากกว่า 103 ภาษา รวมทั้งยังแปลมากกว่า 1 แสนล้านคำต่อวัน ตอนนี้ นอกจาก Google Translate จะใช้เพื่อแปลภาษาแล้ว ยังใช้เพื่อถอดเสียงภาษาได้แบบเรียลไทม์ ซึ่งถอดเป็นภาษาต่างๆ ที่ใช้กันแพร่หลายมากที่สุดได้ถึง 8 ภาษา คอมพิวเตอร์กำลังเรียนรู้และเรียนรู้ได้รวดเร็วเสียด้วย

บทความโดย อลานา คัลเลน
 

ปัจจุบันมีรหัสภาษาบางชุดที่เอไอ (AI) ยังถอดไม่ได้ รวมทั้งเอไอยังมีปัญหากับความซับซ้อนนานัปการของภาษามนุษย์ และผลงานทางภาษาที่ซับซ้อนมากที่สุด คือ วรรณกรรม ความสวยงามของภาษาในนวนิยาย กวีนิพนธ์ และบทละครจะปรากฏอยู่ในความละเอียดอ่อนของภาษา แต่เนื่องจากการแปลด้วยเครื่องทำได้เพียงทีละคำตามกฎเกณฑ์ที่นักภาษาศาสตร์กำหนดไว้ ดังนั้นการแปลด้วยเครื่องยุคแรกๆ จึงจับความหมายแฝงของตัวบทประเภทวรรณกรรมไม่ได้ ระบบไม่สามารถเข้าใจบริบทสำคัญของประโยคนั้น ย่อหน้า และหน้าที่มีคำนั้นๆ ปรากฏอยู่

อย่างไรก็ตาม ปัจจุบันนี้มีเทคโนโลยีใหม่ที่กำลังเรียนรู้เพื่อให้เข้าใจบริบทอันยุ่งเหยิงมากยิ่งขึ้น เทคโนโลยีชนิดนี้เรียกว่าการแปลด้วยเครื่องที่จำลองการทำงานของระบบประสาท (Neural Machine Translation - NMT) แม้ว่าจะอยู่เพียงแค่ในระยะเริ่มต้น แต่ NMT ได้พิสูจน์แล้วว่าระบบนี้จะเรียนรู้วิธีจัดการกับความซับซ้อนของการแปลวรรณกรรมได้ทันการ NMT นับเป็นจุดเริ่มต้นของปัญญาประดิษฐ์สมัยใหม่ เครื่องมือนี้จะไม่ทำตามกฎที่นักภาษาศาสตร์กำหนดไว้อีกต่อไป แต่จะสร้างกฎหรือแม้แต่สร้างภาษาขึ้นมาเอง

การแปลด้วยเครื่องที่จำลองการทำงานของระบบประสาท (NMT)

NMT เป็นซอฟต์แวร์แปลภาษาซึ่งเปิดตัวเมื่อปีพ.ศ. 2559 และประสบความสำเร็จมากที่สุดในปัจจุบัน เมื่อเปรียบเทียบกับการแปลภาษาด้วยเครื่องแบบใช้สถิติ (Statistical Machine Translation: SMT) นอกจาก NMT จะลดข้อผิดพลาดในการแปลภาษาได้ถึงร้อยละ 60 แล้วยังแปลได้เร็วกว่ามากด้วย

ความก้าวหน้าเหล่านี้เกิดจากโครงข่ายประสาทเทียมของระบบ (system’s artificial neural network) ซึ่งจำลองจากเซลล์ประสาทในสมองของมนุษย์ ระบบนี้ช่วยสร้างความเชื่อมโยงทางบริบทที่สำคัญระหว่างคำและวลีได้ เนื่องจากระบบดังกล่าวได้รับการฝึกให้เรียนรู้กฎเกณฑ์ของภาษาโดยใช้วิธีจับตัวอย่างประโยคหลายล้านประโยคจากฐานข้อมูลของระบบเพื่อจำแนกคุณสมบัติเด่นของภาษา จากนั้นเครื่องมือจะใช้กฎเหล่านี้เพื่อสร้างแบบจำลองทางสถิติซึ่งช่วยให้เครื่องมือได้เรียนรู้ว่าควรสร้างประโยคอย่างไร

ระบบการทำงานของโครงข่ายประสาทเทียม: ประโยคต้นฉบับถูกป้อนเข้าสู่ระบบ จากนั้นระบบจะส่งไปยัง “ชั้นต่าง ๆ” ที่ซ่อนอยู่ ก่อนที่ประโยคนั้นจะถูกส่งกลับมาเป็นภาษาปลายทางในที่สุด
ระบบการทำงานของโครงข่ายประสาทเทียม: ประโยคต้นฉบับถูกป้อนเข้าสู่ระบบ จากนั้นระบบจะส่งไปยัง “ชั้นต่าง ๆ” ที่ซ่อนอยู่ ก่อนที่ประโยคนั้นจะถูกส่งกลับมาเป็นภาษาปลายทางในที่สุด | Alana Cullen | CC-BY-SA
ภาษาประดิษฐ์

คุณสมบัติที่โดดเด่นของ NMT คือ การที่ระบบใช้ “ภาษาทั่วไป” ภาษาใหม่ซึ่งประกอบด้วยตัวเลขมาใช้
ยกตัวอย่างเช่นวลี “To thine own self be true” จากบทละครเรื่อง แฮมเลต (Hamlet) ของเชกสเปียร์ ขั้นแรก เครื่องมือจะถอดรหัสคำให้เป็นตัวเลข 1, 2, 3, 4, 5, 6 (รหัสข้อมูลประเภทนี้เรียกว่า “เวกเตอร์”) ชุดตัวเลขเหล่านี้จะเข้าสู่โครงข่ายประสาทเทียมดังทางซ้ายของแผนผังระบบข้างต้นซึ่งอยู่ในชั้นต่างๆ ที่ซ่อนอยู่ ซึ่งเป็นจุดที่ความมหัศจรรย์บังเกิด จากนั้นระบบจะค้นหาคำในภาษาเยอรมันที่เหมาะสมที่สุดโดยอิงจากการเรียนรู้ของระบบ อีกทั้งยังสร้างตัวเลข 7,8,9,10,11 เพื่อให้กฎเกณฑ์ต่าง ๆ สอดคล้องกับคำที่ปรากฏในประโยคภาษาเยอรมัน ตัวเลขเหล่านี้จะแปลงค่าไปเป็นภาษาปลายทาง ซึ่งแปลได้ว่า “Zu dir selber treu sein”

โดยพื้นฐานการทำงานของระบบ ระบบจะแปลความหมายของคำศัพท์ให้เป็นภาษาของตัวเอง และจากนั้นจึง “คิด” วิธีเพื่อถ่ายทอดให้เป็นประโยคที่เข้าใจได้โดยอาศัยจากสิ่งที่ระบบเรียนรู้มาแล้ว แนวทางการทำงานของ NMT ในลักษณะดังกล่าวนี้จึงเหมือนวิธีการทำงานของสมองมนุษย์

การทำความเข้าใจบริบท

คุณจะรู้คำศัพท์ได้จากการเห็นคำที่อยู่ด้วยกัน

จอห์น อาร์ เฟิร์ธ (พ.ศ. 2500) บิดาแห่งภาษาศาสตร์แบบพึ่งพาบริบท

NMT ประสบความสำเร็จในการแปลวรรณกรรม เพราะเครื่องมือเริ่มวิเคราะห์บริบทแวดล้อม อีกทั้ง NMT ไม่ได้มุ่งเน้นเพียงคำที่ต้องการแปลเท่านั้น แต่ยังให้ความสำคัญต่อคำศัพท์ที่ปรากฏอยู่ก่อนหน้าภายหลังอีกด้วย

โครงข่ายประสาทเทียมนี้เหมือนกับระบบสมองมนุษย์อยู่มากในการถอดรหัสข้อมูลที่ได้รับมาและสร้างคำถัดไปโดยอิงจากคำศัพท์ที่อยู่รอบๆ เมื่อเวลาผ่านไป ระบบจะ “เรียนรู้” ว่าจะมุ่งเน้นที่คำใดและเชื่อมโยงบริบทที่จุดใดได้ดีที่สุด โดยอาศัยจากตัวอย่างประโยคที่เคยพบ กระบวนการนี้เป็นรูปแบบของ “การเรียนรู้ข้อมูลเชิงลึก (Deep learning)” ที่ช่วยให้ระบบแปลภาษาเรียนรู้และปรับปรุงให้ดีขึ้นได้อย่างต่อเนื่องเมื่อเวลาผ่านไป ส่วนการถอดรหัสบริบทใน NMT จะเรียกว่า “การจัดวางตำแหน่ง (Alignment)” เป็นกระบวนการที่เกิดขึ้นในกลไกการให้ความสำคัญ (Attendtion Mechanism) ซึ่งเป็นกลไกที่เกิดขึ้นระหว่างการเข้ารหัสและการถอดรหัสในระบบของเครื่องมือ
กระบวนการจัดตำแหน่ง: การจัดตำแหน่งมักเกิดขึ้นในกลไกการให้ความสำคัญของโครงข่ายประสาทเทียมและพิจารณาบริบทแวดล้อมของคำ
การจัดตำแหน่งมักเกิดขึ้นในกลไกการให้ความสำคัญของโครงข่ายประสาทเทียมและพิจารณาบริบทแวดล้อมของคำ | Alana Cullen | CC-BY-SA
แน่นอนว่าเครื่องแปลภาษายังไม่สมบูรณ์แบบมากนัก เพราะเมื่อใช้เครื่องมือแปลกลับไปเป็นภาษาอังกฤษ วลีจะมีความหมายว่า “Be true to yourself” ซึ่งจะเห็นว่าประโยคนี้ไม่ได้แสดงน้ำเสียงเสียงหรือระดับภาษาเชกสเปียร์ในสมัยทิวดอร์เลย หากเครื่องมือแปลภาษาแปลความหมายคำต่อคำจะแปลเป็นภาษาเยอรมันได้ว่า “Sei deinem eigenen Selbst treu” แต่เมื่อให้มนุษย์เป็นผู้แปลภาษา วลีนี้ของเชกสเปียร์จะแปลว่า “Sei dir selbst treu”
การแปลภาษาของมนุษย์: เมื่อมนุษย์เป็นผู้แปลภาษา การสร้างประโยคของมนุษย์จะซับซ้อนกว่าการใช้เครื่องมือแปลภาษา เนื่องจากมนุษย์เข้าใจบริบทของภาษาในระดับสูงกว่า
เมื่อมนุษย์เป็นผู้แปลภาษา การสร้างประโยคของมนุษย์จะซับซ้อนกว่าการใช้เครื่องมือแปลภาษา เนื่องจากมนุษย์เข้าใจบริบทของภาษาในระดับสูงกว่า | Alana Cullen | CC-BY-SA
สิ่งที่น่าตื่นเต้นจากการแปลข้างต้น คือ วิธีแปลความหมายของคำว่า “treu” ในบริบทนี้ เพราะ Google Translate แยกแยะความหมายระหว่างคำว่า “treu” กับคำที่มีความหมายใกล้เคียงกันได้ โดย “treu” มีความหมายว่า “true” ในบริบทการแสดงความซื่อสัตย์ต่อสิ่งหนึ่ง ส่วนคำว่า “wahr” ซึ่งเป็นคำที่มีความหมายว่า “true” เช่นเดียวกัน แต่ใช้ในบริบทด้านการแสดงความถูกต้องของสิ่งหนึ่งตามความเป็นจริง
การเรียนรู้ข้อมูลเชิงลึกเป็นแนวทางที่แสดงให้เห็นว่าวลีที่แปลผิดมักได้รับการแก้ไขอย่างน้อยในอีก 2-3 สัปดาห์ต่อมา (บางทีถ้าบทความนี้เผยแพร่ออกไป Google Translate อาจจะแก้ไขข้อผิดพลาดเหล่านั้นก็เป็นได้)

การปรับปรุงเครื่องมืออย่างต่อเนื่องควบคู่ไปกับภาษาของเครื่องมือเอง ทำให้เห็นว่า NMT เรียนรู้สิ่งต่างๆ เพื่อแสดงศักยภาพการแปลภาษาที่ใช้เพื่อเชื่อมโยงภาษาหนึ่งไปอีกภาษาหนึ่งทันทีโดยไม่จำเป็นต้องใช้ภาษาอังกฤษเป็นตัวกลาง วิธีการนี้ทำให้เห็นว่าเครื่องมือแปลภาษาฝึกฝนจนกลายเป็นเครื่องมือที่สมบูรณ์แบบได้เช่นเดียวกับมนุษย์

ข้อบกพร่องของการแปลโดยปัญญาประดิษฐ์

แม้ว่าเราจะใช้เครื่องมือแปลภาษามาอย่างยาวนาน แต่เครื่องมือแปลภาษาก็ยังคงมีข้อบกพร่องเรื่องมาตรฐานการแปลวรรณกรรมให้เป็นที่ยอมรับได้อยู่ เฮนรี เจมส์เน้นย้ำถึงความสำคัญของการเข้าใจตัวบทวรรณกรรมของภาษาต้นฉบับไว้ว่านักแปลวรรณกรรมในอุดมคติจะต้องเป็นคนที่ “ไม่มีอะไรจะเสียแล้ว” อีกทั้งยังกล่าวว่าเครื่องมือนี้ยังคงไม่ใช่การแปลในอุดมคติของยุคปัจจุบัน

NMT ยังมีปัญหากับคำต่างๆ ทั้งคำที่พบไม่บ่อย คำนามที่เหมาะสม รวมไปถึงศัพท์เฉพาะในวรรณกรรม โดยมีเพียงร้อยละ 25-30 ของผลการศึกษาเท่านั้นที่ถือว่าวรรณกรรมที่แปลจากเครื่องมือแปลภาษาจะมีคุณภาพและเป็นที่ยอมรับ งานวิจัยเกี่ยวกับการแปลนวนิยายจากภาษาเยอรมันเป็นภาษาอังกฤษฉบับหนึ่ง (ดูข้อมูลอ้างอิงส่วนท้าย: The Challenges of Using Neural Machine Translation for Literature) พบว่าหากคำใดที่เกิดข้อผิดพลาดทางไวยากรณ์เพียงเล็กน้อย ประโยคจะสูญเสียความหมายของคำดังกล่าวไป แม้ว่าจะมีข้อผิดพลาดดังกล่าว แต่นักวิจัยได้พบว่าเนื้อหาที่แปลผ่านเครื่องมือแปลภาษายังคงมีคุณภาพสูงเพียงพอที่ผู้อ่านจะเข้าใจเรื่องราวและอ่านได้อย่างเพลิดเพลิน

นอกจากนี้ งานวิจัยอีกฉบับหนึ่งที่เกี่ยวกับการแปลนวนิยายจากภาษาอังกฤษเป็นภาษาคาตาลันได้แสดงผลการศึกษาที่น่าประทับใจเช่นเดียวกัน ผลการวิจัยกล่าวว่าเจ้าของภาษาจำนวนร้อยละ 25 โดยเฉลี่ยรู้สึกว่าการแปลของเครื่องมือแปลภาษามีคุณภาพเทียบเท่ากับการแปลจากมนุษย์ (ดูข้อมูลอ้างอิงส่วนท้าย: NMT translates literature with 25% flawless rate)

อย่างไรก็ตาม ระบบของเครื่องมือแปลภาษาก็ทำงานได้ไม่เท่าเทียมกันทุกภาษา โดยเฉพาะภาษาต่าง ๆ ที่มีโครงสร้างไวยากรณ์ซับซ้อนและการผันคำค่อนข้างมาก เช่น ภาษาสลาวิก ภาษานี้เป็นภาษาที่เห็นได้ชัดว่าอาจเกิดข้อผิดพลาดได้หากแปลภาษาต้นฉบับที่มีโครงสร้างซับซ้อนน้อยกว่าไปสู่ภาษาปลายทางที่มีโครงสร้างซับซ้อนมากกว่าด้วยเครื่องมือแปลภาษา ซึ่งผลดังกล่าวทำให้เห็นว่ายังใช้ NMT เป็นเครื่องมือแปลภาษาทั่วโลกไม่ได้

การค้นหาน้ำเสียงที่เหมาะสม

สิ่งที่ท้าทายที่สุดของเครื่องมือแปลภาษา คือ การค้นหาน้ำเสียงและระดับภาษาที่ถูกต้องในวรรณกรรมฉบับแปล

เครื่องมือจะเลียนแบบอะไร การแปลของเครื่องมือจะรักษาความเป็นต่างประเทศไว้อย่างชาญฉลาดหรือปรับให้เข้ากับวัฒนธรรมปลายทางได้อย่างน่าตื่นเต้น จะทำให้เหมือนว่าเชคอฟเพิ่งแต่งเรื่องขึ้นมาเมื่อ 10 นาทีที่แล้วที่ลอนดอน

ปีเตอร์ คอนสแตนทีน (พ.ศ. 2562)

เครื่องมือแปลภาษาจะเลือกน้ำเสียงแบบใด หากพูดถึงโธมัส มันน์ นักเขียนรางวัลโนเบลสาขาวรรณกรรม รูปแบบการเขียนของเขามักเปลี่ยนไปตามกาลเวลา โดยเรื่องราวที่เขาแต่งขึ้นในช่วงแรกๆ มีความสนุกสนานมากกว่านวนิยายในภายหลังที่เข้มข้นมากกว่า ฉะนั้นหากเครื่องมือแปลภาษาต้องการสื่อความหมายตามบริบทของเรื่อง เครื่องมือจำเป็นต้องเข้าใจและจดจำการแปรของน้ำเสียงเหล่านี้เพื่อสื่อความหมายตามที่ตั้งใจไว้ให้ได้

ความร่วมมือสำคัญ

เห็นได้ชัดว่า แม้ว่าเครื่องแปลจะทำงานอย่างดีที่สุด ความคลุมเครือและความยืดหยุ่นของภาษามนุษย์ที่พบในวรรณกรรมแสดงให้เห็นว่าการแปลวรรณกรรมก็ยังคงต้องการให้มนุษย์เกลาภาษา NMT ทำหน้าที่แทนมนุษย์ไม่ได้ ทำได้เพียงเป็นเครื่องมือที่ช่วยการแปลวรรณกรรมเท่านั้น

การทำงานร่วมกันระหว่างมนุษย์กับระบบแปลภาษาเป็นสิ่งสำคัญ เนื่องจากปัญหาต่าง ๆ ที่พบในระบบแปลภาษาจะแก้ไขได้โดยให้นักแปลเกลาข้อความและแก้ไขภาษาหลังจากระบบแปลภาษาแสดงผลการแปลเรียบร้อยแล้ว วิธีนี้เรียกว่าวิธีการตรวจคำแปลหลังการแปลด้วยระบบแปลภาษา (Post-edited machine translation) จะเห็นว่าวิธีการดังกล่าวนี้มีลักษณะคล้ายกับวิธีการทำงานเป็นทีมระหว่างนักแปลมืออาชีพกับนักแปลมือใหม่ โดยนักแปลมืออาชีพจะคอยช่วยปรับแก้และเกลาข้อความงานแปลของนักแปลมือใหม่ การตรวจคำแปลแบบคร่าวๆ หลังการแปลด้วยระบบแปลภาษา วิธีนี้จะเน้นการแก้ไขผิดพลาดเบื้องต้น เช่น การแก้การสะกดคำและไวยากรณ์ ส่วนการตรวจคำแปลอย่างละเอียดจะช่วยแก้ข้อผิดพลาดต่างๆ ที่ยากยิ่งขึ้น เช่น โครงสร้างประโยคและรูปแบบการเขียน ดังนั้นเมื่อนักแปลต้องตรวจคำแปลอย่างละเอียด นักแปลอาจต้องแก้ไขระดับภาษาและน้ำเสียงของงานเขียนให้ถูกต้องด้วย นักวิจัยที่ศึกษาการแปลนวนิยายแนวไซ-ไฟจากภาษาเกลิคสกอตเป็นภาษาไอริชพบว่าวิธีนี้เร็วกว่าการแปลตั้งแต่ขั้นเริ่มต้นถึงร้อยละ 31 (ดูข้อมูลอ้างอิงในตอนท้าย: Post-editing Effort of a Novel With Statistical and Neural Machine Translation) และเมื่อแปลวรรณกรรมด้วยวิธีตรวจคำแปลของระบบแปลภาษา ประสิทธิภาพการทำงานของนักแปลก็เพิ่มขึ้นร้อยละ 36 ด้วย เมื่อเทียบกับการแปลตั้งแต่ขั้นเริ่มต้น โดยนักแปลแปลได้มากขึ้นถึง 182 คำต่อชั่วโมง

เอไอมีบทบาทสำคัญมากขึ้นในชีวิตของพวกเราทุกคน เครื่องมือแปลภาษาก็เป็นเครื่องมือสำคัญที่ช่วยขับเคลื่อนอุตสาหกรรมไปข้างหน้า เครื่องแปลภาษาก้าวหน้าไปจากจุดเริ่มต้นไปไกลมากและนำมาใช้ช่วยตรวจแก้ต้นฉบับแปลวรรณกรรมในส่วนที่ไม่ต้องใช้สมองและนักแปลมาปรับให้เข้าที่ภายหลัง ซึ่งไม่เพียงแต่ลดภาระนักแปลลง แต่ NMT เปิดประตูสู่มิติใหม่ๆ ของภาษา ตั้งแต่การแปลตัวบทที่ไม่เคยแปลมาก่อน ไปจนถึงการช่วยเรียนรู้ภาษา การทำงานร่วมกับเอไอจึงเป็นเครื่องมือเรียนรู้เพื่อให้ทุกคนเข้าถึงวรรณกรรมและภาษาได้มากขึ้น

อ้างอิง:

Brownlee, J. 2017. A Gentle Introduction to Neural Machine Translation. [Accessed 9th July 2020].

Constantine, P. 2019. Google Translate Gets Voltaire: Literary Translation and the Age of Artificial Intelligence. Contemporary French and Francophone Studies. 23(4), pp. 471- 479.

Goldhammer, A. 2016. The Perils of Machine Translation. The Wire. [Accessed 14th July 2020].

Google Brain Team. 2016. A Neural Network for Machine Translation, at Production Scale. [Accessed 9th July 2020].

Gu, J., Wang, Y., Chu, K., Li. V. O. K. 2019. Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations.arXiv. [Accessed 10th July 2020].

Iqram, S. 2020. Now you can transcribe speech with Google Translate. [Accessed 9th July 2020].

Jones, B., Andreas, J., Bauer, D., Hermann, K. M., and Knight, K. 2012. Semantics- Based Machine Translation with Hyperedge Replacement Grammars. Anthology. 12(1083), pp. 1359- 1376.

Kravariti, A. 2018. Machine Translation: NMT translates literature with 25% flawless rate. Translate Plus. [Accessed 14th July 2020].

Matusov, E. 2019. The Challenges of Using Neural Machine Translation for Literature. European Association for Machine Translation: Dublin, Ireland.

Maučec, M. S., and Donaj, G. 2019. Machine Translation and the Evaluation of Its Quality Recent Trends in Computational Intelligence. Intech Open.

Shofner, K. 2017. Statistical vs. Neural Machine Translation. ULG’s Language Solutions Blog. [Accessed 10th July 2020].

Systran. 2020. What is Machine Translation? Rule Based Translation vs. Statistical Machine Translation. [Accessed 9th July 202].

Toral, A., Wieling, M., and Way, A. 2018. Post-editing Effort of a Novel with Statistical and Neural Machine Translation. Frontiers in Digital Humanities. 5(9).

Turovsky, B. 2016. Ten years of Google Translate. [Accessed 9th July 2020].

Wong, S. 2016. Google Translate AI invents its own language to translate with. New Scientist. [Accessed 11th July].

Yamada, M. 2019. The impact of Google Neural Machine Translation on Post-editing by student translators. The Journal of Specialised Translation. 31, pp. 87- 95.

Zameo, S. 2019. Neural Machine Translation: tips and advantages for your digital translations. Text Master Go Global. [Accessed 14th July 2020].