TM: สมองกลเบื้องหลัง CAT Tool

6 พ.ค. 2563
ยาว 2 นาที

อัปเดตเมื่อ 28 ธ.ค. 2563

บทความนี้เป็นหนึ่งในบทความพื้นฐานเกี่ยวกับฟังก์ชันต่างๆ ภายใน CAT Tools ได้แก่ Translation Momory, Term ฺBase, Alignment จะทยอยเขียนเรื่อยๆ จนครบทุกฟังก์ชันนะคะ

สรุปเนื้อหา

Translation Memory (TM) คืออะไร

รู้จักคำว่า "Match" หรือเปอร์เซ็นต์ความคล้าย

Exact Match, Fuzzy Match และ No Match

ข้อควรระวังเวลาใช้ TM

สกุลไฟล์ TM และการนำไปใช้กับโปรแกรมอื่นๆ

เคยเป็นมั้ย เวลาแปลงานโปรเจคใหญ่แล้วเจอประโยค/วลีซ้ำๆ เรามักจะจำไม่ได้ว่าแปลประโยคนี้ไปว่ายังไง หลายครั้งต้องเลื่อนกลับไปดูหน้าก่อนๆ หรือบางครั้งต้องเปิดดูไฟล์อื่น จึงจะเห็นคำแปลเดิม ทำให้เสียเวลามาก

วันนี้จะมาทำความรู้จักกับ Translation Memory หรือ TM แปลเป็นภาษาไทยคร่าวๆ ได้ว่า “คลังคำแปล"

Translation Memory (TM) คืออะไร

Translation Memory หรือ TM คือ คลังข้อมูลที่บรรจุวลี/ประโยคต้นฉบับและฉบับแปลไว้คู่กันในรูปหน่วยคำแปล (Translation Unit: TU) โดย TM แต่ละไฟล์จะบรรจุหน่วยคำแปล (Translation Unit: TU) ไว้หลายคู่ เปรียบเสมือน "กรุคำแปล" เก่าๆ หรือคลังสมบัติของนักแปลแต่ละราย เมื่อนักแปลต้องแปลเอกสารใหม่ โปรแกรมช่วยแปลจะแบ่งต้นฉบับออกเป็นวลี/ประโยคย่อยๆ เรียกว่า segment หาก segment ดังกล่าวตรงกันกับหน่วยคำแปล (TU) ที่เก็บไว้ใน TM โปรแกรมก็จะดึงคำแปลเหล่านั้นขึ้นมาโดยอัตโนมัติ (Auto propagate) โดยที่นักแปลไม่ต้องเสียงเวลาค้นหาในหน้าก่อนๆ หรือในเอกสารอื่นๆ ทำให้เราแปลได้เร็วขึ้น

รู้จักคำว่า “Match” หรือเปอร์เซ็นต์ความคล้าย

เวลาเรียกใช้ TM สิ่งหนึ่งที่นักแปลจะเห็นในโปรแกรมคือ “Match” คำว่า “Match” หมายถึงเปอร์เซ็นต์ความคล้ายคลึงกันระหว่างประโยคในเอกสารที่กำลังแปลกับหน่วยคำแปลที่เก็บไว้ใน TM ยกตัวอย่างเช่น

จากตัวอย่างจะเห็นว่านักแปลเก็บหน่วยคำแปลไว้แล้วหนึ่งประโยคคือ “Mary goes to school” โดยแปลเป็นภาษาไทยว่า “แมร์รี่ไปโรงเรียน” เมื่อนักแปลเริ่มแปลเอกสารใหม่โดยใช้ TM เดิมที่มี TU นี้เก็บไว้ โปรแกรม CAT จะแจ้งเตือนว่าเอกสารที่กำลังแปลมีประโยคที่คล้ายคลึงกันกับคลังประโยคที่เก็บไว้ใน TM พร้อมกับเสนอคำแปลให้นักแปลว่า “แมร์รี่ไปโรงเรียน” โดยอัตโนมัติ

Exact Match, Fuzzy Match และ No match

ความคล้ายคลึงกันระหว่างประโยคที่กำลังแปลกับประโยคที่เก็บไว้ใน TM หรือ “Match” แบ่งออกเป็น 3 ประเภท คือ Exact Match, Fuzzy Match และ No Match

Exact Match ประโยคไหนซ้ำทั้งดุ้น ก็เรียกให้ทั้งดุ้น

Exact Match หมายถึง segment ใหม่ตรงกันกับหน่วยคำแปล (TU) ใน TM ทุกประการ ตั้งแต่ตัวอักษร และรูปแบบตัวอักษร (formatting) บางโปรแกรมจะเรียกลักษณะ "Match" แบบนี้ว่า "100% match" ถ้าบริบทแวดล้อมของประโยคนั้นตรงกันกับบริบทที่เก็บไว้ใน TM เป๊ะๆ (พูดง่ายๆ คือประโยคหน้า/หลังเหมือนกันอีก) จะเรียกว่า “101% match” (หนึ่งร้อยมันไม่พอ ฮ่าๆ) บางโปรแกรมใช้คำว่า “Context Match” “Perfect Match” “Guaranteed Match” หรือ “ICE match” มาดูตัวอย่าง Exact Match กัน

จากตัวอย่าง ใน Segment ที่ 29 (ประโยคที่ไฮไลท์สีฟ้า) จะเห็นว่า Trados Studio เสนอคำแปลของประโยคต้นฉบับ (“Foam Leather Cleaner, Boot Cream”) ว่า “น้ำยาทำความสะอาดชนิดโฟม ครีมบำรุงรองเท้า” ให้อัตโนมัติ เนื่องจากพบว่าต้นฉบับที่กำลังแปลตรงกันหน่วยคำแปลใน TM เป๊ะๆ เมื่อดูหน้าต่าง TM ด้านบน จะเห็น TU ที่โปรแกรมพบ พร้อมแถบสีเขียวเขียนว่า “CM” หรือ Context Match แปลว่า Segment นี้ซ้ำกันกับ TM ถึงขั้นระดับบริบทเลย คือประโยคหน้า-หลังก็ตรงกันกับประโยคที่เรียงไว้ใน TM อีก เมื่อนักแปลเลื่อนมาถึง Segment นี้ ก็ไม่ต้องเคาะแป้นพิมพ์แปลเลย โปรแกรมจะดึงประโยคภาษาไทยมาให้อัตโนมัติ

Fuzzy Match ประโยคไหนซ้ำบางส่วน ก็เสนอให้ใช้เป็นแนวทาง พร้อมชี้จุดต่าง

Fuzzy Match หมายถึง segment ใหม่ตรงกันกับหน่วยคำแปล (TU) ใน TM บางส่วน หรือตั้งแต่ 99% ลงมา จนถึงค่าขั้นต่ำที่ตั้งไว้ (เรียกว่าค่า threshold) บางโปรแกรมอาจตั้งค่าขั้นต่ำ (Threshold) ไว้ที่ 75% บางโปรแกรม ตั้งไว้ที่ 65% เราสามารถตั้งค่าตรงนี้ได้ตามใจชอบเลย ยิ่งต่ำก็ยิ่งเห็น TU ที่โปรแกรมจะเสนอมากขึ้น

เมื่อเจอ Fuzzy Match โปรแกรมจะเรียก TU ที่ตรงกันบางส่วนขึ้นมาเสนอนักแปลพร้อมชี้จุดต่างด้วยการขีดเส้นใต้บ้าง ตัดส่วนที่หายไปบ้าง นักแปลจะต้องพิจารณา TU นั้นและแปลตามความเหมาะสม ยกตัวอย่างเช่น

จากตัวอย่าง จะเห็นว่า Segment ที่ 120 มีรูปประโยคคลัายกับประโยคที่เก็บไว้ใน TM บางส่วน (คล้ายกัน 93%) Trados Studio จึงเสนอ TU ที่คล้ายคลึงกันกับประโยคที่กำลังแปล พร้อมชี้จุดต่างให้เราเห็น คือ คำว่า “Amber” ซึ่งเป็นคำใหม่ ไม่ปรากฎในหน่วยคำแปลนี้ และขีดฆ่าคำว่า “Oro-Russet” ที่ถูกแทนที่ด้วย Amber แทน นักแปลจะใช้ประโยคที่โปรแกรมเสนอเป็นแนวทางในการแปลโดยไม่ต้องเสียเวลาแปลจุดที่ซ้ำกันใหม่อีกรอบ กรณีนี้จุดต่างไม่ค่อยเยอะมาก โปรแกรมจะดึงทั้งประโยคให้เลย นักแปลต้องแปลคำว่า Amber ใหม่เท่านั้น

No Match ต่ำกว่าค่าขั้นต่ำ เราไม่เสนอ

No Match หมายถึง segment ใหม่ไม่ตรงกันกับหน่อยคำแปลใน TM หรือตรงกันน้อยกว่าค่าขั้นต่ำ (Threshold) ที่ตั้งไว้ในโปรแกรม หากเจอ No Match โปรแกรมจะไม่เสนอ TM ขึ้นมาให้นักแปลเห็นเลย ยกตัวอย่างเช่น

จากตัวอย่าง จะเห็นว่าหน้าต่าง TM ด้านบนโล่งโจ่ง หมายความว่าโปรแกรมไม่พบ TU ใดๆ ที่ตรงกันกับ Segment ที่ 168 เลย นักแปลสามารถแปลประโยคนี้ใหม่และเก็บไว้ใช้ในคลังคำแปลต่อในอนาคต

ข้อควรระวังเวลาใช้ TM

TM ทำให้คำแปลไม่ลักลั่น แต่ถ้าใช้ไม่เป็นจะประโยคจะฝืด ไม่เป็นธรรมชาติ

TM ช่วยให้นักแปลประหยัดเวลาแปลประโยคเดิมซ้ำๆ สมมุติว่าต้องแปลคู่มือเครื่องมือแพทย์ ความยาว 300 หน้าและมี segment ที่เขียนว่า “page 1” ทุกหน้า นักแปลไม่ต้องแปล Segment นี้ทุกอัน เพียงแค่แปลครั้งแรกว่า “หน้า 1” โปรแกรมจะช่วยแปล Segment ที่เหลือพร้อมแก้ไขเลขหน้าให้อัตโนมัติ หรือถ้าเป็น Segment ที่ยาวกว่านี้เช่น “xxxx Safety Manual Version 1.9” ระบบก็จะดึงคำแปลมาให้อัตโนมัติเช่นกัน ถือเป็นฟังก์ชันที่สะดวกและช่วยทุ่นแรงนักแปลมากๆ อย่างไรก็ตาม นักแปลหลายคนกลับขยาดกับการใช้ CAT tool ด้วยเหตุผลว่า “แปลแล้วไม่เป็นธรรมชาติ” “แปลแล้วเหมือนใช้เครื่องแปล” ประเด็นนี้จะเกิดขึ้นเมื่อต้องแปล segment ที่ซ้ำกับประโยคที่เก็บไว้ใน TM เพียงแค่บางส่วนหรือเป็น fuzzy match นักแปลมักจะถูก TM ดึงความสนใจไปกับประโยคเดิม ทำให้คงรูปประโยคเดิมไว้ ทั้งที่เวลามองทั้งประโยค สามารถแปลให้ลื่นได้มากกว่านั้น อย่าลืมว่า TM เป็นเพียงเครื่องมือที่ช่วย “คุม” ประโยคที่แปลแล้วไม่ให้ลักลั่น นักแปลควรใช้วิจารณญาณในการแปลโดยมองบริบทภาพรวมอีกครั้งนะ

TM ขนาดสั้นมักสร้างปัญหาปวดหัว

ปัญหาปวดหัวมักเกิดเมื่อแปล segment ขนาดสั้น เช่น ต้นฉบับมีคำโดดคำเดียวว่า “Title” นักแปลจะต้องพิจารณาว่าบริบทของเอกสารนั้นคืออะไร ควรแปลว่า “หัวเรื่อง” หรือว่า “ตำแหน่ง” กันแน่ สมมุติว่าเอกสารที่แปลเป็นแอปพลิเคชั่นบริหารจัดการบุคคลากร นักแปลแปล “Title" ว่า "หัวเรื่อง” เมื่อมาถึง Segment ที่เจอคำว่า “Title” อีก โปรแกรม CAT จะเสนอคำแปลว่า “หัวเรื่อง” ให้อัตโนมัติ ทำให้บางครั้งนักแปล “เผลอ” ใช้คำแปลดังกล่าวโดยไม่ทันได้สังเกตบริบทแวดล้อม บางครั้งบริบทก็ถูกบทบังเนื่องจากไม่เห็น UI ของแอปพลิเคชั่นด้วย เพราะฉะนั้นนักแปลจะต้องสังเกตบริบทให้ดี และอย่างเชื่อใจ TM มาก

สกุลไฟล์ TM และการนำ TM ไปใช้กับโปรแกรมอื่นๆ (File Compatibility)

ฐานข้อมูล Translation Memory (TM) อยู่ในไฟล์สกุล .TMX (Translation Memory Exchange) เป็นไฟล์มาตรฐานที่ได้รับการยอมรับและใช้เป็นไฟล์แลกเปลี่ยนกันระหว่างโปรแกรม CAT ต่างๆ เดิมทีในปี 1998 OSCAR (Open standards for Container/Content Allowing Re-use) หน่วยงานใต้สังกัด LISA (Localization Industry Standards Association) เป็นผู้คิดค้นสกุลไฟล์ดังกล่าวโดยบันทึกไว้ในรูปแบบไฟล์ XML (eXtentible Markup Language) แต่เมื่อ LISA ถูกประกาศล้มละลาย ทำให้สกุลไฟล์ตลอดจนมาตรฐานต่างๆ ถูกปัดไปเป็น Creative Common License หมด พูดง่ายๆ ก็คือใครจะนำไปพัฒนาต่อก็ได้ ทำให้เกิดไฟล์สกุลใหม่ๆ ขึ้นมา เรียกตามชื่อโปรแกรม CAT tool ทั้งหลาย เช่น .sdltm (ของ Trados Studio) .mtm (ของ MemoQ) .TXML (ของ Wordfast) ปัจจุบันเวอร์ชั่นล่าสุดของสกุลไฟล์ TMX คือ 1.4b หากต้องการแลกเปลี่ยน TM กับโปรแกรมต่างๆ ให้ export เป็นไฟล์ .tmx ก่อนนะ