ศึกท้าประลอง LLM 3 โมเดล ใครแปลเก่งกว่ากัน
- ทัศนีย์ กีรติรัตน์วัฒนา

- 16 มิ.ย.
- ยาว 10 นาที

ปัจจุบันมี LLM ให้เลือกใช้เยอะจนหลายคนสงสัยว่าจะใช้ตัวไหนดี เพราะดูเผินๆ ก็เหมือนทุกโมเดลจะ "ดีเหมือนกันหมด" บทความนี้จึงเขียนขึ้นเพื่อทดสอบสนามจริง เปรียบเทียบประสิทธิภาพการแปลของ LLM 3 โมเดลตัวท็อปในตลาดตอนนี้ คือ ChatGPT, Claude และ Gemini โดยจะใช้ต้นฉบับเดียวกัน 3 ประเภท และใช้ prompt เดียวกัน สุดท้ายเราจะสรุปให้เห็นกันว่าตัวไหนมีจุดเด่นด้านอะไร เหมาะกับต้นฉบับประเภทไหนบ้างค่ะ ไปอ่านกัน!
ผู้เข้าแข่งขันในสนามแปล🧠
การประชันแปลครั้งนี้ ทดสอบโมเดลทั้งหมด 3 รุ่นจาก 3 ค่าย คือ ChatGPT, Claude และ Gemini
ChatGPT 4o เข้าถึงได้ทาง https://chatgpt.com/
Claude 3.7 Sonnet เข้าถึงได้ทาง https://claude.ai/ บทความแรก (Mindful Self-care) และ Claude 4.0 Sonnet บทความที่ 2-3 (อัปเดตพอดี)
Gemini 2.5 Flash เข้าถึงได้ทาง https://gemini.google.com/
โจทย์ที่ใช้ทดสอบ📝
ใช้ข้อความ 3 ประเภท คือ
บทความทั่วไป เกี่ยวกับ "แนวทางการดูแลตนเอง" (Mindful Self-care) พูดถึงความหมายของ "self-care" เหตุผลที่คนเราควรใส่ใจสุขภาพกายและสุขภาพจิต เขียนโดย Calm แอปพลิเคชั่นดูแลสุขภาพจิต ความยาว 238 คำ
บทความเทคนิค ตัดมาจากบทวิเคราะห์ "ผลกระทบจากมาตรการกำแพงภาษี (Reciprocal tariff)" ของประธานาธิบดีโดนัล ทรัมป์ เขียนโดย สมาคมการค้านานาชาติวิชิงตันดีซี (WITA) ความยาว 238 คำ
บทความสายสร้างสรรค์ ดึงมาจากนิยายเรื่อง Monster calls เขียนโดย Patrick Ness เรื่องราวของเด็กชายอังกฤษวัย 13 ปี ที่ต้องต่อสู้กับความกลัว เหงา และเจ็บปวดทางจิตใจจากการกำลังจะสูญเสียแม่ ความยาว 278 คำ



วิธีทดสอบ🔍
การทดลองครั้งนี้เป็นการทดสอบความสามารถในการแปลจากภาษาอังกฤษเป็นภาษาไทยอย่างเดียว ทุกโมเดลจะได้รับ prompt เดียวกัน โดยกำหนด prompt สำหรับโจทย์แต่ละข้อดังนี้
บทความทั่วไป (Mindful Self-care)
แปลบทความภาษาอังกฤษต่อไปนี้เป็นภาษาไทยในสไตล์อบอุ่น อ่านง่าย เหมือนบทความจากนักเขียนไทยที่กำลังพูดคุยกับผู้อ่านเกี่ยวกับการดูแลตัวเองในชีวิตประจำวัน ขอให้เลือกใช้ภาษาที่ลื่นไหล อ่านแล้วรู้สึกผ่อนคลาย เป็นมิตร และเข้าถึงง่าย เน้นให้เนื้อหาน่าอ่านสำหรับคนไทยที่สนใจเรื่อง self-care และการใช้ชีวิตอย่างมีสติบทความเทคนิค (Trump Tariff)
แปลบทความภาษาอังกฤษต่อไปนี้เป็นภาษาไทย โดยรักษาเนื้อหาด้านเศรษฐกิจและข้อมูลเชิงวิเคราะห์ให้ครบถ้วน ชัดเจน และแม่นยำ ภาษาที่ใช้ให้อยู่ในระดับกึ่งวิชาการ แต่อ่านลื่นไหลเป็นธรรมชาติคล้ายคอลัมน์ข่าวเศรษฐกิจในไทยรัฐ/ประชาชาติ กลุ่มผู้อ่านคือคนไทยทั่วไปที่สนใจประเด็นเศรษฐกิจมหภาค นโยบายการคลัง และผลกระทบจากมาตรการภาษีของรัฐบาลสหรัฐฯ ให้ความสำคัญกับความชัดเจนของแนวคิดและผลกระทบที่นำเสนอในบทความ ผู้เขียนบทความนี้ คือ WITA (Washington International Trade Association)บทความสร้างสรรค์ (Monster Calls)
แปลข้อความต่อไปนี้จากภาษาอังกฤษเป็นภาษาไทย โดยรักษาน้ำเสียงของผู้เล่าเรื่องซึ่งเป็นเด็กชายชาวอังกฤษวัย 13 ปี ให้มีบุคลิกเฉพาะตัวตามต้นฉบับ สำนวนควรแปลให้อ่านลื่นไหลเหมือนนิยายภาษาไทย และสะท้อนอารมณ์ ความคิด และมุมมองของตัวละครเด็กในโลกแฟนตาซีที่มีบรรยากาศมืดหม่น ลึกลับ หรือสะเทือนใจได้อย่างเป็นธรรมชาติPrompt ทุกข้อ ให้ LLM ช่วยเสนอไอเดียให้ก่อนทั้งหมด 😆 แล้วมาเกลาภายหลังนะคะ
เกณฑ์การให้คะแนน📌
กำหนดเกณฑ์การให้คะแนนโดยอิงจาก MQM (Multidimensional Quality Metrics)
เบื้องต้น ทุกโมเดลจะได้คะแนนเต็ม 100 แต่เมื่อเจอข้อผิดพลาด จะหักคะแนนตามเกณฑ์/เกณฑ์ย่อยด้านบนโดยแบ่งตามระดับความรุนแรง
คะแนนรวมจะคำนวณโดยใช้สูตรดังนี้
MQM Score = (Total Error Points / Evaluation Word Count) × 1000
คะแนนประเมิน = (ผลรวมข้อผิดพลาด / จำนวนคำ) x 1000หลังจากนั้น จึงนำคะแนน MQM มาแปลงเป็นคะแนน 1-100 โดยตั้งค่า Threshold ไว้ที่ 300
ผลการทดสอบ & บทวิเคราะห์🌟

เปรียบเทียบการแปลบทความทั่วไป: Mindful Self-care

🥇 อันดับ 1: Gemini 2.5 Flash "แชมป์ด้านความลื่นไหลและเป็นธรรมชาติ"
✅ จุดแข็ง
เขียนลื่นไหล อ่านเป็นธรรมชาติเหมือนคนไทยเขียนเอง ไม่ติดกลิ่นแปล
งานแปลของ Gemini เหมือนมองบริบทของต้นฉบับทั้งชิ้น ทำให้งานแปลเป็นธรรมชาติ กลมกลืน สังเกตว่าโมเดลเปลี่ยนการวางรูปประโยคใหม่หลายช่วง ทำให้อ่านเป็นธรรมชาติได้ดี เช่น
Some self-care practices, like setting boundaries at work or attending necessary medical appointments, might not always feel enjoyable,...
บางครั้งการดูแลตัวเองอาจจะไม่ใช่เรื่องสนุกสนานเสมอไป อย่างเช่น การกล้าที่จะปฏิเสธงาน ที่มากเกินไปหรือ การไปหาหมอตามนัด เพื่อตรวจสุขภาพ...❌ จุดอ่อน
ขยายความและแต่งเติมต้นฉบับค่อนข้างเยอะ เช่น
Mindful self-care > ดูแลตัวเองแบบมีสติ: เรื่องใกล้ตัวที่สำคัญกว่าที่คิดเติมประโยคเปิด (ต้นฉบับไม่มี)
สวัสดีค่ะทุกคน! วันนี้เราอยากชวนมาคุยเรื่องใกล้ตัวที่หลายคนอาจมองข้ามไป นั่นก็คือ การดูแลตัวเอง หรือ Self-care ค่ะ เติมประโยคปิด (ต้นฉบับไม่มี)
แล้ววันนี้คุณดูแลตัวเองแล้วหรือยังคะ? ลองเริ่มต้นจากเรื่องเล็ก ๆ ที่ทำได้ง่าย ๆ ในชีวิตประจำวันดูนะคะ ใช้ภาษาวัยรุ่นกว่าอีก 2 โมเดล เช่น "เนี่ย" "พูดง่ายๆ ก็คือ" "จัดเต็ม"
🥈 อันดับ 2: ChatGPT 4o "สมดุล แต่ยังพลาดบ่อย"
✅ จุดแข็ง
ภาษาสละสลวย อบอุ่น เป็นธรรมชาติ ใกล้เคียง Gemini
เติมคำเพื่อเพิ่มความชัดเจนหลายจุด เช่น
"empower yourself" > "เติมความรักให้ตัวเอง สร้างความมั่นคงทางใจ"
"Well-being" > "ความเป็นอยู่ของตัวเอง ทั้งสุขภาพกาย ใจ และอารมณ์"บางจุดแปลดีมาก เช่น
"show up for yourself" > "ไปใช้ชีวิต" แปลงรูปประโยคให้กระชับแต่ใจความเดิม
"self-care practices look different from person to person"
"ไม่มีสูตรตายตัวค่ะว่า self-care ต้องหน้าตาแบบไหน"❌ จุดอ่อน
การเติมความ/ขยายความจนเกินต้นฉบับ เช่น ประโยคเปิด (ต้นฉบับไม่มี)
"ในโลกที่หมุนเร็วไม่หยุดทุกวันนี้" ย่อหน้าสุดท้าย ขยายความตัวอย่าง self-care เอาเอง (ต้นฉบับไม่มี)
"บางคนอาจรู้สึกเติมพลังจากการอ่านหนังสือเงียบๆ อีกคนอาจต้องออกไปเดินเล่นรับแดดเช้า หรือแค่ได้นั่งจิบกาแฟเงียบๆ ก็พอแล้ว" มีปัญหาด้านสำนวนภาษาและการใช้สัญลักษณ์ "-" ซึ่งไม่มีในภาษาไทย
ติดคำว่า "มัน"
"มันคือสิ่งจำเป็นที่จะช่วยให้เรามีแรง"
"มันอาจหมายถึง"🥉อันดับ 3 Claude 3.7 Sonnet "แปลซื่อ แต่ไม่สวย"
✅ จุดแข็ง
ยึดกับต้นฉบับได้ค่อนข้างดี ไม่เสริม เติมเยอะ ตรงตามต้นฉบับ มั่นใจได้ว่าเป็นงานแปล มีเติมแค่ช่วงต้นคือ "สวัสดีค่ะ เพื่อนๆ ทุกคน ♡" (จริตแบบบล็อกเกอร์สาวที่ฝรั่งไม่เข้าใจ 555)
❌ จุดอ่อน
แปลค่อนข้าง "ฝืด" ไม่ค่อยเป็นธรรมชาติและยึดติดกับต้นฉบับค่อนข้างมาก เช่น
"มันเป็นสิ่งจำเป็นที่ช่วย..."
"นั้นเป็นความจริงเมื่อพูดถึงการดูแลตัวเองนะคะ" หรือ
การขึ้นต้นประโยคโดยคงโครงสร้างภาษาอังกฤษโต้งๆ ว่า "ผ่านการปฏิบัติดูแลตัวเอง..." ใช้เครื่องหมาย "-" ซึ่งภาษาไทยไม่มี
❗Common Errors/Patterns ที่พบทั้ง 3 โมเดล
ทั้ง 3 โมเดลแปลศัพท์ "“running on empty” ยังไม่ชัดเจน ("หมดถัง”, "วิ่งด้วยถังน้ำมันที่ว่างเปล่า", "น้ำมันหมดถัง") เพราะนำมาร้อยเรียงในประโยคแปลกๆ บ่งชี้ว่า LLM ยังไม่สามารถแปลคำศัพท์ได้แม่นยำ
Addition / Omission (เติมความหรือตัดบางข้อความทิ้ง) พบทุกโมเดล เป็นแพทเทิร์นที่น่าจับตามองเพราะส่งผลต่อความแม่นยำของคำแปล
ทั้ง 3 โมเดลยังมีประเด็นด้านภาษาแปลกๆ อยู่ โดยเฉพาะช่วงท้ายๆ ของบทความ ประสิทธิภาพจะลดลงอย่างเห็นได้ชัด เช่น อาจเติมบางประโยคเพิ่ม หรือแปลแปลกๆ
ข่าวดี! ยังไม่มี critical error ในโมเดลไหนเลย

เปรียบเทียบการแปลบทความเทคนิค : 2025 Trump Tariffs: Economic Effects

🥇อันดับ 1: Gemini 2.5 ดีที่สุดทั้งเรื่องความแม่นยำ (Accuracy) และศัพท์ (Terminology)
✅ จุดแข็ง
เขียนได้ใจความ เข้าใจได้ครบถ้วน แปลได้ตรงบริบท
ใช้ศัพท์หลายคำที่ตรงกับทำเนียบภาษากึ่งทางการ เช่น "สะท้อนถึงผลกระทบ" "ลดทอนรายได้ "หดตัว" หรีืิอ ""รายได้ลดลงในระยะยาว" (Revenue is lower on a dynamic basis)
❌ จุดอ่อน
ตัวเลขยังแหม่งๆ แบบภาษาแปล เช่น "13.9 พันล้าน"
มีประเด็น unclear reference คล้ายกับ Claude แต่ไม่รุนแรงเท่า เช่น "สำหรับแต่ละกรณี" ("for each country")
ประโยคที่ซับซ้อน เริ่มผิดหลักภาษาไทย (ไม่มีกิริยา) เช่น
..., we do not model their macroeconomic or revenue effects.
...เราจึงไม่ได้นำแบบจำลองผลกระทบทางเศรษฐกิจมหภาพหรือผลกระทบต่อรายได้จากมาตรการเหล่านี้🥈อันดับ 2: ChatGPT 4o "ปรับตัวได้ดี แต่มี major error ไว้วางใจไม่ได้"
✅ จุดแข็ง
สไตล์ภาษาฉูดฉาด บางจุดคล้ายสไตล์เขียนข่าว ("ฉุดให้ผลผลิตลดลง")
ใช้คำว่า "อัตราภาษี" ("เก็บภาษีที่อัตรา 15%") ชัดเจนและตรงกับระดับภาษาทางการ (Gemini: "เผชิญกับภาษี 15%" Claude: "ต้องเสียภาษี 15 เปอร์เซ็นต์")
ปรับรูปแบบการเขียนประโยคใหม่ให้เป็นไปตามขนบการเขียนไทย อ่านตามง่ายขึ้น แต่ผลลัพธ์ยังแกว่งพอสมควร โดยเฉพาะช่วงท้ายๆ ของบทความ
❌ จุดอ่อน
เจอประโยคซับซ้อน ChatGPT กลับแปลอ่านไม่รู้เรื่อง
Revenue is lower on a dynamic basis, a reflection of the negative effect tariffs have on US economic output, ...
การลดลงของรายได้ภาษีในภาพรวมยังเป็นผลจากผลกระทบทางเศรษฐกิจในเชิงลบของภาษีเหล่านี้ต่อผลิตภาพทางเศรษฐกิจของประเทศแปล "income" ผิด ว่า "รายได้ประชาชน" แต่จริงๆ แล้วหมายถึงรายได้จากการเรียกเก็บภาษีของรัฐบาลกลางสหรัฐฯ (major error)
...,which reduces incomes and resulting tax revenues.
...ซึ่งจะส่งผลต่อระดับรายได้ของประชาชน และในที่สุดจะทำให้รายได้ภาษีลดลงตามไปด้วย🥉อันดับ 3: Claude 4.0 "พึ่งพาได้ แต่ไม่ชัดเจน"
✅ จุดแข็ง
แปลได้ใจความทั้งหมดประมาณ 75% ที่เหลือเติมค่อนข้างเยอะ (Addition) และปรับโครงสร้างบทความใหม่ทั้งหมด
รูปแบบภาษาไม่ทางการจนเกินไป เป็นแนวกึ่งทางการ โทนภาษาเป็นวิชาการ
❌ จุดอ่อน
Unclear Reference หลายครั้งอ่านแล้วตามประเด็นไม่ชัด เช่น ประโยคด้านล่าง อ่านแล้วไม่แน่ใจว่าเศรษฐกิจใครหดตัว และใครเรียกเก็บภาษีใครกันแน่
...the tariffs on the European Union would reduce US economic output by 0.2 percent
...การเก็บภาษีจากสหภาพยุโรปจะส่งผลให้ผลผลิตเศรษฐกิจหดตัว 0.2 เปอร์เซ็นต์ ตีความ/ขยายความมากเกินไป เมื่อเทียบกับอีก 2 โมเดล โดนตัดคะแนนเยอะที่สุดเพราะประเด็น Addition
❗Common Errors/Patterns ที่พบทั้ง 3 โมเดล
ทั้ง 3 โมเดลรักษาระดับภาษากึ่งทางการได้ดี แต่ยังลักลั่นอยู่ทั้ง 3 โมเดล เช่น ใช้คำว่า "ไปอีก" ต่อท้าย (Gemini) หรือ "อีกด้วย" (ChatGPT)
ตัวเลข คำว่า "billion" ทั้ง 3 โมเดลยังแปลเป็นภาษาไทยว่า "13.9 พันล้านดอลลาร์" เหมือนกัน
Unclear Reference: ทั้ง 3 โมเดลอ้างอิงถึงประเด็น "Trump Tariff" ไม่ค่อยชัดเจน ประเด็นนี้ Gemini 2.5 Flash ทำได้ดีที่สุด ขณะที่ Claude 3.7 Sonnet ทำออกมาได้แย่ที่สุด (ไม่ชัดเจน)

ประโยคตัดเชือกคือ "We estimate that before accounting for any foreign retaliation, the tariffs on Canada, Mexico, China, and motor vehicles would each reduce US economic output by 0.1 percent" ทั้ง 3 โมเดลแลยังออกมางงๆ

ทั้ง 3 โมเดลมีปัญหากับคำว่า "the expansion of the steel and aluminum tariffs" และแปลว่า "การขยาย" ทั้งหมด สร้างความสับสนว่าหมายถึง "ขยายความครอบคลุมพิกัดภาษี" หรือแค่หมายถึง "เพิ่มอัตราภาษี" เฉยๆ

เปรียบเทียบการแปลบทความสร้างสรรค์: Monster Calls

🥇อันดับ 1: Gemini ลื่นไหลเป็นธรรมชาติ แต่แลกกับความแม่นยำอันดับบ๊วย
✅ จุดแข็ง
ความลื่นไหลเป็นธรรมชาติ *Fluency" และการเลือกใช้คำ "Terminology" อ่านคร่าวๆ คล้ายนิยายแปลพร้อมตีพิมพ์เลย
ตีความและเลือกใช้คำได้ดี เช่น "The nightmare" แปลว่า "ฝันร้ายนั้น" "กวาดตา" "กระพริบตาปริบๆ"
❌ จุดอ่อน
ใช้ศัพท์บางจุดยังรู้สึก "เอ๊ะ" เช่น "ตัวตื่น" "เสียงติ๊กๆ" และ "ไม่มีอะไรเลย" อ่านแล้วยังไม่แน่ใจว่าต้องการสื่ออะไร
แปลจุดสำคัญของเรีื่องผิด (major error)
There was something he was missing.
มีบางอย่างที่เขายังไม่ทันคิดถึง (ความหมายจริงๆ คือ "มีบางอย่างต่างไปจากเดิม")ติดคำว่า "อัน" (The one)
🥈อันดับ 2: ChatGPT สมดุล ลื่นไหล พึ่งพาได้
✅ จุดแข็ง
โดยรวมคุณภาพดีทุกด้าน แปลดี ลื่นไหล ซื่อตรงกับโครงสร้างต้นฉบับ ไม่แบ่งย่อหน้าใหม่แบบ Gemini
แปลคำว่า "Missing" ได้ดีที่สุดเมื่อเทียบกับอีก 3 โมเดล
There was something he was missing.
"มันมีอะไรบางอย่างแปลกไป"❌ จุดอ่อน
ใช้คำแปลแปร่งๆ ไปบ้าง เช่น
12.07 > "ตีสิบสองกับเจ็ดนาที" ติดคำว่า "มัน"
มันมีอะไรบางอย่างแปลกไป
มันไม่มีใครจำเป็นต้องรู้ทั้งนั้น
มันคือสิ่งที่ปลุกให้เขาตื่น "นั่นแหละ (อย่างกับเด็กแว๊น) แปลผิด "or so"
not his dad in their fortnightly (or so) phone call
ไม่แม้แต่พ่อที่เขาคุยโทรศัพท์ด้วยสองอาทิตย์ครั้ง (ถ้าโทรมาอะนะ) 🥉อันดับ 3: Claude ซื่อตรง แต่ขาดอรรถรส ติดกลิ่นแปล
✅ จุดแข็ง
เป็นโมเดลเดียวทีี่แปลไม่ผิดเลย แต่แปลเป็นคำต่อคำ แข็งทื่อและแห้งแล้งมาก ไม่รู้ว่าคนพูดเป็นใคร
The monster showed up just after midnight. As they do.
ปีศาจปรากฏตัวขึ้นหลังเที่ยงคืนเพียงนิดเดียว เหมือนกับที่มันเคยทำเสมอ❌ จุดอ่อน
ใช้ศัพท์ไม่ถูกต้อง เช่น ตอนบรรยายฉากมือในฝันที่ลื่นหลุดไป ใช้คำว่า "กำ" แทนคำว่า "ยึด" หรือ "เหนี่ยวรั้ง"
The one with the hands slipping from his grasp, no matter how hard he tried to hold on.
ฝันที่มีมือที่หลุดลื่นไปจากการยึดของเขา ไม่ว่าเขาจะพยายามกำแน่นแค่ไหนก็ตาม ใช้ศัพท์แปลกหลายคำ เช่น
Conor blinked groggily at his room > "กะพริบไปมาอย่างง่วงซึม"
He sat up in his bed > "นั่งตัวขึ้นในเตียง"
straining against the silence > "หูตั้งกับความเงียบ"
the occasional tick > "เสียงเตะเก๋ๆ"ระดับภาษาไม่ตรงกับต้นฉบับแนววรรณกรรม ดูกึ่งทางการ
❗Common Errors/Patterns ที่พบทั้ง 3 โมเดล
คำว่า "Nothing" เป็นคำสั้นๆ ที่พูดถึงตัวละครคอเนอร์ตอนเงี่ยหูฟังเสียงในห้องนอน แต่คอเนอร์ไม่ได้ยินอะไรเลย ความหมายจริงๆ คือ "ไม่ได้ยินเสียงอะไรเลย/ไม่เห็นมีอะไรเลย/ทุกอย่างเงียบกริบ" ทุกโมเดลยังถ่ายทอดคำนี้ออกมาไม่ชัด
เป็นต้นฉบับเดียวที่ไม่มีโมเดลไหน แต่ง เสริม ขยายข้อความเลย (Addition)
📚บทสรุป: โมเดลไหนเหมาะกับใคร

จากการประเมินทั้ง 3 รอบได้ข้อสรุปดังนี้
✅ ใช้ Gemini Flash 2.5 เป็นโมเดลหลักสำหรับงานแปลทั่วไปที่ต้องการคุณภาพดีสม่ำเสมอ เน้นความเป็นธรรมชาติ ระวังเรื่อง Accuracy เป็นหลัก เพราะมีโอกาสขยายความเยอะกว่าต้นฉบับ
⚠️ ใช้ ChatGPT ในงานที่ เน้นคำศัพท์เฉพาะ เพราะทำคะแนนได้ดีที่สุดจากการทดสอบทั้ง 3 รอบ ส่วนเรื่องความเป็นธรรมชาติของภาษาและความถูกต้องอยู่ในระดับกลางๆ Accuracy (72.36), Fluency (62.00) โมเดลพร้อมปรับตัวได้ดี
❌ หลีกเลี่ยง Claude 4.0 Sonnet เว้นแต่เน้น accuracy เป็นหลักและมี human post-edit ตรวจแก้ภาษาเพิ่ม


