Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงพูดแบบเกือบเรียลไทม์กว่า 70 ภาษา

โดย nineFangKhaoW | 10 มิถุนายน 2569 เมื่อ 11:51 น.

Google ประกาศเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงรุ่นใหม่ล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสด ๆ รองรับการทำงานแบบเกือบเรียลไทม์มากกว่า 70 ภาษา พร้อมจุดเด่นด้านการสร้างเสียงแปลที่เป็นธรรมชาติ รักษาโทนเสียง จังหวะการพูด และระดับเสียงสูงต่ำของผู้พูดเดิมเอาไว้ได้ใกล้เคียงยิ่งขึ้น

การเปิดตัวครั้งนี้ถือเป็นอีกก้าวสำคัญของเทคโนโลยีแปลภาษาจาก Google หลังจากบริการแปลภาษาของบริษัทเริ่มต้นขึ้นเมื่อราว 20 ปีก่อนในฐานะหนึ่งในการทดลองด้านแมชชีนเลิร์นนิง ก่อนจะพัฒนามาเป็นบริการที่ช่วยแปลคำศัพท์กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนในแต่ละเดือนผ่านผลิตภัณฑ์ต่าง ๆ ของ Google

ความสามารถหลักของ Gemini 3.5 Live Translate คือการตรวจจับภาษาได้อัตโนมัติมากกว่า 70 ภาษา และสามารถแปลเสียงพูดออกมาเป็นเสียงพูดอีกภาษาได้อย่างต่อเนื่อง โดยโมเดลจะพยายามรักษาสมดุลระหว่างการรอฟังบริบทเพื่อให้ได้คำแปลที่มีคุณภาพ กับการแปลให้ทันจังหวะของผู้พูดจริง ทำให้เสียงแปลที่ได้ไม่สะดุดหรือมีช่วงหยุดที่รู้สึกไม่เป็นธรรมชาติ

Google ระบุว่า Gemini 3.5 Live Translate แตกต่างจากระบบแปลเสียงแบบเดิมที่มักต้องรอให้ผู้พูดพูดจบก่อนจึงจะแปล เพราะโมเดลใหม่นี้สามารถสตรีมเสียงแปลตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา ช่วยให้การสื่อสารข้ามภาษามีความลื่นไหลและใกล้เคียงการสนทนาจริงมากขึ้น

เริ่มเปิดใช้งานในหลายผลิตภัณฑ์ของ Google

Gemini 3.5 Live Translate เริ่มทยอยเปิดให้ใช้งานแล้วในหลายผลิตภัณฑ์ของ Google โดยสำหรับนักพัฒนาซอฟต์แวร์ เปิดให้ใช้งานในเวอร์ชัน Public Preview ผ่าน Gemini Live API และ Google AI Studio ส่วนภาคองค์กรจะเริ่มเปิดให้ใช้งานแบบ Private Preview ใน Google Meet ตั้งแต่เดือนนี้ ขณะที่ผู้ใช้ทั่วไปจะสามารถใช้งานผ่านแอป Google Translate ทั้งบน Android และ iOS

สำหรับนักพัฒนา Gemini 3.5 Live Translate ถูกออกแบบมาให้รองรับการประมวลผลเสียงพูดขณะสตรีม ช่วยให้แอปพลิเคชันที่ต้องใช้หลายภาษาทำงานได้ราบรื่นยิ่งขึ้น โมเดลยังรองรับอินพุตหลายภาษาโดยไม่ต้องตั้งค่าด้วยตนเอง และมีความสามารถในการลดเสียงรบกวน เพื่อให้ทำงานได้ดีขึ้นในสภาพแวดล้อมที่มีเสียงดังหรือคาดเดาได้ยาก

Google มองว่าเทคโนโลยีนี้สามารถนำไปใช้ได้กับหลายสถานการณ์ เช่น การโทร การประชุม การเรียนการสอน การถ่ายทอดสด และบริการต่าง ๆ ที่ต้องรองรับผู้ใช้หลายภาษา โดยมีแพลตฟอร์มสำหรับนักพัฒนาอย่าง Agora, Fishjam, LiveKit, Pipecat และ VisionAgents เข้ามาช่วยให้การสร้างแอปพลิเคชันแปลเสียงพูดด้วย Gemini Live API ทำได้ง่ายขึ้น

Grab ร่วมทดสอบ ช่วยคนขับและผู้โดยสารคุยกันข้ามภาษา

หนึ่งในพาร์ทเนอร์ที่กำลังทดสอบ Gemini 3.5 Live Translate คือ Grab ซึ่งต้องการนำโมเดลนี้ไปช่วยให้คนขับและผู้โดยสารสามารถสื่อสารกันข้ามภาษาได้แบบเกือบเรียลไทม์ โดย Google ระบุว่าในแต่ละเดือน มีการโทรด้วยเสียงระหว่างคนขับและผู้โดยสารผ่าน Grab มากกว่า 10 ล้านครั้ง

Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab เปิดเผยว่า ระหว่างการทดสอบ ทีมงานประทับใจกับความสามารถของ Gemini 3.5 Live Translate ที่สามารถตรวจจับหลายภาษาได้โดยอัตโนมัติ และแปลเสียงพูดได้อย่างแม่นยำโดยมีเวลาในการตอบสนองต่ำ

นอกจาก Grab แล้ว พาร์ทเนอร์รายอื่น ๆ อย่าง CJ ENM, LiveKit, VisionAgents, Software Mansion และ Agora ต่างให้ฟีดแบ็กเชิงบวกต่อโมเดลใหม่นี้ โดยชูจุดเด่นด้านคุณภาพการแปล ความแม่นยำ ความเร็ว และความเป็นธรรมชาติของเสียงที่สร้างขึ้น

Google Meet เตรียมอัปเกรดฟีเจอร์แปลเสียงพูด

Google ยังเตรียมนำ Gemini 3.5 Live Translate ไปใช้กับฟีเจอร์ Speech Translation ใน Google Meet เพื่อยกระดับประสบการณ์ประชุมข้ามภาษา จากเดิมที่รองรับเพียง 5 ภาษา จะขยายเป็นมากกว่า 70 ภาษา และรองรับการสนทนาข้ามคู่ภาษามากกว่า 2,000 คู่ภาษาในการประชุมเดียว

การอัปเกรดครั้งนี้ยังช่วยให้ Google Meet ไม่จำเป็นต้องแปลผ่านภาษาอังกฤษเป็นภาษากลางเหมือนเดิมอีกต่อไป เพราะสามารถแปลระหว่างหลายภาษาภายในการประชุมได้โดยตรง พร้อมอินเทอร์เฟซใหม่ที่ทำให้เข้าถึงฟีเจอร์แปลเสียงพูดได้สะดวกขึ้น

Google จะเริ่มเปิดใช้งานฟีเจอร์ใหม่นี้ในเวอร์ชัน Private Preview สำหรับลูกค้า Google Workspace Business บางกลุ่มตั้งแต่เดือนนี้ ก่อนจะขยายการใช้งานในวงกว้างขึ้นในช่วงปลายปีนี้

Google Translate บนมือถือก็ได้ใช้ด้วย

สำหรับผู้ใช้ทั่วไป Gemini 3.5 Live Translate จะเริ่มทยอยเปิดให้ใช้งานผ่านแอป Google Translate ทั่วโลก ทั้งบน Android และ iOS ผ่านฟีเจอร์ Live Translate โดยผู้ใช้สามารถเชื่อมต่อหูฟังคู่ใดก็ได้ เพื่อรับประสบการณ์แปลเสียงที่ลื่นไหลและคงโทนเสียงของผู้พูดได้มากกว่า 70 ภาษา

นอกจากนี้ Google ยังเตรียมเปิดตัว “โหมดการฟัง” หรือ Listening Mode แบบใหม่สำหรับผู้ใช้ Android โดยผู้ใช้สามารถฟังคำแปลผ่านหูฟังในตัวโทรศัพท์ได้โดยตรง เพียงยกโทรศัพท์ขึ้นแนบหูเหมือนกำลังคุยสายปกติ เสียงแปลก็จะสตรีมเข้ามาแบบเกือบเรียลไทม์ เหมาะกับสถานการณ์ที่ต้องการฟังคำแปลอย่างรวดเร็ว เป็นส่วนตัว และไม่มีหูฟังอยู่ใกล้ตัว

ใส่ลายน้ำเสียง AI ด้วย SynthID

เพื่อความปลอดภัยและความรับผิดชอบในการใช้งาน Google ระบุว่าเสียงทั้งหมดที่สร้างขึ้นโดยโมเดลจะถูกใส่ลายน้ำดิจิทัลด้วย SynthID โดยลายน้ำดังกล่าวจะถูกฝังอยู่ในเอาต์พุตเสียงโดยตรง แม้จะมองไม่เห็นหรือได้ยินแบบชัดเจน แต่สามารถช่วยตรวจจับเนื้อหาที่สร้างโดย AI ได้

Google ระบุว่าแนวทางนี้จะช่วยลดความเสี่ยงด้านข้อมูลเท็จและการใช้งาน AI ในทางที่ไม่เหมาะสม พร้อมเปิดให้ตรวจสอบรายละเอียดเพิ่มเติมเกี่ยวกับแนวทางด้านความปลอดภัยและความรับผิดชอบผ่าน Model Card ของโมเดล

การมาถึงของ Gemini 3.5 Live Translate จึงไม่ใช่แค่การอัปเกรดระบบแปลภาษาให้เร็วขึ้นเท่านั้น แต่ยังเป็นอีกก้าวของการทำให้การสื่อสารข้ามภาษาใกล้เคียงการสนทนาจริงมากขึ้น ทั้งในชีวิตประจำวัน การทำงาน การประชุมระดับองค์กร ไปจนถึงบริการดิจิทัลที่ต้องเชื่อมต่อผู้คนจากหลายภาษาเข้าด้วยกัน

Google เปิดตัว AI Edge Eloquent แอปพิมพ์ด้วยเสียงอัจฉริยะ ใช้งานได้แม้ไม่มีอินเทอร์เน็ต
Google เปิดตัว “Search Live” ใช้งานได้ทั่วโลกแล้ว รองรับ AI สนทนาทั้งเสียงและกล้องแบบเรียลไทม์
Google Maps อัปเกรดใหญ่ในรอบทศวรรษ! เพิ่มฟีเจอร์นำทางด้วยภาพ 3D สมจริง พร้อม AI ผู้ช่วยเดินทาง
Google ลุยกวาดล้างครั้งใหญ่! แบน 80,000 บัญชีนักพัฒนา พร้อมสกัด 1.75 ล้านแอปอันตราย ในปี 2025
Gemini เปิดตัว Lyria 3 โมเดลสร้างเพลง 30 วิ จากข้อความหรือรูปภาพ เริ่มใช้งานแล้วในเวอร์ชันเบต้า

About Author

nineFangKhaoW

nineFangKhaoW

Partners