
Open AI เปิดตัว GPT-4 Omni หรือ GPT-4o โมเดลปัญญาประดิษฐ์ (AI) เรือธงรุ่นใหม่ล่าสุด โดยตัวอักษร “o” ย่อมาจาก “omni” ที่หมายถึงความสามารถในการทำงานข้ามรูปแบบ ทั้งข้อความ เสียง และวิดีโอ ซึ่งจะทยอยปล่อยอัปเดตให้กับผลิตภัณฑ์ของ OpenAI ทั้งสำหรับนักพัฒนาและผู้ใช้งานทั่วไปภายในอีกไม่กี่สัปดาห์ข้างหน้า
Mira Murati ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ OpenAI กล่าวว่า GPT-4o จะมอบประสิทธิภาพเทียบเท่ากับ GPT-4 แต่มีความสามารถที่หลากหลายและทำงานได้หลายรูปแบบดีขึ้น

“GPT-4o สามารถวิเคราะห์ข้อมูลได้ทั้งเสียง ข้อความ และภาพ ซึ่งถือเป็นความก้าวหน้าที่สำคัญ เพราะมันคืออนาคตของการมีปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักร”
GPT-4 Turbo ซึ่งเป็นโมเดล “รุ่นที่ทรงพลังที่สุด” รุ่นก่อนหน้านี้ของ OpenAI ได้รับการฝึกด้วยชุดข้อมูลภาพและข้อความผสมกัน ทำให้สามารถวิเคราะห์ทั้งภาพและข้อความเพื่อทำภารกิจต่าง ๆ ให้สำเร็จได้ เช่น การแยกข้อความจากรูปภาพหรือแม้แต่การบรรยายเนื้อหาของภาพนั้น ๆ แต่ GPT-4o มีความสามารถเพิ่มเติม นั่นคือ การทำงานกับเสียง
ตัว GPT-4o จะเข้ามายกระดับประสบการณ์การใช้งาน ChatGPT แชทบอทที่ใช้ AI ของ OpenAI โดยที่ GPT-4o จะช่วยให้ผู้ใช้สามารถโต้ตอบกับ ChatGPT ได้อย่างชาญฉลาดมากขึ้น เสมือนกับเป็นผู้ช่วยคนหนึ่ง
ตัวอย่างเช่น ผู้ใช้สามารถถามคำถามกับ ChatGPT ที่ใช้พลังงานจาก GPT-4o และสามารถแทรกคำถามในขณะที่ ChatGPT กำลังตอบคำถามอยู่ได้ โดยที่ตัวโมเดลนี้สามารถตอบสนองได้แบบเรียลไทม์ และยังสามารถแยกแยะน้ำเสียงของผู้ใช้เพื่อสร้างเสียงตอบกลับในรูปแบบอารมณ์ที่แตกต่างกัน (รวมถึงการร้องเพลง)

นอกจากนี้ GPT-4o ยังยกระดับความสามารถด้านการมองเห็นของ ChatGPT เพียงแค่ให้รูปภาพหรือหน้าจอคอมพิวเตอร์ ตัว ChatGPT ก็สามารถตอบคำถามที่เกี่ยวข้องได้อย่างรวดเร็ว ตัวอย่างเช่น “โค้ดซอฟต์แวร์นี้ทำอะไรอยู่ ?” หรือ “เสื้อผ้าที่คนนี้ใส่มียี่ห้ออะไรบ้าง?”
Murati กล่าวว่า ฟีเจอร์เหล่านี้จะมีการพัฒนาอย่างต่อเนื่องในอนาคต ยกตัวอย่างเช่น ในปัจจุบัน GPT-4o สามารถดูรูปภาพเมนูอาหารต่างภาษาและแปลภาษาได้ แต่ในอนาคตโมเดลนี้อาจจะอนุญาตให้ ChatGPT “ดู” การแข่งขันกีฬาสดและอธิบายกฎให้ผู้ใช้ฟังได้
Murati กล่าวว่า “เราทราบว่าโมเดลเหล่านี้มีความซับซ้อนมากขึ้นเรื่อยๆ แต่เราต้องการให้ประสบการณ์การโต้ตอบนั้นเป็นไปอย่างธรรมชาติ ใช้งานง่าย และไม่ต้องโฟกัสที่ UI เลย เพียงแค่โฟกัสที่การทำงานร่วมกับ ChatGPT ในช่วงสองสามปีที่ผ่านมา เรามุ่งเน้นไปที่การพัฒนาความสามารถของโมเดลเหล่านี้อย่างมาก แต่ครั้งนี้เป็นครั้งแรกที่เราประสบความสำเร็จในการใช้งานง่ายขึ้นอย่างแท้จริง”
OpenAI อ้างว่า GPT-4o รองรับหลายภาษามากขึ้น โดยมีประสิทธิภาพที่ดียิ่งขึ้นใน 50 ภาษา นอกจากนี้ใน API ของ OpenAI และ Azure OpenAI Service ของ Microsoft นั้น GPT-4o จะทำงานเร็วกว่า GPT-4 Turbo สองเท่า ราคาถูกกว่าครึ่ง และมีอัตราการใช้งานที่สูงกว่า
ทั้งนี้ในเบื้องต้น API ของ GPT-4o สำหรับลูกค้าส่วนใหญ่จะยังไม่รองรับการทำงานด้วยเสียง โดยที่ OpenAI ได้แสดงความกังวลถึงความเสี่ยงที่จะมีการใช้งานฟีเจอร์นี้ในทางที่ผิด และมีแผนจะเปิดการรองรับการทำงานด้วยเสียงบน GPT-4o เป็นครั้งแรกให้กับ “พันธมิตรกลุ่มเล็กๆ ที่เชื่อถือได้” ในอีกไม่กี่สัปดาห์ข้างหน้า
ขณะที่ตัว GPT-4o ได้เปิดให้บริการในกลุ่มผู้ใช้ฟรีของ ChatGPT แล้วตั้งแต่วันนี้ สำหรับสมาชิกแผน ChatGPT Plus และแบบทีมระดับพรีเมียมของ OpenAI จะมาพร้อมขีดจำกัดข้อความ “สูงกว่าเดิม 5 เท่า”
ซีอีโอ OPENAI รับรู้สึกกังวลว่าเครื่องมือ AI ขั้นสูงจะทำให้หลาย ๆ คนต้องตกงาน