OpenAI อัปเดต GPT-4o ให้ฟีเจอร์สร้างภาพที่มีการเรนเดอร์ข้อความและการทำตามคำสั่งที่ดีขึ้น

โดย RingRangRung | 26 มีนาคม 2568 เมื่อ 22:40 น. | อ่าน 54

เมื่อประมาณหนึ่งปีที่ผ่านมา OpenAI ได้เปิดตัว GPT-4o ซึ่งได้รับการปรับปรุงและพัฒนาอย่างต่อเนื่องด้วยฟีเจอร์ใหม่ๆ ล่าสุดคือฟีเจอร์การสร้างภาพ (Image Generation) โดยโมเดล AI นี้สามารถสร้างภาพที่มีคุณภาพสูงและรายละเอียดครบถ้วน รวมถึงสามารถทำตามคำสั่งในภาษาธรรมชาติเพื่อปรับแต่งภาพจนกว่าจะได้ผลลัพธ์ตรงตามที่ผู้ใช้นึกภาพไว้ในใจ

ผู้ใช้คงทราบดีว่าโมเดล AI รุ่นเก่ามักมีปัญหากับการสร้างข้อความ เช่น หากผู้ใช้ขอให้สร้างป้าย โมเดลอาจจะสร้างป้ายที่มีตัวอักษรไร้ความหมาย หรือแย่กว่านั้นคือเป็นเส้นขยุกขยิกที่ไม่ใช่ตัวอักษรด้วยซ้ำ แต่ในเวอร์ชั่นใหม่จะไม่ได้เป็นแบบนั้นแล้ว

การสร้างภาพโดยทั่วไปจะเริ่มต้นด้วยการป้อนข้อความคำสั่ง (Prompt) จากนั้นผู้ใช้จะปรับแต่งภาพโดยการแก้ไขคำสั่งเดิม แต่ GPT-4o ทำงานแตกต่างออกไป ผู้ใช้สามารถขอภาพ จากนั้นบอก AI ว่าต้องการเปลี่ยนอะไร แล้วขอให้ปรับเปลี่ยนเพิ่มเติมไปเรื่อยๆ จนได้ผลลัพธ์ที่ต้องการ

ผู้ใช้สามารถดูคำสั่งที่ใช้สร้างภาพเหล่านี้ได้จากลิงก์แหล่งที่มาด้านล่าง อย่างไรก็ตาม OpenAI ได้คัดเลือกภาพที่ดีที่สุดมาแสดง โดยหลายภาพเป็น “ภาพที่ดีที่สุดจากการสั่ง 2 ครั้ง” หรือแม้แต่ “ภาพที่ดีที่สุดจากการสั่ง 8 ครั้ง” ซึ่งหมายความว่าโมเดลต้องลองหลายครั้งกว่าจะได้ผลลัพธ์ที่สมบูรณ์แบบ อย่างไรก็ตามผลลัพธ์ที่ได้ก็น่าประทับใจ และส่วนติดต่อผู้ใช้ (UI) ก็ยังเรียบง่ายสุดๆ

นอกจากนี้ตัวอย่างเพิ่มเติมยังแสดงให้เห็นว่า GPT-4o สามารถเริ่มต้นจากศูนย์หรือปรับแต่งภาพที่ผู้ใช้มอบให้ได้ เช่น ผู้ใช้ให้ภาพถ่ายแมวตัวหนึ่งแล้วขอให้ AI เพิ่มหมวกนักสืบและแว่นตา จากนั้นผู้ใช้ปรับแต่งภาพต่อ โดยเปลี่ยนให้กลายเป็นภาพที่เหมือนฉากจากเกม RPG

ผู้ใช้ยังสามารถเริ่มต้นด้วยภาพหลายภาพและรวมองค์ประกอบจากภาพแต่ละภาพเข้าไปในผลลัพธ์สุดท้ายได้ โดยที่ OpenAI ระบุว่า GPT-4o มีความสามารถในการทำตามคำสั่งที่มีรายละเอียดสูง โดยสามารถจัดการกับวัตถุ 10-20 ชิ้นในฉากได้โดยไม่สับสน ต่างจากโมเดล AI อื่นๆ ทำได้เพียง 5-8 ชิ้นเท่านั้น

อย่างไรก็ตาม GPT-4o ยังไม่สมบูรณ์แบบ และ OpenAI เองก็ยอมรับในจุดนี้ บางครั้งภาพอาจถูกตัดขาดที่ด้านล่าง ขณะที่อาการภาพหลอน (Hallucinations) ยังคงเป็นปัญหา ซึ่งการทำงานกับวัตถุมากกว่า 10-20 ชิ้นอาจยุ่งยาก การเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินยังต้องปรับปรุง รวมถึงข้อจำกัดอื่นๆ อีกมากมาย

OpenAI พัฒนากลยุทธ์ ใหม่ เพื่อรับมือการชะลอตัวของการพัฒนา AI
OpenAI เปิดตัว o3-mini โมเดลประมวลผลที่คุ้มค่าที่สุด ในซีรีส์ Reasoning

ที่มา: gsmarena.com, openai.com

About Author

RingRangRung

RingRangRung

Partners