OpenAI อัปเดต GPT-4o ให้ฟีเจอร์สร้างภาพที่มีการเรนเดอร์ข้อความและการทำตามคำสั่งที่ดีขึ้น

โดย RingRangRung | 26 มีนาคม 2568 เมื่อ 22:40 น. | อ่าน 54

เมื่อประมาณหนึ่งปีที่ผ่านมา OpenAI ได้เปิดตัว GPT-4o ซึ่งได้รับการปรับปรุงและพัฒนาอย่างต่อเนื่องด้วยฟีเจอร์ใหม่ๆ ล่าสุดคือฟีเจอร์การสร้างภาพ (Image Generation) โดยโมเดล AI นี้สามารถสร้างภาพที่มีคุณภาพสูงและรายละเอียดครบถ้วน รวมถึงสามารถทำตามคำสั่งในภาษาธรรมชาติเพื่อปรับแต่งภาพจนกว่าจะได้ผลลัพธ์ตรงตามที่ผู้ใช้นึกภาพไว้ในใจ

ผู้ใช้คงทราบดีว่าโมเดล AI รุ่นเก่ามักมีปัญหากับการสร้างข้อความ เช่น หากผู้ใช้ขอให้สร้างป้าย โมเดลอาจจะสร้างป้ายที่มีตัวอักษรไร้ความหมาย หรือแย่กว่านั้นคือเป็นเส้นขยุกขยิกที่ไม่ใช่ตัวอักษรด้วยซ้ำ แต่ในเวอร์ชั่นใหม่จะไม่ได้เป็นแบบนั้นแล้ว

การสร้างภาพโดยทั่วไปจะเริ่มต้นด้วยการป้อนข้อความคำสั่ง (Prompt) จากนั้นผู้ใช้จะปรับแต่งภาพโดยการแก้ไขคำสั่งเดิม แต่ GPT-4o ทำงานแตกต่างออกไป ผู้ใช้สามารถขอภาพ จากนั้นบอก AI ว่าต้องการเปลี่ยนอะไร แล้วขอให้ปรับเปลี่ยนเพิ่มเติมไปเรื่อยๆ จนได้ผลลัพธ์ที่ต้องการ

ผู้ใช้สามารถดูคำสั่งที่ใช้สร้างภาพเหล่านี้ได้จากลิงก์แหล่งที่มาด้านล่าง อย่างไรก็ตาม OpenAI ได้คัดเลือกภาพที่ดีที่สุดมาแสดง โดยหลายภาพเป็น “ภาพที่ดีที่สุดจากการสั่ง 2 ครั้ง” หรือแม้แต่ “ภาพที่ดีที่สุดจากการสั่ง 8 ครั้ง” ซึ่งหมายความว่าโมเดลต้องลองหลายครั้งกว่าจะได้ผลลัพธ์ที่สมบูรณ์แบบ อย่างไรก็ตามผลลัพธ์ที่ได้ก็น่าประทับใจ และส่วนติดต่อผู้ใช้ (UI) ก็ยังเรียบง่ายสุดๆ

นอกจากนี้ตัวอย่างเพิ่มเติมยังแสดงให้เห็นว่า GPT-4o สามารถเริ่มต้นจากศูนย์หรือปรับแต่งภาพที่ผู้ใช้มอบให้ได้ เช่น ผู้ใช้ให้ภาพถ่ายแมวตัวหนึ่งแล้วขอให้ AI เพิ่มหมวกนักสืบและแว่นตา จากนั้นผู้ใช้ปรับแต่งภาพต่อ โดยเปลี่ยนให้กลายเป็นภาพที่เหมือนฉากจากเกม RPG

ผู้ใช้ยังสามารถเริ่มต้นด้วยภาพหลายภาพและรวมองค์ประกอบจากภาพแต่ละภาพเข้าไปในผลลัพธ์สุดท้ายได้ โดยที่ OpenAI ระบุว่า GPT-4o มีความสามารถในการทำตามคำสั่งที่มีรายละเอียดสูง โดยสามารถจัดการกับวัตถุ 10-20 ชิ้นในฉากได้โดยไม่สับสน ต่างจากโมเดล AI อื่นๆ ทำได้เพียง 5-8 ชิ้นเท่านั้น

อย่างไรก็ตาม GPT-4o ยังไม่สมบูรณ์แบบ และ OpenAI เองก็ยอมรับในจุดนี้ บางครั้งภาพอาจถูกตัดขาดที่ด้านล่าง ขณะที่อาการภาพหลอน (Hallucinations) ยังคงเป็นปัญหา ซึ่งการทำงานกับวัตถุมากกว่า 10-20 ชิ้นอาจยุ่งยาก การเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินยังต้องปรับปรุง รวมถึงข้อจำกัดอื่นๆ อีกมากมาย

OpenAI พัฒนากลยุทธ์ ใหม่ เพื่อรับมือการชะลอตัวของการพัฒนา AI
OpenAI เปิดตัว o3-mini โมเดลประมวลผลที่คุ้มค่าที่สุด ในซีรีส์ Reasoning

ที่มา: gsmarena.com, openai.com

About Author

RingRangRung

Since 2016

OpenAI อัปเดต GPT-4o ให้ฟีเจอร์สร้างภาพที่มีการเรนเดอร์ข้อความและการทำตามคำสั่งที่ดีขึ้น

About Author

RingRangRung

Partners

Google Labs เปิดตัว Dreambeans ผู้ช่วย AI ส่วนตัว อ่านข้อมูลผู้ใช้ แล้วสรุปเรื่องราวทุกเช้า

Meta ผนึกกำลัง สตช. ปราบมิจฉาชีพออนไลน์ ลบ 1.4 ล้านบัญชี

Apple เตรียมใช้ชิป Nvidia Blackwell B200 รัน Siri ใหม่ บน Google Cloud

Google เปิด Extended Thinking ให้ผู้ใช้ Gemini ทุกคน ใช้ฟรี

Kuo เผย Apple อาจยุติ Vision Pro หันลุยแว่นอัจฉริยะเต็มตัว

OPPO และ vivo กำลังพัฒนากล้องกิมบอล อาจเป็นคู่แข่ง DJI Osmo Pocket 4

Uber กำหนดโควต้าค่าโทเค็นคนละไม่เกิน 1,500 ดอลลาร์ต่อเดือน หลังเดือนเมษายนที่ผ่านมาใช้จนหมดงบค่า AI ทั้งปี

ราคาชนะทุกอย่าง MiMo-V2.5, DeepSeek V4, MiniMax ครอง 5 อันดับของการใช้งานเขียนโปรแกรมหลังลดราคาหนัก ดัน Claude หลุด Top 5 ครั้งแรก

เหมือนลินุกซ์เข้าทุกวัน Coreutils สำหรับวินโดวส์เข้าสถานะ GA, คำสั่ง wslc ใช้แทน docker