OpenAI กางผล GDPval เคลม GPT-5 เก่งเทียบชั้นผู้เชี่ยวชาญในหลายอาชีพ

โดย RingRangRung | 26 กันยายน 2568 เมื่อ 18:16 น.

OpenAI ได้เปิดตัวเกณฑ์วัดใหม่ชื่อว่า GDPval เพื่อตรวจสอบว่าโมเดล AI สามารถทำงานเทียบชั้นกับมนุษย์ได้มากน้อยเพียงใด โดยเฉพาะในงานที่มีคุณค่าทางเศรษฐกิจซึ่งเกี่ยวข้องกับอุตสาหกรรมหลักของสหรัฐอเมริกา โดยผลทดสอบล่าสุดพบว่า GPT-5 และ Claude Opus 4.1 ของ Anthropic สามารถสร้างผลงานที่ใกล้เคียงผู้เชี่ยวชาญในหลายสายอาชีพ

GDPval รุ่นแรก (GDPval-v0) ครอบคลุม 9 อุตสาหกรรมหลักที่มีบทบาทสำคัญต่อ GDP ของสหรัฐฯ เช่น การเงิน การแพทย์ การผลิต และภาครัฐ รวมแล้วมีการทดสอบ 44 อาชีพ ตั้งแต่ วิศวกรซอฟต์แวร์ ไปจนถึง พยาบาล และ นักข่าว

สำหรับการทดสอบเวอร์ชันแรกของ OpenAI ที่ชื่อว่า GDPval-v0 นั้น OpenAI ได้ขอให้มืออาชีพที่มีประสบการณ์เปรียบเทียบรายงานที่สร้างโดย AI กับรายงานที่สร้างโดยมืออาชีพที่เป็นมนุษย์คนอื่นๆ จากนั้นเลือกรายงานที่ดีที่สุด ตัวอย่างเช่น โจทย์หนึ่งให้ Investment Bankers สร้างรายงานภูมิทัศน์ของคู่แข่งสำหรับอุตสาหกรรมการจัดส่งสินค้าในขั้นตอนสุดท้าย (Last-mile delivery) และเปรียบเทียบกับรายงานที่สร้างโดย AI จากนั้น OpenAI จะคำนวณค่าเฉลี่ย “อัตราการชนะ” ของโมเดล AI เมื่อเทียบกับรายงานของมนุษย์ใน 44 อาชีพ

ผลลัพธ์ชี้ว่า GPT-5-high ซึ่งเป็นเวอร์ชันเสริมพลังของ GPT-5 ทำคะแนนเหนือหรือเทียบเท่าผู้เชี่ยวชาญได้ 40.6% ของงานที่ทดสอบ ส่วน Claude Opus 4.1 ทำได้สูงกว่า คือ 49% ซึ่ง OpenAI มองว่าส่วนหนึ่งเป็นเพราะ Claude มีความสามารถในการทำกราฟิกที่น่าดึงดูดสายตามากกว่า

แม้ผลลัพธ์ดูน่าทึ่ง แต่ OpenAI ยอมรับว่า GDPval ยังมีข้อจำกัด เพราะการทดสอบครั้งนี้เน้นไปที่ “การเขียนรายงาน” เพียงอย่างเดียว ในขณะที่การทำงานจริงของมนุษย์มีความซับซ้อนและหลากหลายกว่านั้นมาก ทาง OpenAI จึงมีแผนจะพัฒนาเกณฑ์ที่ครอบคลุมอุตสาหกรรมและลักษณะงานที่หลากหลายยิ่งขึ้น

สิ่งที่น่าสนใจคือการพัฒนาของโมเดล AI ในระยะเวลาอันสั้น โดย GPT-4o ซึ่งเปิดตัวเมื่อประมาณ 15 เดือนก่อน เคยทำคะแนน GDPval ได้เพียง 13.7% แต่ GPT-5 ทำคะแนนได้เกือบ 3 เท่า ภายในเวลาไม่ถึงปีครึ่ง แสดงให้เห็นถึงการพัฒนาที่ก้าวกระโดด

Dr. Aaron Chatterji หัวหน้านักเศรษฐศาสตร์ของ OpenAI ให้สัมภาษณ์กับ TechCrunch ว่า ผลทดสอบนี้สะท้อนว่า AI ช่วยให้คนทำงานในหลากหลายอาชีพสามารถลดภาระงานบางส่วน และหันไปทุ่มเทเวลาให้กับงานที่มีมูลค่าสูงกว่าได้

ขณะที่ Tejal Patwardhan ผู้นำทีมประเมินของ OpenAI มองว่าพัฒนาการที่รวดเร็วนี้เป็นสัญญาณว่าความสามารถของ AI กำลังเติบโตอย่างต่อเนื่อง

ปัจจุบันวงการ AI มีเกณฑ์การวัดหลากหลาย เช่น AIME 2025 ที่ทดสอบโจทย์คณิตศาสตร์แข่งขัน และ GPQA Diamond ที่ใช้คำถามวิทยาศาสตร์ระดับปริญญาเอก แต่หลายโมเดลเริ่มทำคะแนนใกล้เต็มเพดานแล้ว ทำให้มีความต้องการเกณฑ์ใหม่ที่สะท้อนความสามารถใน “การทำงานจริง” มากกว่า

ดังนั้น การมาของ GDPval จึงอาจกลายเป็นมาตรฐานใหม่ที่สำคัญในการประเมินศักยภาพของ AI ในโลกแห่งความเป็นจริง และแม้ว่า OpenAI จะยังไม่สามารถประกาศว่า GPT-5 แซงหน้ามนุษย์ในงานจริงได้ แต่ผลลัพธ์นี้ก็ถือเป็นหมุดหมายใหญ่ของการพัฒนา AGI ที่บริษัทตั้งเป้าไว้ตั้งแต่ก่อตั้ง

Open AI เปิดตัว GPT-4 Omni รองรับการทำงานข้ามสื่อ โต้ตอบด้วยเสียงได้
OpenAI เตรียมเปิดตัวเบราว์เซอร์ AI ท้าชน Google Chrome
OpenAI เปิดตัว GPT-5 พร้อมอัปเกรดให้ผู้ใช้ ChatGPT ทุกคน เคลมฉลาด …

ที่มา: techcrunch

About Author

RingRangRung

Since 2016

OpenAI กางผล GDPval เคลม GPT-5 เก่งเทียบชั้นผู้เชี่ยวชาญในหลายอาชีพ

About Author

RingRangRung

Partners

ซัมซุงเปิดตัว Galaxy Watch Ultra2 และ Galaxy Watch9 ชู AI ดูแลสุขภาพเชิงป้องกัน พร้อมตรวจจับความเสี่ยง 4 โรคร้าย

ซัมซุงเปิดตัว Galaxy Z Fold8 Ultra, Galaxy Z Fold8 และ Galaxy Z Flip8

จบมหากาพย์! Apple ต้องจ่าย 634 ล้านดอลลาร์ ให้ Masimo หลังศาลปัดตกคำอุทธรณ์

Garmin เปิดตัว CIRQA Smart Band สมาร์ตแบนด์ไร้หน้าจอ แบตสูงสุด 10 วัน ราคา 6,990 บาท

Apple ปล่อยวิดีโอ เรื่องจริงเมื่อ Apple Watch ช่วยชีวิตนักปั่นจักรยานที่บาดเจ็บ

Samsung เปิดตัว Health Assistant ผู้ช่วยดูแลสุขภาพพลัง AI รายแรกของโลก!

Microsoft ซื้อแร็กเซิร์ฟเวอร์ AI Helios จาก AMD ใช้งานในศูนย์ข้อมูล Azure

Google ออก Gemini 3.6 Flash ใช้โทเค็นมีประสิทธิภาพมากขึ้น ราคาถูกกว่า 3.5 Flash

WordPress ออกแพตช์ 7.0.2 แก้ไขช่องโหว่ร้ายแรง แนะนำให้อัปเดตทันที

OpenAI ยกมือยอมรับ โมเดลรุ่นใหม่ที่กำลังทดสอบ ได้เข้าไปเจาะระบบของ Hugging Face เมื่อวันก่อน