
OpenAI ได้เปิดตัวเกณฑ์วัดใหม่ชื่อว่า GDPval เพื่อตรวจสอบว่าโมเดล AI สามารถทำงานเทียบชั้นกับมนุษย์ได้มากน้อยเพียงใด โดยเฉพาะในงานที่มีคุณค่าทางเศรษฐกิจซึ่งเกี่ยวข้องกับอุตสาหกรรมหลักของสหรัฐอเมริกา โดยผลทดสอบล่าสุดพบว่า GPT-5 และ Claude Opus 4.1 ของ Anthropic สามารถสร้างผลงานที่ใกล้เคียงผู้เชี่ยวชาญในหลายสายอาชีพ
GDPval รุ่นแรก (GDPval-v0) ครอบคลุม 9 อุตสาหกรรมหลักที่มีบทบาทสำคัญต่อ GDP ของสหรัฐฯ เช่น การเงิน การแพทย์ การผลิต และภาครัฐ รวมแล้วมีการทดสอบ 44 อาชีพ ตั้งแต่ วิศวกรซอฟต์แวร์ ไปจนถึง พยาบาล และ นักข่าว
สำหรับการทดสอบเวอร์ชันแรกของ OpenAI ที่ชื่อว่า GDPval-v0 นั้น OpenAI ได้ขอให้มืออาชีพที่มีประสบการณ์เปรียบเทียบรายงานที่สร้างโดย AI กับรายงานที่สร้างโดยมืออาชีพที่เป็นมนุษย์คนอื่นๆ จากนั้นเลือกรายงานที่ดีที่สุด ตัวอย่างเช่น โจทย์หนึ่งให้ Investment Bankers สร้างรายงานภูมิทัศน์ของคู่แข่งสำหรับอุตสาหกรรมการจัดส่งสินค้าในขั้นตอนสุดท้าย (Last-mile delivery) และเปรียบเทียบกับรายงานที่สร้างโดย AI จากนั้น OpenAI จะคำนวณค่าเฉลี่ย “อัตราการชนะ” ของโมเดล AI เมื่อเทียบกับรายงานของมนุษย์ใน 44 อาชีพ
ผลลัพธ์ชี้ว่า GPT-5-high ซึ่งเป็นเวอร์ชันเสริมพลังของ GPT-5 ทำคะแนนเหนือหรือเทียบเท่าผู้เชี่ยวชาญได้ 40.6% ของงานที่ทดสอบ ส่วน Claude Opus 4.1 ทำได้สูงกว่า คือ 49% ซึ่ง OpenAI มองว่าส่วนหนึ่งเป็นเพราะ Claude มีความสามารถในการทำกราฟิกที่น่าดึงดูดสายตามากกว่า
แม้ผลลัพธ์ดูน่าทึ่ง แต่ OpenAI ยอมรับว่า GDPval ยังมีข้อจำกัด เพราะการทดสอบครั้งนี้เน้นไปที่ “การเขียนรายงาน” เพียงอย่างเดียว ในขณะที่การทำงานจริงของมนุษย์มีความซับซ้อนและหลากหลายกว่านั้นมาก ทาง OpenAI จึงมีแผนจะพัฒนาเกณฑ์ที่ครอบคลุมอุตสาหกรรมและลักษณะงานที่หลากหลายยิ่งขึ้น
สิ่งที่น่าสนใจคือการพัฒนาของโมเดล AI ในระยะเวลาอันสั้น โดย GPT-4o ซึ่งเปิดตัวเมื่อประมาณ 15 เดือนก่อน เคยทำคะแนน GDPval ได้เพียง 13.7% แต่ GPT-5 ทำคะแนนได้เกือบ 3 เท่า ภายในเวลาไม่ถึงปีครึ่ง แสดงให้เห็นถึงการพัฒนาที่ก้าวกระโดด

Dr. Aaron Chatterji หัวหน้านักเศรษฐศาสตร์ของ OpenAI ให้สัมภาษณ์กับ TechCrunch ว่า ผลทดสอบนี้สะท้อนว่า AI ช่วยให้คนทำงานในหลากหลายอาชีพสามารถลดภาระงานบางส่วน และหันไปทุ่มเทเวลาให้กับงานที่มีมูลค่าสูงกว่าได้
ขณะที่ Tejal Patwardhan ผู้นำทีมประเมินของ OpenAI มองว่าพัฒนาการที่รวดเร็วนี้เป็นสัญญาณว่าความสามารถของ AI กำลังเติบโตอย่างต่อเนื่อง
ปัจจุบันวงการ AI มีเกณฑ์การวัดหลากหลาย เช่น AIME 2025 ที่ทดสอบโจทย์คณิตศาสตร์แข่งขัน และ GPQA Diamond ที่ใช้คำถามวิทยาศาสตร์ระดับปริญญาเอก แต่หลายโมเดลเริ่มทำคะแนนใกล้เต็มเพดานแล้ว ทำให้มีความต้องการเกณฑ์ใหม่ที่สะท้อนความสามารถใน “การทำงานจริง” มากกว่า
ดังนั้น การมาของ GDPval จึงอาจกลายเป็นมาตรฐานใหม่ที่สำคัญในการประเมินศักยภาพของ AI ในโลกแห่งความเป็นจริง และแม้ว่า OpenAI จะยังไม่สามารถประกาศว่า GPT-5 แซงหน้ามนุษย์ในงานจริงได้ แต่ผลลัพธ์นี้ก็ถือเป็นหมุดหมายใหญ่ของการพัฒนา AGI ที่บริษัทตั้งเป้าไว้ตั้งแต่ก่อตั้ง
Open AI เปิดตัว GPT-4 Omni รองรับการทำงานข้ามสื่อ โต้ตอบด้วยเสียงได้
OpenAI เตรียมเปิดตัวเบราว์เซอร์ AI ท้าชน Google Chrome
OpenAI เปิดตัว GPT-5 พร้อมอัปเกรดให้ผู้ใช้ ChatGPT ทุกคน เคลมฉลาด …