
Google ได้เปิดตัวโมเดล AI ใหม่ชื่อ Gemini 2.5 Computer Use อย่างเป็นทางการ โมเดลนี้ช่วยให้ AI Agent สามารถโต้ตอบกับเว็บไซต์และส่วนต่อประสานผู้ใช้ (UI) ได้เหมือนที่มนุษย์ทำ โดยขณะนี้เปิดให้ทดลองใช้งานสาธารณะ (Public Preview) ผ่าน Gemini API บน Google AI Studio และ Vertex AI
โมเดลใหม่นี้ถูกพัฒนาต่อยอดจาก Gemini 2.5 Pro โดยเสริมความสามารถด้านการมองเห็น (Visual Understanding) และการใช้เหตุผลขั้นสูง ทำให้สามารถโต้ตอบกับหน้าเว็บเหมือนผู้ใช้จริงได้ ไม่ว่าจะเป็นการคลิก พิมพ์ข้อความ เลื่อนหน้าเว็บ วางเมาส์บนองค์ประกอบ เปิดเมนูดรอปดาวน์ หรือการนำทางผ่าน URL
ทั้งนี้ Google ระบุว่า Gemini 2.5 Computer Use มีประสิทธิภาพสูงกว่าเครื่องมือคู่แข่งหลายรายบนเกณฑ์มาตรฐาน (Benchmark) เช่น Online-Mind2Web, WebVoyager, และ AndroidWorld พร้อมความหน่วงต่ำกว่าด้วย

สิ่งที่ทำให้โมเดล AI นี้แตกต่างคือ แทนที่จะพึ่งพา API แบบดั้งเดิม Gemini 2.5 Computer Use จะวิเคราะห์จาก ภาพหน้าจอ (Screenshot) ของอินเทอร์เฟซและแปลงข้อมูลนั้นออกมาเป็นการกระทำ (UI Action) เช่น คลิกปุ่มหรือพิมพ์ข้อมูล โดยระบบจะทำงานแบบวนลูป ส่งภาพหน้าจอกลับมาให้โมเดลวิเคราะห์ซ้ำหลังจากทำการกระทำแต่ละครั้ง
Google ได้โชว์ศักยภาพของโมเดลใหม่นี้ผ่านตัวอย่างการใช้งาน เช่น การจัดเรียง Sticky Note บนไวท์บอร์ดดิจิทัล และการโอนย้ายข้อมูลสัตว์เลี้ยงจากเว็บไซต์ไปยังระบบ CRM โดยในปัจจุบัน Gemini 2.5 Computer Use รองรับการทำงาน 13 รูปแบบ ซึ่งใช้งานได้ดีที่สุดกับเว็บเบราว์เซอร์ แต่ยังไม่ถูกปรับแต่งสำหรับการทำงานระดับ OS ของเดสก์ท็อป อย่างไรก็ตาม ผลการทดสอบเบื้องต้นบนมือถือก็บ่งชี้ถึงศักยภาพที่ดีเช่นกัน

เพื่อป้องกันการใช้งานในทางที่ผิด Google ได้วางมาตรการความปลอดภัยเข้มงวด โดยทุก Action ที่โมเดลส่งออกมาจะต้องผ่านการตรวจสอบจากระบบ Safety Service ก่อนเสมอ อีกทั้งนักพัฒนายังสามารถจำกัดการกระทำบางอย่าง หรือกำหนดให้ต้องมีการยืนยันจากผู้ใช้โดยตรงเมื่อเป็นงานที่มีความเสี่ยงสูง เช่น การทำธุรกรรมทางการเงิน
ปัจจุบันทีมภายในของ Google เองก็ได้นำ Gemini 2.5 Computer Use ไปใช้จริงแล้ว ทั้งในงานด้านการทดสอบ UI และการทำงานอัตโนมัติบนแพลตฟอร์มอย่าง Search และ Firebase ขณะที่นักพัฒนาภายนอกในโปรแกรม Early Access ก็เริ่มใช้เพื่อสร้างเครื่องมือ Workflow Automation และ Assistant ส่วนใครที่อยากทดลองใช้งานสามารถเข้าผ่าน Google AI Studio, Vertex AI หรือผ่านเดโมบน Browserbase ได้ทันที
Google เปิดตัว Gemini with Personalization ปรับแต่ง AI ตามสไตล์คนใช้
แนะนำเทคนิคใช้งาน Gemini, Gemini Advanced และ NotebookLM ผู้ช่วย …
Google อัป Chrome ด้วย Gemini AI ผู้ช่วยสุดล้ำ เปลี่ยนประสบการณ์ท่องเว็บ