Xiaomi เปิดตัว Xiaomi-Robotics-0 โมเดล AI หุ่นยนต์เจนเนอเรชันแรกแบบ Open-source

โดย RingRangRung | 12 กุมภาพันธ์ 2569 เมื่อ 14:03 น.

Xiaomi ประกาศก้าวเข้าสู่วงการวิจัยหุ่นยนต์อย่างจริงจัง ด้วยการเปิดตัว Xiaomi-Robotics-0 โมเดลหุ่นยนต์ขนาดใหญ่รุ่นแรกของบริษัท โดยเป็นโมเดลแบบ Vision-Language-Action (VLA) ที่มีพารามิเตอร์ 4.7 พันล้านตัว

โมเดลนี้ถูกออกแบบมาเพื่อรวม 3 ความสามารถสำคัญไว้ในระบบเดียว ได้แก่ “การรับรู้ – การตัดสินใจ – การปฏิบัติ” ซึ่ง Xiaomi เรียกว่า “Physical Intelligence” หรือปัญญาประดิษฐ์ที่สามารถโต้ตอบกับโลกจริงได้ ไม่ใช่เพียงตอบคำถามหรือประมวลผลข้อมูลในโลกดิจิทัลเท่านั้น และบริษัทระบุว่าโมเดลใหม่นี้สามารถทำผลงานระดับแนวหน้า ทั้งในสภาพแวดล้อมจำลองและการทดลองใช้งานจริง

ในภาพรวม โมเดลหุ่นยนต์ลักษณะนี้ต้องแก้ปัญหาวงจรการควบคุมแบบครบขั้นตอน ตั้งแต่การรับรู้สิ่งแวดล้อม การตัดสินใจ ไปจนถึงการลงมือทำ หุ่นยนต์จึงต้องสามารถ “เห็น-เข้าใจ-วางแผน-ลงมือ” ได้อย่างต่อเนื่อง ตัวอย่างเช่น เมื่อได้รับคำสั่งว่า “ช่วยพับผ้าเช็ดตัว” ระบบจะต้องเข้าใจวัตถุ ลักษณะของผ้า และลำดับการเคลื่อนไหวทั้งหมด ไม่ใช่เพียงเข้าใจข้อความ

Xiaomi-Robotics-0 ใช้สถาปัตยกรรม Mixture-of-Transformers (MoT) ซึ่งแบ่งออกเป็น 2 ส่วนหลัก โดยส่วนแรกคือ Visual Language Model (VLM) ทำหน้าที่เป็นเหมือนสมองของระบบ ใช้ตีความคำสั่งของมนุษย์ รวมถึงคำสั่งที่คลุมเครือ พร้อมวิเคราะห์ภาพความละเอียดสูง สามารถตรวจจับวัตถุ ตอบคำถามเกี่ยวกับภาพ และให้เหตุผลเชิงตรรกะ รวมถึงเข้าใจตำแหน่งเชิงพื้นที่ได้

ส่วนที่สองคือ Action Expert ซึ่งสร้างขึ้นบน Diffusion Transformer (DiT) หลายชั้น ทำหน้าที่ควบคุมการเคลื่อนไหวของหุ่นยนต์ โดยแทนที่จะสร้างคำสั่งทีละจังหวะ ระบบจะสร้าง “Action Chunk” หรือชุดการเคลื่อนไหวต่อเนื่อง ทำให้การเคลื่อนไหวมีความแม่นยำและลื่นไหลมากขึ้น

หนึ่งในปัญหาสำคัญของโมเดล VLA ก่อนหน้า คือเมื่อฝึกให้หุ่นยนต์ทำงานจริง ความสามารถด้านการเข้าใจภาพและภาษามักลดลง Xiaomi ระบุว่าแก้ปัญหานี้ด้วยการฝึกร่วมระหว่างข้อมูลหลายรูปแบบและข้อมูลการเคลื่อนไหว ทำให้โมเดลยังคงความสามารถด้านการให้เหตุผลควบคู่กับการลงมือปฏิบัติได้

กระบวนการฝึกเริ่มจากกลไก Action Proposal ที่ให้โมเดลคาดการณ์การกระทำระหว่างตีความภาพ เพื่อเชื่อมการมองเห็นกับการเคลื่อนไหว จากนั้นจึงล็อก VLM และฝึก DiT แยกเพื่อสร้างลำดับการเคลื่อนไหวจากสัญญาณรบกวน โดยใช้คุณลักษณะ Key-value แทนโทเค็นภาษา

นอกจากนี้ Xiaomi ยังแก้ปัญหา Inference latency หรือความหน่วงระหว่างการคิดกับการเคลื่อนไหว ด้วยเทคนิค Asynchronous inference แยกการประมวลผลออกจากการควบคุมหุ่นยนต์ เพื่อให้การเคลื่อนไหวต่อเนื่องไม่สะดุด พร้อมใช้เทคนิค Clean Action Prefix เพื่อนำการเคลื่อนไหวก่อนหน้ากลับมาใช้ ลดอาการสั่น และใช้ Λ-shaped attention mask เพื่อให้หุ่นยนต์ตอบสนองต่อสิ่งแวดล้อมปัจจุบันได้ดีขึ้น

ในการทดสอบ Benchmark โมเดลทำผลงานระดับแนวหน้าในสภาพแวดล้อมจำลอง LIBERO, CALVIN และ SimplerEnv เมื่อทดสอบกับหุ่นยนต์แขนคู่ในโลกจริง หุ่นยนต์สามารถทำงานระยะยาวได้ เช่น การพับผ้าเช็ดตัว และการถอดบล็อกประกอบ โดยสามารถจัดการได้ทั้งวัตถุแข็งและวัตถุยืดหยุ่น พร้อมการประสานมือและสายตาที่เสถียร

เปิดตัว Xiaomi Smart Camera 4 Zoom Edition กล้องวงจรปิดในอาคารซูม …
ลือ Xiaomi 18 จะไม่ได้ใช้ชิประดับท็อปตัวล่าสุดของ Qualcomm – TECHMX
Xiaomi 15 Ultra ผ่านรับรอง 3C ลุ้นเปิดตัวที่จีน เร็วๆ นี้! – TECHMX

ที่มา: gizmochina, xiaomi-robotics-0

About Author

RingRangRung

RingRangRung

Partners