«مصنع بيانات الحركة لكامل الجسم عبر الكائنات» يدخل حيّز التشغيل رسميًا، وشركة «تشياو جيه شيوو» تسدّ فجوة البيانات في مجال التحكم بالحركة

مصنع البيانات

مقدمة تمهيدية

لقد قمنا ببناء مصنع بيانات حركة الجسم بالكامل لسيناريوهات تجسيد متعددة (Cross-Embodiment Whole-Body Motion Data Factory)، لفتح المسار الكامل بدءًا من تصميم الحركة، والجمع المتزامن، وإعادة التوجيه عبر كيانات التجسيد، وتعزيز البيانات، وصولاً إلى التغذية الراجعة للتدريب. وباعتباره بنية تحتية تعمل بشكل مستمر، يمكن لمصنع البيانات توفير وقود البيانات لـ نظام تشغيل الروبوتات الشبيهة بالبشر، مما يتيح لنماذج حركة الجسم بالكامل في النظام الحصول باستمرار على أصول بيانات قابلة للتدريب وإعادة الاستخدام وعابرة لكيانات التجسيد.

أصبح تحسن قدرة النموذج مقيدًا بشكل متزايد بالبيانات. فإذا كان حجم البيانات غير كافٍ، يصعب على النموذج تغطية حركات كافية؛ وإذا كانت جودة البيانات غير مستقرة، سيتعلم النموذج علاقات اتصال وتنسيق جسدي خاطئة؛ وإذا لم تكن البيانات قابلة لإعادة الاستخدام عبر كيانات التجسيد المختلفة، فبمجرد تغيير عتاد الروبوت، سيتعين إعادة إنتاج العديد من أصول التدريب.

بالنسبة للنماذج العامة لحركة الجسم بالكامل، لم تعد البيانات مجرد مواد تدريبية، بل أصبحت أصولاً حاسمة تحدد حدود قدرات النموذج.

بناءً على هذا المشروع التجريبي وممارساتنا الهندسية على مدار العامين الماضيين مع مجموعة متنوعة من الروبوتات ذات الأرجل، فإننا ننتقل بمصنع البيانات من مرحلة التحقق الداخلي إلى مرحلة البناء الرسمي واسع النطاق. والمشكلات التي يهدف إلى حلها هي كيفية التخطيط المستمر للحركات، والجمع المتزامن للإشارات متعددة المصادر، وإعادة التوجيه عبر كيانات التجسيد، وإجراء التحقق الفيزيائي وتعزيز البيانات، مع تغذية نتائج التدريب رجعيًا إلى الجولة التالية من الإنتاج.

تشارك هذه المقالة أفكارنا المرحلية حول مصنع بيانات التحكم في الحركة: ما هي بيانات حركة الجسم بالكامل لسيناريوهات تجسيد متعددة، ولماذا أنشأنا مصنعًا خصيصًا لها، وكيف ينبغي لهذا المصنع أن يعمل من الداخل.

انطلاقًا من القدرة الحركية، ما هي البيانات التي نحتاجها؟

للإجابة على سؤال "ما هي البيانات التي نحتاجها"، يجب أولاً الإجابة على "ما هي القدرة الحركية التي نريدها".

بالنسبة لنموذج حركة الجسم بالكامل العام، ما نريده هو قدرة حركية يمكنها التوافق تصاعديًا مع نوايا حركية متعددة الوسائط، والتوافق تنازليًا مع عتاد التجسيد المختلف، وتكون آمنة وموثوقة، وقابلة للتطور المستمر في البيئات المعقدة.

تضع هذه القدرة متطلبات أعلى على البيانات: يحتاج النموذج إلى بيانات يمكنها الاحتفاظ في نفس الوقت بالتنسيق الكامل للجسم، ونوايا المهام، وعلاقات الاتصال، وسياق البيئة، والجدوى الفيزيائية، وقيمة إعادة الاستخدام عبر كيانات التجسيد المختلفة.

لكن أشكال البيانات الحالية، عند النظر إليها بشكل منفرد، يصعب عليها تلبية هذه المتطلبات بشكل طبيعي:

يمكن لـ بيانات التقاط الحركة تسجيل حالة حركة الجسم البشري بدقة وبشكل منظم، ولكنها تفتقر إلى معلومات البيئة والتفاعل الدقيق بين الإنسان والبيئة؛

ترتبط بيانات التشغيل عن بُعد ارتباطًا وثيقًا بكيان تجسيد روبوت محدد، وبمجرد تغيير العتاد، تنخفض قيمة إعادة الاستخدام بشكل ملحوظ؛

تركز فيديوهات المنظور الأول على تفاعل الأطراف مع الأشياء، ولا يمكنها التعبير بشكل كامل عن علاقة التنسيق لكامل الجسم بين الجذع، والأطراف السفلية، ومركز الجاذبية، والاتصال؛

على الرغم من أن فيديوهات المنظور الثالث يمكنها رؤية الحركة ككل، إلا أنه من الصعب استخراج حركات بشرية دقيقة ومنطقية منها. لكل من هذه البيانات قيمتها الخاصة، ولكنها بمفردها لا تكفي لدعم حلقة البيانات المغلقة التي يتطلبها النموذج العام لحركة الجسم بالكامل.

بناءً على هذا التقدير، فإننا نعرف أصول البيانات الموجهة حقًا لتدريب النماذج العامة لحركة الجسم بالكامل باسم بيانات حركة الجسم بالكامل لسيناريوهات تجسيد متعددة (Cross-Embodiment Whole-Body Motion Data، واختصارًا CWM)، متطلبين من CWM تلبية الخصائص الأربع التالية على الأقل في نفس الوقت:

قابليتها لإعادة التوجيه عبر كيانات التجسيد (Cross-embodiment retargetability)

يجب أن تكون الحركة نفسها قابلة للتشغيل عبر خط معالجة موحد على كيانات تجسيد مستهدفة متعددة تختلف بشكل كبير في أطوال الوصلات، وتكوينات المفاصل، وتوزيع الكتلة، وقدرات المحركات، لإنتاج عينات تدريب متسقة فيزيائيًا. وهذا يعني أن البيانات الأصلية نفسها تحتاج إلى حمل معلومات توبولوجية وحركية كافية لدعم رسم خرائط الهياكل الموحدة لمختلف كيانات التجسيد، بدلاً من الارتباط التام بفضاء مفاصل روبوت معين. إن عتاد الروبوت سيستمر في التطور والترقية، وإذا كانت البيانات تخدم جيلاً معينًا فقط من كيانات التجسيد، فستفقد قيمتها بالتزامن مع تقادم هذا الجيل من العتاد؛ بينما تربط CWM قيمة البيانات بالدلالات الحركية لكامل الجسم البشري والقواعد القابلة للانتقال، مما يسمح بالاستفادة المتكررة من نفس البيانات عبر عدة أجيال من العتاد.

التغطية الكاملة للجسم (Whole-body coverage)

يجب أن تعبر البيانات بشكل كامل عن الجذع، والأطراف، واليدين، والأصابع، وعلاقات التنسيق بينها، بدلاً من الاحتفاظ فقط بمسارات الأطراف العلوية أو مشية الأطراف السفلية. فالمهام الحقيقية لا تكون عادةً مجرد تجميع بسيط لحركات مجزأة، مثل "القرفصاء لالتقاط شيء - رفعه - الالتفات والمشي"، والتي تشمل في الوقت ذاته دعم الأطراف السفلية، وانتقال مركز الجاذبية، ووضعية الجذع، وامتداد الذراعين، وقبضة الأصابع، وتبديل نقاط الاتصال. وفقط من خلال تسجيل علاقات الارتباط بين هذه الأجزاء من الجسم ككل، يمكن للنموذج تعلم القواعد التنسيقية بين التنقل، والتشغيل، وتغيرات الوضعية.

الجدوى الفيزيائية (Physical feasibility)

البيانات المؤهلة لا تقتصر على كونها سلسة ومنطقية من الناحية الحركية فحسب، بل يجب أيضًا أن تكون ديناميكياتها على الكيان المستهدف ممكنة فيزيائيًا، دون حدوث مشكلات مثل الطفو في الهواء، أو التداخل مع الأجسام، أو الانزلاق، أو عدم الاستقرار، أو تجاوز حدود عزم الدوران. ويُعد هذا الحد الأدنى الصارم لترقية أصول CWM من مسارات مرشحة إلى عينات تدريبية.

تعددية الوسائط والمصادر (Multi-source augmentability)

تجمع بيانات CWM بالتزامن أثناء مرحلة التسجيل كلاً من حركات الجسم البشري، واللاصقات الدلالية، وفيديوهات المنظور الأول، وفيديوهات المنظور الثالث، وأصول البيئة، وأصول الأشياء، مما يجعل الحركة مصحوبة بسياق كامل للجسم والمهمة والمشهد. تلي ذلك عملية إعادة تشغيل البيانات وتعزيزها في بيئة محاكاة، من خلال تخصيص مواقع الكاميرات، وتغيير خامات المشاهد والأشياء، وجمع قوى الاتصال لكامل الجسم وحالات الحركة، لتحويل عملية الجمع الفردية إلى عينات تدريبية متعددة الزوايا والمشاهد والحالات الفيزيائية.

إن بيانات CWM التي تلبي هذه الخصائص الأربع لا يمكن الحصول عليها بمجرد عملية جمع بسيطة، وهذا هو المنطلق الأساسي لبنائنا لمصنع بيانات حركة الجسم بالكامل لسيناريوهات تجسيد متعددة.

لماذا نحتاج إلى بناء مصنع بيانات؟

لقد عرفنا ما هي بيانات CWM، ولكن بالنسبة لتدريب النماذج، لا يكفي مجرد الحصول على بيانات "صحيحة"، بل إن حجم البيانات يحمل نفس الأهمية الحاسمة، وهو أمر أصبح محل إجماع في مجال النماذج الكبيرة.

وتشير أبحاث الذكاء الاصطناعي العام (Generalist AI) إلى أن نماذج VLA تخضع أيضًا لقانون قياس البيانات (scaling law) بشكل واضح؛ كما أثبت نظام SONIC بشكل منهجي في تتبع حركة الجسم بالكامل للروبوتات الشبيهة بالبشر أن زيادة حجم البيانات الحركية تؤدي إلى تحسن ملحوظ في قدرات التحكم بالحركة. وبالنسبة للتحكم في حركة الجسم بالكامل، فإن هذا يعني أن البيانات يجب ألا تغطي فقط بضع حركات قياسية، بل تشكيلة واسعة من الحركات المتتالية مثل المشي، والالتفات، والقرفصاء، والحمل، والالتقاط، والدعم، وتفادي العقبات، واستعادة التوازن، وتبديل نقاط الاتصال.

وفقًا لتقديراتنا الداخلية، لتدريب نموذج حركة جسم كامل عام حقًا، سنحتاج في النهاية إلى مئات الآلاف من الساعات من بيانات CWM عالية الجودة؛ وأمام هذا الحجم الضخم، لا تحمل الكميات الصغيرة من البيانات أي قيمة تدريبية على المدى الطويل، بل إن القيمة الحقيقية تكمن في القدرة على توسيع حجم البيانات باستمرار.

وفي الوقت نفسه، تحتل تباينية وتنوع البيانات أهمية قصوى، إذ لا يمكن لأي كمية من بيانات المشي وحدها أن تدرب نموذجًا على القيام بشقلبة خلفية. وتكمن صعوبة بيانات حركة الجسم بالكامل في أنها لا تقتصر على معادلة "كلما زادت الحركات كان ذلك أفضل"، بل يجب أن ترتكز على وصفة بيانات صحيحة ورقابة صارمة على جودتها.

يحتاج النموذج إلى رؤية فئات حركية كافية، وحالات اتصال، ودلالات مهام، وتغيرات بيئية، واختلافات في الكيانات المستهدفة؛ وفي الوقت نفسه، يجب أن تخضع كل عينة بيانات للتنظيف، والوسم، وإعادة التوجيه، والتحقق الفيزيائي. وبخلاف ذلك، يمكن للبيانات الضخمة أن تتحول بسهولة إلى ضوضاء هائلة. إن مشكلات مثل انزلاق القدمين، وتداخل أجزاء الجسم، والطفو في الهواء، وفقدان الاستقرار، وتجاوز حدود عزم الدوران، تُعد تلوثًا مباشرًا يقلل مستويات جودة النموذج، حيث تجعله يكتسب علاقات اتصال وتنسيق جسدي خاطئة وأنماط تحكم غير قابلة للتنفيذ.

ويعني هذا المعيار أيضًا أن البيانات الخارجية لا يمكن أن تفيد كركيزة أساسية: إذ يمكن استخدام قواعد التقاط الحركة العامة وفيديوهات الإنترنت كمكملات، ولكنها لا تكفي كمًا ولا كيفًا لدعم حلقة البيانات المغلقة اللازمة لتدريب النماذج العامة لحركة الجسم بالكامل.

بناءً عليه، يجب تصميم إنتاج بيانات CWM كنظام إنتاج صناعي متكامل، بحيث يكون الجمع مجرد حلقة واحدة فيه. فالحركة منذ لحظة تصميمها وحتى تصبح جاهزة لدخول مجموعة التدريب، يجب أن تمر بمراحل فحص الجودة، وإعادة التوجيه عبر كيانات التجسيد، والتعزيز بالديناميكيات والمحاكاة، والوسم الدلالي، فضلاً عن حلقة التغذية الراجعة من جانب تدريب النماذج.

يتطلب خط الإنتاج هذا تحديد وصفات البيانات، ومراحل الإنتاج، ومعايير الجودة بشكل متزامن: ما هي الحركات التي يجب تغطيتها كأولوية، وما هي المشاهد وحالات الاتصال الأكثر ندرة، وما هي الكيانات المستهدفة التي تحتاج للتحقق، وما هي العينات التي يجب استبعادها، وما هي البيانات التي حققت أعلى العوائد في التدريب، كل هذا يجب تتبعه وتقييمه باستمرار. وكلما زاد حجم البيانات، قل الاعتماد على الخبرات اليدوية الفردية؛ وكلما كانت أهداف النموذج أكثر عمومية، تزايدت الحاجة إلى عمليات إنتاج قابلة للتكرار، والتدقيق، والتحديث المستمر.

وهذه هي القيمة الجوهرية لمصنع بيانات CWM: استخدام مساحات ومعدات وخطوط إنتاج وفرق عمل متخصصة وأنظمة فحص جودة مستقرة، لتحويل بيانات حركة الجسم بالكامل العامة إلى قدرة إنتاجية مستدامة.

يتولى مصممو الحركات المحترفون تحديد شجرة الحركات، ويتولى فريق الجمع التسجيل المتزامن عالي الجودة، ويعمل الفريق الهندسي على التنظيف، والتنسيق، وإعادة التوجيه، وإعادة التشغيل في المحاكاة، بينما يتولى فريق الخوارزميات التحقق الفيزيائي وتصفية البيانات والتغذية الراجعة للتدريب، ويقوم فريق فحص الجودة بحظر العينات غير الصالحة من دخول مجموعات التدريب.

وحدها هذه المنظومة المتكاملة على مستوى المصنع قادرة على ضمان إنتاج مستمر لبيانات CWM بحجم كافٍ ودقة متناهية ونقاء عالٍ، مع إمكانية تحديثها باستمرار لتواكب تدريب النماذج وتطور الروبوتات.

مصنع البيانات ليس مجرد "موقع جمع" بل "بنية تحتية"

إن مصنع بيانات حركة الجسم بالكامل لسيناريوهات تجسيد متعددة لشركة Qiao Jie Shuwu هو عبارة عن بنية تحتية تشمل الدورة الكاملة لإنتاج أصول بيانات CWM.

حيث يشرع من تصميم الحركة لتحديد فئات الحركة، وحالات الاتصال، ومشاهد المهام؛ وخلال مرحلة الجمع، يتم الحصول المتزامن على بيانات متعددة المصادر تشمل حركات الجسم البشري، والفيديوهات، والاتصال، والبيئة، والأشياء؛ لتخضع لاحقًا لإعادة التوجيه، والتحقق الفيزيائي، والتعزيز بالمحاكاة، محولةً المواد الخام إلى عينات صالحة للتدريب؛ وأخيرًا، يتم استخدام التغذية الراجعة للتدريب لمواصلة تصحيح وصفة البيانات.

التغطية النشطة: إثراء التنوع الحركي

أول سؤال يتعين على مصنع البيانات الإجابة عليه هو "ماذا نجمع؟". إذ يحتاج النموذج العام لحركة الجسم بالكامل إلى رؤية فضاء حركي يتسع باستمرار ويغطي مختلف طرق تنسيق الجسم. ولا يمكن لهذا الفضاء أن يكون مجرد تراكم لقائمة من الحركات، بل يجب ردم الفجوات فيه بشكل مستمر وممنهج على طول مسارات مستقلة:

التوسع الأفقي لأبعاد القدرات

يجب تنظيم خطة الجمع وفقًا لطريقة استخدام الجسم، وليس بمجرد تجميع أسماء حركات اعتباطية. وتُعد الأبعاد الأساسية مثل التنقل، وتعديل الوضعية، والتنسيق بين الأطراف، وتبديل نقاط الاتصال، والتعامل مع الأشياء، بمثابة القاعدة الأساسية التي تبنى عليها القدرات اللاحقة المعقدة. وما يهمنا هو كيفية تفعيل الجسم، وتنسيق أجزائه المختلفة، وتغيرات مركز الجاذبية والاتصال، بدلاً من مجرد جمع حركة معينة بعينها.

التضاريس المعقدة، والتفاعل متعدد الأشخاص، والتفاعل مع البيئة

تمثل هذه الأنواع الثلاثة للمشاهد التحدي الأكبر والطلب الأقرب للتشغيل الحقيقي خارج الأبعاد الأساسية، ومع ذلك فهي من أكثر المشاهد التي يتم إغفالها بسهولة، ولذا يتعين إدراجها بشكل صريح في خطط الجمع. فالتضاريس المعقدة تغير من إستراتيجيات الدعم والوقوف، والتفاعل بين عدة أشخاص يُدخل محاذاة الإيقاع وتنسيق المساحة، والتفاعل مع البيئة يدمج حركات الجسم بعمق مع الأشياء، وأسطح الاتصال، والمساحات المتاحة. ولا يمكن استقراء هذه الجوانب تلقائيًا بناءً على حركات الشخص الواحد على أرض مستوية، بل لابد من جدولتها بوضوح في خطة الجمع.

السلوك اللاشعوري والانطلاق الحر

لا يمكن للسيناريوهات المكتوبة سوى تحديد حدود المهام، في حين تشتمل الحركة الواقعية على الكثير من التفاصيل غير المكتوبة: مثل عادات الحركة الفردية، والتعديلات الفورية، والاستجابات الغريزية للظروف الطارئة. وسيقدم مصممو الحركات المحترفون التوجيهات والقيود أثناء التسجيل، مع ترك مساحة للمؤدين لإتمام الحركات وفقًا لعاداتهم الخاصة، بحيث تغطي البيانات أهداف المهام مع الحفاظ على الفروق الجسدية الواقعية.

استعادة الحركة والتعامل مع حالات الفشل

تعتمد إمكانية نشر النموذج في البيئات الحقيقية بشكل كبير على قدرته على الحفاظ على استقراره عند حدوث خلل. ولذلك، يجب إدراج استعادة الحركة بشكل مستقل في خطة الجمع، بما في ذلك استعادة التوازن بعد فقده، والانكماش لتفادي العقبات بعد التصادم، والنهوض والتعافي بعد السقوط أو من وضعيات غير مثالية. وعادةً ما تكون هذه العينات نادرة، ولكنها ترتبط مباشرةً بحدود السلامة والأمان للنموذج.

وبالمثل، يتطلب تنوع الجمع إدارة واضحة عند المصدر. حيث يؤثر تنوع طواقم ومعدات الجمع بشكل مباشر على تنوع وثراء بيانات CWM: إذ يجلب المؤدون من مختلف الأحجام، والأعمار، والأجناس، والبنيات الجسدية تباينًا في الوضعيات الحركية، ونطاق زوايا المفاصل، وطرق التحكم في مركز الجاذبية؛ كما أن التباين بين معدات الجمع المختلفة (التقاط الحركة القصوري، والبصري، والكهرومغناطيسي) من حيث الدقة، ونطاق التغطية، وقيود الارتداء، وملاءمة المشاهد، يصبح بحد ذاته بُعدًا مضافًا للبيانات. وفقط من خلال تضمين تنوع الأفراد والمعدات في خطة الجمع، لن يقتصر النموذج على تعلم طريقة حركة "فئة معينة من الناس تحت جهاز معين".

يتم تنظيم وقياس هذه الاتجاهات عبر مخطط تغطية حركي متجدد باستمرار، يسجل التوليفات التي تمت تغطيتها، والأبعاد التي لا تزال شحيحة، والعينات التي تفشل باستمرار بعد انتقالها عبر الكيانات المختلفة.

وبالإضافة إلى التغطية النشطة وفقًا للمخطط، يتلقى مصنع البيانات بوضوح متطلبات أنواع البيانات لجهات تدريب النماذج كنوع من التغذية الراجعة: فالحركات التي لم يتم تعلمها باستقرار على كيانات معينة، وحالات الاتصال ذات العائد التدريبي الأدنى، والعينات التي اجتازت فحص الجودة دون أن تقدم فائدة فعلية، يتم ترجمتها جميعًا إلى متطلبات لبيانات جديدة تدرج في خطة الجمع، لضمان استمرار معايرة عمليات الجمع بالاستناد لنتائج التدريب الفعلية.

ومن أجل تحويل المتطلبات المذكورة أعلاه إلى مهام جمع قابلة للتنفيذ الفعلي، قمنا ببناء منصة لإدارة تصميم وتسجيل البيانات مدعومة بالذكاء الاصطناعي داخل المصنع، لدمج متطلبات الحركة، ومخطط التغطية، وأصول المشاهد، وخطط التسجيل، وحالة البيانات، والتغذية الراجعة للتدريب وإدارتها ضمن نظام برامجي واحد موحد.

والمستخدمون الأساسيون لهذه المنصة هم مجموعة من مصممي الحركات المحترفين بدوام كامل، والذين يتولون مسؤولية تحديد دلالات الحركة، وتفكيك التنسيق الجسدي، وتقييم إمكانية تنفيذ الأداء، وتحويل التفاعلات الكاملة للجسم، واسترداد وضعيات الحركة، واستخدام الأدوات، ومهام المشاهد إلى خطط حركية قابلة للتسجيل.

تساعد المنصة المصممين في إعداد الخطط الحركية استنادًا إلى قدراتها المدمجة للذكاء الاصطناعي على مدار ثلاثة محاور أساسية:

فيما يخص توليد الخطط الحركية وتوسيعها، تقوم المنصة بصياغة توصيفات الحركة والتعميم الدلالي بناءً على الفجوات في مخطط التغطية والتغذية الراجعة للتدريب، واشتقاق متغيرات عديدة وفقًا لأبعاد السرعة، والحجم، والإيقاع، وغيرها؛

وفيما يخص العرض المرئي للخطط، يمكن اختيار استخدام الذكاء الاصطناعي لتوليد أمثلة حركية مباشرة من خلال التوصيفات النصية أو الإطارات الحركية المفتاحية، لتحويل التوصيفات المجردة إلى حركات مرجعية توضيحية ملموسة؛

وفيما يخص مراجعة التنوع ومطابقة الأفراد، تقارن المنصة انحراف توزيع الدفعة الحالية بالنسبة لمخطط التغطية، وتنبه المصممين إلى الأبعاد التي تم الإفراط في جمعها وتلك التي لا تزال نادرة، وتساعد المصممين في تخصيص كل خطة للمؤدي ومعدات الجمع الأنسب بناءً على الطول، والعمر، والجنس، والبنية الجسدية.

تتيح سلسلة الأدوات هذه جعل مخطط التغطية، وتقديرات المصممين، والتغذية الراجعة لتدريب النماذج في حلقة مغلقة ضمن نفس النظام، مع الاستمرار في تحويل نتائج تقييم الأداء (مثل الحركات المستقرة، والحركات ذات معدلات الفشل العالية، والمشاهد التي تنقصها التغطية) إلى مهام إنتاجية قابلة للجمع، والبحث، والتقييم.

الجمع المتزامن: جمع ومحاذاة متزامنة لمعلومات متعددة المصادر

لا يقتصر الجمع المتزامن لبيانات CWM على مجرد تسجيل مقطع لحركة بشرية، بل يتطلب الإجابة بالتزامن على أربعة أسئلة ضمن نفس الحركة: النية الحركية، وطريقة حركة الجسم، والهدف التفاعلي، والبيئة. ويشير مصطلح "الجسم الكامل" إلى أن المهام الفرعية مثل التنقل وتوجيه الحركة والتحكم بالوضعية وتغيرات الاتصال تتحقق بشكل متزامن في نفس الحركة، دون تبسيطها وضغطها إلى مجرد جمع عشوائي لمسارات الجذع واليدين والرجلين. ويتطلب ذلك بالضرورة تسجيل حركة الجسم البشري والفيديوهات والدلالات والمشاهد بشكل متزامن. وبناءً على معايير الجمع الحالية، يحاول السجل الكامل مزامنة الإشارات الأربع التالية، ويعتمد تحديد مدى توفر أي منها على مشاهد الجمع والكيان المستهدف.

حركة الجسم البشري (BVH)

تُعد الإشارة المرجعية الأساسية لإعادة التوجيه عبر كيانات التجسيد، حيث تحمل دلالات الحركة، والتنسيق الجسدي، وتغيرات مركز الجاذبية، وتحول الوضعيات. ونحن نستخدم معدات مختلفة تبعًا لاختلاف أنواع الحركة عند التسجيل:

تناسب أجهزة التقاط الحركة القصوري الحركات منخفضة الديناميكية والحركات فوق التضاريس المعقدة، نظرًا لعدم حساسيتها للموقع والعوائق البصرية وطبيعة التضاريس؛

بينما تناسب أجهزة التقاط الحركة البصري أو الهجين (البصري - القصوري) الأكثر دقة الحركات عالية الديناميكية، لضمان استقرار مواقع المفاصل أثناء الحركة السريعة؛

وتناسب أجهزة التقاط الحركة الكهرومغناطيسي الحركات الدقيقة لأطراف اليدين (مثل القبض، واستخدام الأدوات، والضغط على الأزرار، والتدوير)، مما يوفر دقة متناهية للموقع والوضعية في المساحات الصغيرة الضيقة.

الفيديوهات الأصلية

لا تدخل الفيديوهات مباشرة في عمليات إعادة التوجيه، ولكنها تمثل إشارة مساعدة عالية القيمة في مصنع البيانات: حيث تدعم إكمال الحركات في الفيديوهات واستخراج حركات الجسم البشري، مما يسهل دمج فيديوهات الإنترنت الهائلة ضمن أصول التدريب، وتجهيز الوسائط البصرية للملاحة والتشغيل؛ وتستخدم في الوقت ذاته في تدريب خوارزميات SLAM، وتقدير حالة الاتصال بين الإنسان والأشياء. ويتم الجمع ميدانيًا عبر كاميرات مثبتة على الرأس وكاميرات خارجية RGB / RGB-D تعمل بالتوازي، لتوفير لقطات من المنظورين الأول والثالث.

أصول التفاعل مع المشهد

توفر السياق البيئي والمحيط بالأشياء التي جرت فيها الحركات، وهي شرط مسبق لإدخال الحركة في بيئة المحاكاة.

نقوم بجمع نوعين من هذه الأصول: الأول يخص أصول التضاريس والمشاهد—مثل هيكل الغرفة، وتعرجات الأسطح، والأثاث الثابت، والتي تحدد معًا المساحة المتاحة للحركة وأسطح الاتصال؛ والثاني يخص أصول الأشياء القابلة للتفاعل—مثل الأشياء التي يتم نقلها، أو سحبها، أو استخدامها، والتي تحدد الهندسة المستهدفة لمهام التشغيل.

ومن الناحية التقنية، تُستخدم تقنية **3D Gaussian Splatting + استخراج الشبكات الثلاثية (Mesh)** لإجراء إعادة بناء شاملة للمشهد، مع استخدام **علامات بصرية (Markers)** إضافية للأشياء التي تتطلب دقة متناهية للموضع والوضعية. وتدعم هذه الأصول بعد دخولها بيئة المحاكاة عملية **التدريب بالتعلم المعزز وتقييم النماذج**.

اللاصقات الدلالية

يتم توليدها بالتعاون بين مصممي الحركات المحترفين، والمسجلين الميدانيين، وأنظمة الوسم المدعومة بالذكاء الاصطناعي، لتحديد حدود الحركة، وفئتها، والمشهد، والنية، مما يحدد كيفية دخول كل عينة لمجموعة التدريب وكيفية سحب العينات ووزنها وتقييمها أثناء التدريب.

وتكمن أهمية التزامن المطلق في أن قيمة حركة الجسم بالكامل لا تكمن في وسيط وحيد معزول، بل في علاقات التناظر والارتباط بين الوسائط المختلفة. ففي حركة "القرفصاء لالتقاط شيء" الواحدة، تصف بيانات BVH الخاصة بالجسم البشري فقط كيفية تغير وضعية الجسم؛ بينما يوضح الفيديو موقع هذا الشيء وما إذا كانت اليد قد لامسته فعليًا؛ وتوضح أصول المشهد البيئة التي يتواجد فيها الشيء والأسطح القابلة للتفاعل معه؛ وتحدد اللاصقات الدلالية حدود الحركة ونية المهمة. وإذا لم تكن هذه الإشارات متطابقة زمنياً، فلن نتمكن من معرفة أي إطار فيديو يطابق لحظة ملامسة اليد للشيء، ولن نتمكن من التحقق مما إذا كانت القوة المؤثرة على باطن القدم تطابق الوضعية الحالية، وبالتالي لن يتسنى لنا التحقق مما إذا كان من الممكن فعليًا إدخال مقطع الحركة هذا ضمن مجموعة التدريب.

ولأجل ذلك، يؤسس مصنع البيانات نظامًا موحدًا لساعات الجمع والطوابع الزمنية لجميع أجهزة الجمع: حيث تنجز كافة الأجهزة عمليات المعايرة المكانية والزمنية قبل البدء في الجمع، ويقوم نظام التحكم الرئيسي أثناء الجمع بإدارة أرقام المهام، وأرقام الحركات، وحالة الأجهزة، وإشارات البدء/الإنهاء بشكل موحد؛ وتُعطى الأولوية للأجهزة التي تدعم المزامنة العتادية باستخدام إشارات المحفزات، أو مزامنة الإطارات، أو الرموز الزمنية، أو بروتوكول PTP، بينما تقوم الأجهزة التي لا تدعم المزامنة العتادية بتسجيل طوابع زمنية عالية الدقة محلياً، مع تصحيح المزامنة الزمنية لاحقاً من خلال حركات المزامنة، أو أحداث المعايرة، أو خوارزميات المعالجة اللاحقة.

بعد المزامنة، يتم تنظيم وترتيب كل عينة بيانات كأصل قابل للدخول المباشر إلى خطوط الإنتاج اللاحقة، وهو عمل تتكفل به منصة إدارة التسجيل المذكورة سلفًا.

تقوم المنصة بإجراء فحص جودة تلقائي في الموقع—للتحقق من مزامنة الوقت، والمعايرة، واكتمال المسار، واستقرار طول العظام، وشذوذ النقاط المفتاحية، وحدود مقاطع الحركة، مع استخدام الذكاء الاصطناعي للمساعدة في فحص دلالات الحركة، واتساق الأداء، ورصد عيوب التسجيل الواضحة؛ وفي نفس الوقت، تنجز المنصة عملية إدخال موحد للمستودعات—بحزم كافة الوسائط لنفس الحركة في حزمة بيانات موحدة، وربطها ببيانات الجلسة، وحالة الأجهزة، ونسخة المعايرة، والانحراف الزمني، ومعدل سقوط الإطارات، ونتائج فحص الجودة، مع إتمام المحاذاة وإعادة أخذ العينات والتقطيع استنادًا إلى الساعة الرئيسية، لتشكيل الحد الأدنى لنسق البيانات الجاهز لدخول خطوط إعادة التوجيه والتدريب مباشرة.

إعادة التوجيه عبر كيانات التجسيد: إعادة التوجيه إلى روبوتات متعددة الهياكل

الحل الجوهري لمشكلة تباين بنى الروبوتات يكمن في إعادة توجيه الحركة (motion retargeting): وهو تحويل حركة تم قياسها ضمن إحداثيات جسم بشري أو كيان مرجعي إلى مسار حركي على الروبوت المستهدف. وفي سياق الإنتاج الصناعي، لا تقتصر الصعوبة على مجرد "إمكانية تحويل حركة ما إلى روبوت معين"، بل تكمن في القدرة على إنجاز ذلك باستقرار ودقة وتكلفة منخفضة وبشكل مستمر بين كميات هائلة من الحركات وتشكيلات الروبوتات المتنوعة.

على مستوى الخوارزميات، يدعم محرك إعادة التوجيه الذي قمنا بتطويره ذاتيًا معادلة "أي حركة × أي طراز روبوت × أي تضاريس". وتغطي المدخلات أي حركة، سواء كانت للجزء العلوي من الجسم، أو السفلي، أو الجسم بالكامل، مع إمكانية معالجة ملفات التقاط الحركة دون اتصال بالإنترنت، أو تدفقات التقاط الحركة الفورية، كذا دعم إشارات الحركة القادمة من الفيديوهات ومختلف المصادر الأخرى؛ وتغطي المخرجات نماذج الروبوتات ذات الأرجل، والشبيهة بالبشر، والروبوتات ذات الأطراف العلوية المركبة التي تختلف تباينًا شاسعًا في بنيتها الهيكلية، وتوزيع مفاصلها، ومقاييسها، وقدرات محركاتها، مع إمكانية دمج قيود التضاريس المستوية، والمنحدرات، والسلالم، والأسطح غير المنتظمة في نموذج حل موحد، دون الحاجة لصياغة حلول برمجية مخصصة لكل حركة، أو كل روبوت، أو كل فئة تضاريس على حدة. ويعتمد المحلل بشكل أساسي على الحلول الكينماتيكية والقيود الهندسية، مع دمج حالات الاتصال، وعلاقات الدعم، والقيود المكانية، وقيود التضاريس، وحدود المفاصل، وعلاقات التفاعل الجسدي في عملية حل برمجية موحدة، لإخراج مسارات مرشحة مستقرة الجودة والوصول الهيكلي والاتساق الدلالي.

على المستوى الهندسي، يتميز المحرك بثلاث مزايا تخدم الإنتاج الصناعي مباشرة.

أولاً، لا يتطلب ضبطًا مخصصًا لكل حركة، ولا قوالب حركية مسبقة: تأتي القدرة العابرة لكيانات التجسيد من وجود طبقة موحدة لتجريد الكيانات—فعند إشراك روبوت جديد، نعتمد فقط على تعريف هيكل الروبوت (URDF) الخاص به، لتتمكن الخوارزمية تلقائيًا وسريعًا من مواءمة البنى المتعددة على هذه الطبقة التجريدية، دون كتابة منطق حل مخصص لكل حركة أو روبوت، ودون الاعتماد على الضبط اليدوي الدقيق لكل حركة.

ثانياً، وضع هجين يدعم التدفق الفوري والتشغيل دون اتصال بالإنترنت: حيث يمكن للمحرك استقبال وتوجيه تدفقات الحركة القادمة فورًا من أجهزة الجمع، وأيضًا معالجة قواعد البيانات الحركية الضخمة المخزنة دفعة واحدة؛ وتلغي هذه الميزة ضرورة جعل إعادة التوجيه مرحلة معزولة تجري بعد انتهاء عملية الجمع، لتصبح عملية تتم بالتزامن مع الجمع—إذ بمجرد تسجيل الحركة، تكون مساراتها المقابلة على الكيان المستهدف جاهزة للاستخدام، ومتاحة فورًا لعمليات فحص الجودة والتعزيز الديناميكي اللاحقة. ويدعم نظام إعادة التوجيه لدينا في وضع التدفق الفوري إخراج البيانات من مختلف الأجهزة مثل Noitom و Xsens وغيرها.

ثالثاً، توزيع مستقر ومستمر عبر النظم المختلفة: حيث يمكن نشر المحرك وإعادة تشغيله بنفس الأسلوب المستقر على المحطات الهندسية، ومواقع الجمع الميداني، ومجموعات حواسب التدريب، وحتى على مستوى الروبوت المستهدف، مما يضمن عمل تدفق الحركة دائمًا وفقًا لنفس الخوارزمية البرمجية عبر كافة مفاصل خط الإنتاج.

على مستوى السعة الإنتاجية، يمثل المحرك الخدمة الإنتاجية العمود الفقري للمصنع. وتبين الإحصاءات الحالية أن هذه الخوارزمية لإعادة التوجيه يمكنها تجاوز معدل 1000 إطار في الثانية لكل نواة معالج CPU واحدة، وهو ما يعادل أضعافًا مضاعفة لمعدل إطارات التسجيل المعتاد؛ وقد خصصنا لهذه العملية مجموعة موارد حوسبية قوية لتتمكن من معالجة دفقات البيانات القادمة من أجهزة الجمع باستمرار، ودعم التوزيع المتوازي لنفس الحركة على عدة روبوتات ذات هياكل مختلفة في نفس الوقت. وعلى صعيد جدوى الإنتاج، يضغط هذا النظام التكلفة الخفية المتمثلة في اضطرار المهندسين لمواءمة كل حركة يدويًا، ليحولها إلى مجرد عملية معايرة هندسية تجري لمرة واحدة عند إشراك أي روبوت جديد، مخلصًا زمن العملية الإجمالي لـ "الجمع ← إعادة التوجيه ← عينات التدريب المرشحة" من بضعة أيام إلى وقت يقارب اللحظي.

تمت إعادة توجيه نفس الحركة لرقصة بشرية عبر كيانات التجسيد، لتُرسم على عدة روبوتات مختلفة البنية الهيكلية، وتم تمويه بعض الروبوتات المحمية بالسرية. إن تحقيق هذا التأثير لا يتطلب أي ضبط يدوي لمعلمات الخوارزمية أو تكوينات إضافية مخصصة

تعزيز البيانات: تعزيز دلالي من خلال الديناميكيات، والمحاكاة، والوسم بالذكاء الاصطناعي

تعتبر مسارات الحركة الناتجة عن عملية إعادة التوجيه مسارات مرشحة عالية الجودة، ولكنها لا تمثل بوضعها الحالي أصول التدريب النهائية. ويهدف تعزيز البيانات إلى مواصلة تحويل هذه المسارات المرشحة إلى بيانات أكثر قابلية للتحقق والتدريب والاستهلاك من قبل النماذج. ونحن نعمل في هذا الصدد وفق ثلاثة محاور أساسية: التعزيز الفيزيائي والديناميكي، والتعزيز بتنوع المحاكاة، والوسم الدلالي.

يعمل التعزيز الديناميكي على وضع العينات الأكثر قيمة وصعوبة وتطلبًا للاتساق الفيزيائي ضمن نموذج الديناميكيات والاتصال الخاص بالروبوت المستهدف، ويتحكم بالتوازي عبر المعالجة اللاحقة لديناميكيات التعلم المعزز (RL) في أخطاء التتبع والتجاوزات الفيزيائية، ليرتقي بالمسارات المرشحة من حالة "التشابه الكينماتيكي الظاهري" إلى مستوى "القدرة على تتبع المسار بدون تداخل أو تجاوز لعزم الدوران أو اختراق لمخروط الاحتكاك بالروبوت المستهدف". ويتم فحص العينات غير الصالحة وتدوين أسباب فشلها وتمريرها لنظام مراجعة الجودة بدلاً من استبعادها مباشرة.

أما التعزيز بتنوع المحاكاة فيقوم بإعادة تشغيل نفس الحركة بشكل متكرر في بيئات افتراضية مختلفة، لمضاعفة الكثافة الإجمالية لتغطية أصول بيانات CWM أضعافًا عديدة.

من ناحية، تتم تغطية الوسائط المفقودة: فباستخدام المحاكاة الفيزيائية وخطوط عرض الرسوميات الفنية، يتم إيجاد الإشارات القوية، وخرائط العمق، والتقطيع الدلالي، والصور متعددة الزوايا، وغيرها من الوسائط التي لم يتم جمعها فعليًا للعينات الأصلية واقتصارها سابقًا على الحركة والفيديو فقط؛

ومن ناحية أخرى، يتم توسيع التنوع البصري والمحيط بالمشاهد: من خلال تغيير خامات وملمس الأشياء والبيئات، وتعديل مستويات الإضاءة، وتغيير توزيع الغرف، وإشراك كائنات جديدة للتفاعل، والوضعيات البدئية، وتطبيق قوى دفع واضطرابات خارجية بمختلف الاتجاهات والمستويات. ويمكن لنفس الحركة، عبر نسخها على عدة روبوتات مستهدفة، ومجموعة مشاهد، ومستويات إضاءة واضطرابات متنوعة، توليد كميات كبيرة من العينات الجديدة، مما يوفر للنموذج فرصة لرؤية "توزيع كامل من الطرق للقيام بالحركة" بدلاً من رؤية "طريقة واحدة فقط للقيام بها".

ويعمل الوسم الدلالي على جعل البيانات أصولاً يسهل البحث فيها، وتصفيتها، ووزنها، وإعادة استخدامها عبر خطوط التدريب. ويساعد نظام الوسم بالذكاء الاصطناعي في تمييز وتوليد لاصقات الحركات المجزأة، وفئات الحركة، وحالات الاتصال، وكائنات المشهد، ودلالات المهام، وأسباب فشل الحركة، وأبعاد القدرات، بينما يتولى مصممو الحركات المحترفون مراجعة الحدود الدلالية للقطع والعينات المفتاحية، وضبط مخرجات الوسم وفق التنسيقات القياسية الصالحة لعمليات سحب العينات والتقييم والتدريب.

تتشارك عمليات التعزيز الثلاث هذه في نفس سجل النسخ والمصادر: حيث يتم وسم كل عينة معززة بالمعلومات التي توضح الحركة الأصلية التي انحدرت منها، والروبوت المستهدف الذي مرت عبره، والمعالجة اللاحقة للديناميكيات التي خضعت لها، وجولة تعزيز المحاكاة التي أجريت عليها، ونسخة الوسم المصاحبة، ومدى اجتيازها للتحقق الفيزيائي. ويتيح ذلك لنظام التدريب إعادة استخدام العينات المعززة ومقارنتها واسترجاع نسخها بأمان عبر التحديثات المختلفة، كما يتيح لنظام مراجعة الجودة تتبع مستويات التقصير وتحديد المسؤولية في المراحل المحددة للتعزيز عند ظهور أي عيب.

بعد إعادة التوجيه عبر كيانات التجسيد (المعلمة باللون الأخضر)، تم إنتاج بيانات عالية الجودة ومتسقة فيزيائيًا وديناميكيًا (المعلمة باللون الأحمر) من خلال التعزيز الديناميكي. ويظهر بوضوح تراجع حالات انزلاق البيانات، والتداخل، والطفو في الهواء

تغذية الجودة الراجعة: إعادة دمج نتائج تدريب النماذج في نظام الإنتاج

تقتصر طريقة فحص جودة لقطات الحركة التقليدية على التحقق من خلو المسارات من التشوهات؛ بينما يسلك نظام إدارة جودة مصنع بيانات CWM مسارين أساسيين: أولاً، الفحص التدريجي المتعدد الطبقات على طول خط الإنتاج، وثانياً، إغلاق الحلقة بالتغذية الراجعة من نتائج تدريب النماذج.

الخطوة الأولى هي الفحص متعدد الطبقات. يتعين على أي عينة أن تجتاز أربعة فحوصات جودة مستقلة وتدريجية من لحظة صياغة متطلباتها وحتى دخولها مجموعة التدريب، لتنقية المسار المرشح وتحويله لأصل يستحق مكانًا في مجموعة التدريب، ولكن الحكم النهائي بشأن مدى نجاح هذه العينات في تدريب نموذج حركة جسم كامل عام يبقى دائمًا في يد النموذج نفسه وتدريبه الفعلي.

مستوى التصميم

يقيم مدى مطابقة متطلبات الحركة لثغرات وفجوات القدرات، ومدى تغطيتها للمساحات الشحيحة في مخطط التغطية، ومدى مواءمتها لإمكانات التنفيذ الميداني لطواقم الجمع. يتحكم هذا المستوى في سؤال "هل يجب جمع هذه الحركة؟".

مستوى البيانات الأصلية

يقيم مدى دقة تجسيد المؤدين لنية الحركة المصممة، وتزامن عمليات التسجيل، وجودة تفعيل وتعيين المعايرة، وخلو البيانات من المشكلات الأساسية للتسجيل مثل فقدان الإطارات، أو الانحراف، أو شذوذ النقاط المفتاحية، أو عدم استقرار أطوال العظام. يتحكم هذا المستوى في سؤال "هل تم الجمع بشكل صحيح؟".

مستوى بيانات إعادة التوجيه

يقيم إمكانية وصول الهيكل الكينماتيكي للمسار المرشح على الروبوت المستهدف، وعدم تجاوز زوايا المفاصل للحدود المسموحة، وصحة علاقات الاتصال، واستمرار صحة الدلالات الحركية بعد إنجاز عملية إعادة التوجيه. يتحكم هذا المستوى في سؤال "هل لا تزال الحركة صحيحة وممكنة بعد نقلها للروبوت المستهدف؟".

مستوى البيانات المعززة

يقيم قدرة الروبوت على تتبع المسار بعد المعالجة الديناميكية اللاحقة دون حدوث تداخل أو تجاوز لعزم الدوران أو اختراق لمخروط الاحتكاك؛ والتحقق من اشتمال عينات تعزيز المحاكاة والوسم الدلالي على السجلات الصحيحة للنسخ والمصادر. يتحكم هذا المستوى في سؤال "هل تقديم هذه البيانات لمجموعة التدريب سيكون فعالاً ومفيداً حقاً؟".

الخطوة الثانية هي إغلاق الحلقة بالنتائج. يقوم جانب التدريب بجمع وتلخيص نتائج تقييم كل نموذج بانتظام، مثل تحديد فئات الحركات التي تم تعلمها باستقرار على تصميمات روبوتات معينة، وتلك التي فشلت، وحالات الاتصال ذات العائد التدريبي الأدنى، والعينات التي اجتازت مستويات الفحص الأربعة دون إحداث تأثير إيجابي ملموس، وتحويل ذلك كله إلى ملف توصيف للفشل قابل للكتابة الرجعية: بما يوضح الروبوت، وفئة الحركة، وحالة الاتصال، ونسخة التدريب التي جرى معها الفشل، وتتبع الخلل وصولاً لمستوى التصميم، أو الجمع الأصلي، أو إعادة التوجيه، أو مرحلة تعزيز البيانات.

يتم إرسال ملف توصيف الفشل مباشرةً لكافة المستويات السابقة: حيث يقوم مستوى التصميم استنادًا إليه بتعديل أولويات مخطط التغطية وخطط التسجيل؛ ويقوم مستوى البيانات الأصلية بتعديل معايير الجمع، وإستراتيجيات المزامنة، وعتبات فحص الجودة الميداني؛ ويقوم مستوى إعادة التوجيه بتطوير وتحسين قدرات الخوارزميات؛ ويقوم مستوى التعزيز بتعديل مستويات المعالجة الديناميكية اللاحقة، وإعدادات تنوع المحاكاة، ومعايير الوسم الدلالي.

من خلال دمج هاتين الخطوتين، يشكل مصنع البيانات حلقة ترقية وتطوير دائرية مستمرة. ويعمل النظام فعليًا وفق محورين متوازيين: الأول يخص التغطية النشطة الموجهة بتقديرات المدى الطويل للتوسع المستمر لقواعد بيانات حركات الجسم البشري وفقًا لمخطط التغطية؛ والثاني يخص سد الفجوات بالتغذية الراجعة القادمة من عمليات تدريب النماذج ومعالجة الثغرات وفقًا لملف توصيف الفشل في كافة المستويات السابقة. ومع كل دورة تكتمل، يرتفع مستوى جودة أصول البيانات، وكثافة التغطية العابرة للروبوتات المستهدفة، ومكاسب التدريب معًا: كلما عمل النظام أكثر، زادت دقته وتسارعت وتيرته، وهو المصدر الأساسي للتأثير التراكمي الإيجابي لمصنع بيانات CWM مع مرور الوقت.

خاتمة المقال: الوضع الحالي والمستقبلي لمصنع بياناتنا

خلال الأشهر الثلاثة الماضية، نجحنا في تفعيل الدورة الكاملة من البداية وحتى النهاية لمصنع بيانات حركة الجسم بالكامل لسيناريوهات تجسيد متعددة في مشروعنا التجريبي الداخلي. ولم يكن الهدف في هذه المرحلة السعي وراء تحقيق أقصى طاقة إنتاجية، بل تفعيل الخطوات الكاملة لنظام الإنتاج والتأكد من عمله الفعلي: مثل إدارة تصميم الحركة بشكل منظم، والمزامنة المستقرة لعمليات الجمع متعددة المصادر، والمواءمة السريعة لإعادة التوجيه مع هياكل الروبوتات الجديدة، وتحويل المسارات المرشحة لأصول تدريبية صالحة عبر التعزيز وفحص الجودة، وقدرة التغذية الراجعة على توجيه دورات الإنتاج التالية بفاعلية.

وعلى امتداد هذه الدورة، تمكنا من إنتاج ما يقرب من ألف ساعة من بيانات CWM عالية الجودة؛ وتم استخدام هذه الدفعة لتدريب نموذج لحركة الجسم بالكامل نجح في اجتياز اختبارات التحقق الأساسية على أكثر من عشرة طرازات من الروبوتات ذات الأرجل التي تختلف بشكل شاسع في بنيتها الهيكلية، وأداء محركاتها، وتوزيع كتلتها، وقيم عزم قصورها الذاتي.

والآن، بعد اكتمال التحقق الداخلي لجدوى هذا النظام، يوشك مصنع البيانات على الانتهاء من مرحلة تشييده الرسمية كاملة المواصفات. وسيتركز الاهتمام في المرحلة التالية على الانتقال من مجرد التحقق التجريبي إلى الإنتاج واسع النطاق—من خلال توسيع مساحات العمل، وتشييد غرف الجمع المتخصصة، وتوسيع أجهزة التقاط الحركة، وزيادة طواقم تصميم الحركة، وتعيين المزيد من المؤدين، جنباً إلى جنب مع توسيع مجموعات حواسب الخوارزميات، وتجارب المحاكاة، وعمليات التدريب، لضمان استقرار تشغيل خطوط الإنتاج السابقة على مستويات ومعايير أوسع بكثير.

ويتمثل هدفنا بعد تشغيل المصنع الجديد في الوصول لقدرة إنتاجية لبيانات CWM عالية الجودة مخصصة لمختلف فئات وتصميمات الروبوتات بمعدل آلاف الساعات شهرياً، مع الترقية التدريجية المدروسة للإنتاج من مستوى "آلاف الساعات" إلى "عشرات آلاف الساعات"؛ وخلال هذه الرحلة، ستخضع جودة البيانات، ومعدلات إعادة الاستخدام عابرة الحدود، ومكاسب عمليات التدريب للتقييم والمقارنة المستمرة كمعايير إنتاجية موحدة، لضمان قدرة كل دفعة جديدة من البيانات على إيضاح عدد ونماذج الروبوتات التي نجحت الحركات في العمل عليها، والمكاسب والفوائد الفعلية التي أضافتها لمستويات التدريب، بدلاً من الاكتفاء بمجرد إعلان أرقام جافة لعدد الساعات التي تم جمعها.