Google डीपमाइंड ने मिथुन रोबोटिक्स एआई मॉडल का अनावरण किया जो वास्तविक दुनिया में रोबोट को नियंत्रित कर सकते हैं | Infinium-tech
Google डीपमाइंड ने गुरुवार को दो नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल का अनावरण किया, जो रोबोट को नियंत्रित कर सकता है ताकि उन्हें वास्तविक दुनिया के वातावरण में कई प्रकार के कार्यों का प्रदर्शन किया जा सके। डब किए गए मिथुन रोबोटिक्स और मिथुन रोबोटिक्स-एर (सन्निहित तर्क), ये उन्नत दृष्टि भाषा मॉडल हैं जो स्थानिक खुफिया और प्रदर्शन करने वाले कार्यों को प्रदर्शित करने में सक्षम हैं। माउंटेन व्यू-आधारित टेक दिग्गज ने यह भी खुलासा किया कि यह जेमिनी 2.0-संचालित ह्यूमनॉइड रोबोट बनाने के लिए Apptronik के साथ साझेदारी कर रहा है। कंपनी भी इन मॉडलों का परीक्षण कर रही है ताकि उन्हें और मूल्यांकन किया जा सके, और समझा जा सके कि उन्हें बेहतर कैसे बनाया जाए।
Google डीपमाइंड ने मिथुन रोबोटिक्स एआई मॉडल का अनावरण किया
में एक ब्लॉग भेजाडीपमाइंड ने रोबोट के लिए नए एआई मॉडल को विस्तृत किया। Google DeepMind में वरिष्ठ निदेशक और रोबोटिक्स के प्रमुख कैरोलिना परदा ने कहा कि एआई के लिए भौतिक दुनिया में लोगों के लिए सहायक होने के लिए, उन्हें “सन्निहित” तर्क का प्रदर्शन करना होगा – भौतिक दुनिया को बातचीत करने और समझने और कार्यों को पूरा करने के लिए कार्रवाई करने की क्षमता।
दो एआई मॉडल में से पहला मिथुन रोबोटिक्स, एक उन्नत दृष्टि-भाषा-एक्शन (वीएलए) मॉडल है जिसे मिथुन 2.0 मॉडल का उपयोग करके बनाया गया था। इसमें “भौतिक क्रियाओं” का एक नया आउटपुट मोडेलिटी है जो मॉडल को सीधे रोबोट को नियंत्रित करने की अनुमति देता है।
दीपमाइंड ने इस बात पर प्रकाश डाला कि भौतिक दुनिया में उपयोगी होने के लिए, रोबोटिक्स के लिए एआई मॉडल को तीन प्रमुख क्षमताओं – सामान्यता, अन्तरक्रियाशीलता और निपुणता की आवश्यकता होती है। सामान्यता एक मॉडल की विभिन्न स्थितियों के अनुकूल होने की क्षमता को संदर्भित करती है। मिथुन रोबोटिक्स “नई वस्तुओं, विविध निर्देशों और नए वातावरणों से निपटने में निपुण है,” कंपनी ने दावा किया। आंतरिक परीक्षण के आधार पर, शोधकर्ताओं ने एआई मॉडल को एक व्यापक सामान्यीकरण बेंचमार्क पर प्रदर्शन को दोगुना करने से अधिक पाया।
एआई मॉडल की अन्तरक्रियाशीलता मिथुन 2.0 की नींव पर बनाई गई है, और यह रोजमर्रा, संवादी भाषा और विभिन्न भाषाओं में लिखित कमांडों को समझ और प्रतिक्रिया कर सकता है। Google ने दावा किया कि मॉडल भी लगातार अपने परिवेश की निगरानी करता है, पर्यावरण या निर्देशों में परिवर्तन का पता लगाता है, और इनपुट के आधार पर अपने कार्यों को समायोजित करता है।
अंत में, दीपमाइंड ने दावा किया कि मिथुन रोबोटिक्स बेहद जटिल, बहु-चरणीय कार्यों का प्रदर्शन कर सकते हैं जिन्हें भौतिक वातावरण के सटीक हेरफेर की आवश्यकता होती है। शोधकर्ताओं ने कहा कि एआई मॉडल रोबोट को कागज के एक टुकड़े को मोड़ने या एक बैग में स्नैक पैक करने के लिए नियंत्रित कर सकता है।
दूसरा एआई मॉडल, मिथुन रोबोटिक्स-एर, एक विज़न लैंग्वेज मॉडल भी है, लेकिन यह स्थानिक तर्क पर केंद्रित है। मिथुन 2.0 के कोडिंग और 3 डी का पता लगाने से, एआई मॉडल को वास्तविक दुनिया में किसी वस्तु में हेरफेर करने के लिए सही कदमों को समझने की क्षमता प्रदर्शित करने के लिए कहा जाता है। एक उदाहरण पर प्रकाश डालते हुए, परदा ने कहा कि जब मॉडल को एक कॉफी मग दिखाया गया था, तो यह एक सुरक्षित प्रक्षेपवक्र के साथ हैंडल द्वारा इसे लेने के लिए दो-उंगली समझ के लिए एक कमांड उत्पन्न करने में सक्षम था।
एआई मॉडल भौतिक दुनिया में एक रोबोट को नियंत्रित करने के लिए आवश्यक बड़ी संख्या में कदम रखता है, जिसमें धारणा, राज्य अनुमान, स्थानिक समझ, योजना और कोड पीढ़ी शामिल हैं। विशेष रूप से, वर्तमान में दो एआई मॉडल में से कोई भी सार्वजनिक डोमेन में उपलब्ध नहीं है। DEEPMIND संभवतः AI मॉडल को एक ह्यूमनॉइड रोबोट में एकीकृत करेगा और प्रौद्योगिकी को जारी करने से पहले अपनी क्षमताओं का मूल्यांकन करेगा।
Leave a Reply