रोबोटिक्स वर्कफ़्लोज़ के लिए गले लगना | Infinium-tech
मंगलवार को हगिंग फेस, एक ओपन सोर्स विजन लैंग्वेज एक्शन (VLA) आर्टिफिशियल इंटेलिजेंस (AI) मॉडल, Smolvla ने जारी किया। बड़े भाषा मॉडल का उद्देश्य रोबोटिक्स वर्कफ़्लोज़ और प्रशिक्षण-संबंधी कार्यों के लिए है। कंपनी का दावा है कि एआई मॉडल एक एकल उपभोक्ता जीपीयू, या मैकबुक के साथ कंप्यूटर पर स्थानीय रूप से चलाने के लिए पर्याप्त छोटा और कुशल है। न्यूयॉर्क, यूएस-आधारित एआई मॉडल रिपॉजिटरी ने यह भी दावा किया कि स्मोल्वला उन मॉडल को बेहतर बना सकता है जो इससे बहुत बड़े हैं। AI मॉडल वर्तमान में डाउनलोड करने के लिए उपलब्ध है।
हगिंग फेस के स्मोल्वला एआई मॉडल स्थानीय रूप से मैकबुक पर चल सकते हैं
हगिंग फेस के अनुसार, एआई अंतरिक्ष में वृद्धि के बावजूद, रोबोटिक्स में प्रगति धीमी रही है। कंपनी का कहना है कि यह एक के कारण है उच्च गुणवत्ता और विविध डेटा की कमीऔर बड़े भाषा मॉडल (LLM) जो रोबोटिक्स वर्कफ़्लोज़ के लिए डिज़ाइन किए गए हैं।
VLAs समस्याओं में से एक के समाधान के रूप में उभरा है, लेकिन Google और NVIDIA जैसी कंपनियों के अधिकांश अग्रणी मॉडल मालिकाना हैं और निजी डेटासेट पर प्रशिक्षित हैं। नतीजतन, बड़ा रोबोटिक्स अनुसंधान समुदाय, जो ओपन-सोर्स डेटा पर निर्भर करता है, इन एआई मॉडल पर प्रजनन या निर्माण में प्रमुख अड़चन का सामना करता है, पोस्ट पर प्रकाश डाला गया।
ये वीएलए मॉडल छवियों, वीडियो या प्रत्यक्ष कैमरा फ़ीड को कैप्चर कर सकते हैं, वास्तविक दुनिया की स्थिति को समझ सकते हैं और फिर रोबोटिक्स हार्डवेयर का उपयोग करके एक त्वरित कार्य को अंजाम दे सकते हैं।
हगिंग फेस का कहना है कि Smolvla रोबोटिक्स रिसर्च कम्युनिटी द्वारा वर्तमान में सामना किए गए दोनों दर्द बिंदुओं को संबोधित करता है-यह एक ओपन-सोर्स रोबोटिक्स-केंद्रित मॉडल है जिसे लेरोबोट समुदाय से एक खुले डेटासेट पर प्रशिक्षित किया जाता है। Smolvla एक 450 मिलियन पैरामीटर AI मॉडल है जो एक एकल संगत GPU के साथ डेस्कटॉप कंप्यूटर पर चला सकता है, या यहां तक कि नए मैकबुक डिवाइसों में से एक भी।
आर्किटेक्चर में आकर, यह कंपनी के वीएलएम मॉडल पर बनाया गया है। इसमें एक सिग्लिप विज़न एनकोडर और एक भाषा डिकोडर (SMOLLM2) शामिल हैं। दृश्य जानकारी को विज़न एनकोडर के माध्यम से कैप्चर और निकाला जाता है, जबकि प्राकृतिक भाषा संकेतों को टोकन और डिकोडर में खिलाया जाता है।
आंदोलनों या भौतिक कार्रवाई (एक रोबोट हार्डवेयर के माध्यम से कार्य को निष्पादित करना) के साथ काम करते समय, सेंसरिमोटर सिग्नल को एक ही टोकन में जोड़ा जाता है। डिकोडर तब इस सभी जानकारी को एक ही स्ट्रीम में जोड़ता है और इसे एक साथ संसाधित करता है। यह मॉडल को वास्तविक दुनिया के डेटा और कार्य को प्रासंगिक रूप से समझने में सक्षम बनाता है, न कि अलग-अलग संस्थाओं के रूप में।
Smolvla ने एक्शन एक्सपर्ट नामक एक अन्य घटक को जो कुछ भी सीखा है, वह सब कुछ भेजता है, जो यह पता लगाता है कि क्या कार्रवाई करनी है। एक्शन विशेषज्ञ 100 मिलियन मापदंडों के साथ एक ट्रांसफार्मर-आधारित वास्तुकला है। यह रोबोट (वॉकिंग स्टेप्स, आर्म मूवमेंट्स, आदि) के लिए भविष्य की चालों की एक श्रृंखला की भविष्यवाणी करता है, जिसे एक्शन चंक्स के रूप में भी जाना जाता है।
जबकि यह एक आला जनसांख्यिकीय पर लागू होता है, रोबोटिक्स के साथ काम करने वाले लोग कर सकते हैं डाउनलोड करना खुले वजन, डेटासेट और प्रशिक्षण व्यंजनों को या तो पुन: पेश करने या Smolvla मॉडल पर निर्माण करने के लिए। इसके अतिरिक्त, रोबोटिक्स उत्साही जिनके पास एक रोबोटिक आर्म या इसी तरह के हार्डवेयर तक पहुंच है, वे भी मॉडल को चलाने और वास्तविक समय के रोबोटिक्स वर्कफ़्लो को आज़माने के लिए इन्हें डाउनलोड कर सकते हैं।
Leave a Reply