एथ्रोपिक विकासशील संवैधानिक क्लासिफायर को जेलब्रेक के प्रयासों से एआई मॉडल की सुरक्षा के लिए | Infinium-tech
एंथ्रोपिक ने सोमवार को एक नई प्रणाली के विकास की घोषणा की जो आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल को जेलब्रेकिंग प्रयासों से बचा सकती है। डब किए गए संवैधानिक क्लासिफायर, यह एक सुरक्षा तकनीक है जो यह पता लगा सकती है कि इनपुट स्तर पर जेलब्रेकिंग का प्रयास कब किया जाता है और एआई को इसके परिणामस्वरूप एक हानिकारक प्रतिक्रिया उत्पन्न करने से रोकता है। एआई फर्म ने स्वतंत्र जेलब्रेकर्स के माध्यम से सिस्टम की मजबूती का परीक्षण किया है और किसी भी इच्छुक व्यक्ति को अपनी क्षमताओं का परीक्षण करने के लिए सिस्टम का एक अस्थायी लाइव डेमो भी खोला है।
एन्थ्रोपिक अनावरण संवैधानिक क्लासिफायर
जेनेरिक एआई में जेलब्रेकिंग असामान्य शीघ्र लेखन तकनीकों को संदर्भित करता है जो एआई मॉडल को अपने प्रशिक्षण दिशानिर्देशों का पालन नहीं करने और हानिकारक और अनुचित सामग्री उत्पन्न करने के लिए मजबूर कर सकते हैं। जेलब्रेकिंग कोई नई बात नहीं है, और अधिकांश एआई डेवलपर्स मॉडल के भीतर इसके खिलाफ कई सुरक्षा उपायों को लागू करते हैं। हालांकि, चूंकि शीघ्र इंजीनियर नई तकनीकें बनाते रहते हैं, इसलिए एक बड़ी भाषा मॉडल (एलएलएम) का निर्माण करना मुश्किल है जो इस तरह के हमलों से पूरी तरह से संरक्षित है।
कुछ जेलब्रेकिंग तकनीकों में बहुत लंबी और जटिल संकेत शामिल हैं जो एआई की तर्क क्षमताओं को भ्रमित करते हैं। अन्य लोग सुरक्षा उपायों को तोड़ने के लिए कई संकेतों का उपयोग करते हैं, और कुछ एआई डिफेंस के माध्यम से तोड़ने के लिए असामान्य पूंजीकरण का भी उपयोग करते हैं।
में एक डाक अनुसंधान का विवरण देते हुए, एन्थ्रोपिक ने घोषणा की कि यह एआई मॉडल के लिए एक सुरक्षात्मक परत के रूप में संवैधानिक क्लासिफायर विकसित कर रहा है। दो क्लासिफायर हैं – इनपुट और आउटपुट – जो उन सिद्धांतों की एक सूची के साथ प्रदान किए जाते हैं जिनके लिए मॉडल का पालन करना चाहिए। सिद्धांतों की इस सूची को एक संविधान कहा जाता है। विशेष रूप से, एआई फर्म पहले से ही क्लाउड मॉडल को संरेखित करने के लिए गठन का उपयोग करती है।
अब, संवैधानिक क्लासिफायर के साथ, ये सिद्धांत उन सामग्री के वर्गों को परिभाषित करते हैं जिन्हें अनुमति और अस्वीकृत किया जाता है। इस संविधान का उपयोग विभिन्न सामग्री वर्गों में क्लाउड से बड़ी संख्या में संकेत और मॉडल पूर्णता उत्पन्न करने के लिए किया जाता है। उत्पन्न सिंथेटिक डेटा को विभिन्न भाषाओं में भी अनुवादित किया जाता है और ज्ञात जेलब्रेकिंग शैलियों में बदल दिया जाता है। इस तरह, सामग्री का एक बड़ा डेटासेट बनाया जाता है जिसका उपयोग एक मॉडल में तोड़ने के लिए किया जा सकता है।
इस सिंथेटिक डेटा का उपयोग तब इनपुट और आउटपुट क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है। एंथ्रोपिक ने एक बग बाउंटी कार्यक्रम आयोजित किया, जिसमें संवैधानिक क्लासिफायर को बायपास करने के लिए 183 स्वतंत्र जेलब्रेकर्स को आमंत्रित किया गया। एक शोध में सिस्टम कैसे काम करता है, इसकी गहन व्याख्या कागज़ Arxiv पर प्रकाशित। कंपनी ने दावा किया कि कोई सार्वभौमिक जेलब्रेक (एक त्वरित शैली जो विभिन्न सामग्री वर्गों में काम करती है) की खोज की गई थी।
इसके अलावा, एक स्वचालित मूल्यांकन परीक्षण के दौरान, जहां एआई फर्म ने 10,000 जेलब्रेकिंग प्रॉम्प्ट का उपयोग करते हुए क्लाउड को मारा, सफलता दर 4.4 प्रतिशत पाई गई, जैसा कि एक अनियंत्रित एआई मॉडल के लिए 86 प्रतिशत के विपरीत था। एंथ्रोपिक भी अत्यधिक रिफ्यूज़ल (हानिरहित प्रश्नों से इनकार) और संवैधानिक क्लासिफायर की अतिरिक्त प्रसंस्करण शक्ति आवश्यकताओं को कम करने में सक्षम था।
हालांकि, कुछ सीमाएं हैं। एन्थ्रोपिक ने स्वीकार किया कि संवैधानिक क्लासिफायर हर सार्वभौमिक जेलब्रेक को रोकने में सक्षम नहीं हो सकते हैं। यह विशेष रूप से सिस्टम को हराने के लिए डिज़ाइन की गई नई जेलब्रेकिंग तकनीकों के प्रति भी कम प्रतिरोधी हो सकता है। सिस्टम की मजबूती का परीक्षण करने के इच्छुक लोग लाइव डेमो संस्करण पा सकते हैं यहाँ। यह 10 फरवरी तक सक्रिय रहेगा।
नवीनतम तकनीकी समाचारों और समीक्षाओं के लिए, गैजेट्स 360 पर पालन करें एक्स, फेसबुक, WhatsApp, धागे और Google समाचार। गैजेट्स और टेक पर नवीनतम वीडियो के लिए, हमारी सदस्यता लें YouTube चैनल। यदि आप शीर्ष प्रभावकों के बारे में सब कुछ जानना चाहते हैं, तो हमारे इन-हाउस का अनुसरण करें कौन है पर Instagram और YouTube।
Android के लिए WhatsApp लिंक किए गए उपकरणों पर एक बार मीडिया को देखने की क्षमता का परीक्षण शुरू करता है
Leave a Reply