स्थिरता एआई और एआरएम रिलीज लाइटवेट टेक्स-टू-ऑडियो मॉडल तेजी से ऑन-डिवाइस पीढ़ी के लिए अनुकूलित | Infinium-tech
स्टेबिलिटी एआई ने एआरएम के साथ साझेदारी में एक नया टेक्स्ट-टू-ऑडियो पीढ़ी आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल विकसित किया। बुधवार को घोषणा की गई, नए मॉडल को स्थिर ऑडियो ओपन स्मॉल करार दिया गया है, और यह कहा जाता है कि यह पाठ संकेतों का उपयोग करके छोटे ऑडियो नमूने उत्पन्न करने के लिए है। लंदन स्थित एआई फर्म ने कहा कि मॉडल हल्का है और पूरी तरह से एआरएम सीपीयू पर चलने के लिए अनुकूलित है। यह भी कहा जाता है कि यह एक तेज पीढ़ी का समय है, जिससे यह थोक उपयोग के मामलों के लिए उपयोगी है। ओपन-सोर्स ऑडियो मॉडल GitHub और Hugging Face से डाउनलोड करने के लिए उपलब्ध है।
स्थिरता एआई स्थिर ऑडियो खुला छोटा रिलीज करता है
एक न्यूज़ रूम में डाकएआई फर्म ने नए बड़े भाषा मॉडल को विस्तृत किया। यह स्थिर ऑडियो ओपन मॉडल का एक आसुत संस्करण है, जो जून 2024 में जारी किया गया था, और 47 सेकंड तक ऑडियो उत्पन्न कर सकता है। छोटे टेक्स्ट-टू-ऑडियो मॉडल को तेज पीढ़ी की गति और छोटे आकार पर ध्यान केंद्रित करने के साथ डिज़ाइन किया गया था।
स्थिर ऑडियो ओपन छोटा एक 341 मिलियन पैरामीटर मॉडल है जो ऑडियो के 11 सेकंड तक उत्पन्न कर सकता है। कंपनी का दावा है कि यह स्मार्टफोन पर स्थानीय रूप से चलने के दौरान आठ सेकंड से भी कम समय में एक ऑडियो नमूना उत्पन्न कर सकता है। दिलचस्प बात यह है कि स्टेबिलिटी एआई और एआरएम ने मोबाइल वर्ल्ड कांग्रेस (MWC) 2025 में जेनेरिक ऑडियो क्रिएशन के लिए अपने सहयोग की घोषणा की।
आर्किटेक्चर और ट्रेनिंग में आकर, स्थिर ऑडियो ओपन स्मॉल एक ट्रांसफॉर्मर आर्किटेक्चर पर आधारित एक अव्यक्त प्रसार मॉडल है। यह 4,86,492 ऑडियो रिकॉर्डिंग के डेटासेट पर प्रशिक्षित है। कंपनी ने कहा कि सभी ऑडियो फाइलें लाइसेंस प्राप्त हैं। पाठ कंडीशनिंग के लिए, एक सार्वजनिक रूप से उपलब्ध पूर्व-प्रशिक्षित T5 मॉडल का उपयोग किया गया था। एआई फर्म ने त्वरित पालन में सुधार करने और निष्कर्ष की गति को बढ़ाने के लिए प्रशिक्षण के बाद के चरण में प्रतिकूल संबंध-संकल्पना (एआरसी) एल्गोरिथ्म का उपयोग किया।
कंपनी के अनुसार, यह टेक्स्ट-टू-ऑडियो मॉडल ड्रम लूप, फोली, इंस्ट्रूमेंट रिफ़्स और एंबिएंट टेक्सचर बनाने के लिए अनुकूल है। इसके छोटे आकार के कारण, इसे एआरएम-पावर्ड स्मार्टफोन के साथ-साथ एज डिवाइस पर भी तैनात किया जा सकता है। मॉडल का उपयोग उन परिदृश्यों में भी किया जा सकता है जहां वास्तविक समय पीढ़ी और जवाबदेही पदार्थ।
स्थिर ऑडियो ओपन स्मॉल के मॉडल वेट को एआई फर्म के गले लगने वाले चेहरे पर डाउनलोड किया जा सकता है प्रविष्टिऔर कोड बेस GitHub पर पाया जा सकता है प्रविष्टि। AI मॉडल अनुमेय स्थिरता AI समुदाय लाइसेंस के तहत वाणिज्यिक और गैर-वाणिज्यिक उपयोग के लिए उपलब्ध है।
Leave a Reply