Google पूर्वावलोकन में मिथुन 2.5 देशी ऑडियो संवाद और नियंत्रणीय भाषण पीढ़ी तक पहुंच खोलता है | Infinium-tech
Google ने Google I/O 2025 में मिथुन 2.5 मॉडल के साथ नई ऑडियो पीढ़ी की क्षमताओं की शुरुआत की। माउंटेन व्यू-आधारित टेक दिग्गज अब डेवलपर्स और व्यक्तियों को अपने प्लेटफ़ॉर्म पर इन सुविधाओं का परीक्षण करने दे रहे हैं। दो नई क्षमताओं में देशी ऑडियो संवाद और नियंत्रणीय पाठ-से-भाषण (टीटीएस) में मिथुन 2.5 फ्लैश पूर्वावलोकन शामिल हैं। जबकि पूर्व मूल रूप से उपयोगकर्ता के संकेतों का जवाब देते समय मानव-जैसे ऑडियो उत्पन्न कर सकता है, उत्तरार्द्ध किसी भी स्क्रिप्ट को संवादी भाषण में बदल सकता है। ये सुविधाएँ वर्तमान में एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) के माध्यम से डेवलपर्स के लिए उपलब्ध नहीं हैं।
Google मिथुन 2.5 फ्लैश की ऑडियो आउटपुट क्षमताओं को दिखाता है
में एक ब्लॉग भेजाटेक दिग्गज ने इन दो ऑडियो जेनरेशन मोड की विशेषताओं को विस्तृत किया, जिसमें कहा गया है कि डेवलपर्स लोगों के लिए नए अनुभव बनाने के लिए उनका उपयोग कैसे कर सकते हैं। वर्तमान में, Google AI स्टूडियो में देशी ऑडियो संवाद की कोशिश की जा सकती है धारा टैब, जबकि टीटीएस सुविधा का परीक्षण किया जा सकता है मीडिया उत्पन्न करें AI स्टूडियो के भीतर टैब।
मिथुन 2.5 फ्लैश पूर्वावलोकन के साथ देशी ऑडियो संवाद एक मानव उपयोगकर्ता और एआई के बीच वास्तविक समय की बातचीत के लिए डिज़ाइन किया गया है। उपयोगकर्ता या तो एक प्रॉम्प्ट टाइप कर सकता है या इसे बोल सकता है, और एआई मौखिक रूप से प्रतिक्रिया करता है। यह प्रक्रिया सीधे ऑडियो उत्पन्न करती है, बजाय पहले पाठ उत्पन्न करने और फिर इसे भाषण में परिवर्तित करने के लिए।
इसके कई फायदे भी हैं। यह भावात्मक संवाद का समर्थन करता है, जिसका अर्थ है कि जब मिथुन 2.5 फ्लैश उपयोगकर्ता की आवाज के स्वर पर प्रतिक्रिया करता है, तो यह उक्त शब्दों के पीछे की भावना को पहचान सकता है। यह समझ सकता है कि उपयोगकर्ता कब डरता है, गुस्सा होता है, या आश्चर्यचकित करता है और उसके अनुसार प्रतिक्रिया देता है।
इसके अलावा, ऑडियो जनरेशन फीचर बोलते समय भावनाओं को व्यक्त कर सकता है, विभिन्न लहजे और भाषाई शैलियों को अपनाते हैं, Google खोज जैसे उपकरणों तक पहुंच सकते हैं, और 24 से अधिक भाषाओं का समर्थन करते हैं।
नियंत्रणीय टीटीएस सुविधा में आकर, यह मल्टी-स्पीकर डायलॉग पीढ़ी प्रदान करता है, स्क्रिप्ट को बयान करते समय भावनाओं और लहजे का उत्पादन कर सकता है, वितरण की गति को नियंत्रित कर सकता है और उच्चारण पर जोर दे सकता है, और समान 24 भाषाओं और भाषा मिश्रण का समर्थन करता है।
Google का कहना है कि इन क्षमताओं का आकलन विकास प्रक्रिया में संभावित जोखिमों के लिए किया गया था। कंपनी ने किसी भी कमजोरियों को खोजने और ठीक करने के लिए दोनों आंतरिक तंत्रों के साथ -साथ रेड टीमिंग का उपयोग किया। कंपनी ने यह भी कहा कि इन मॉडलों से सभी ऑडियो आउटपुट सिंथिड, इसकी वॉटरमार्किंग तकनीक के साथ एम्बेडेड हैं।
Leave a Reply