Google पूर्वावलोकन में मिथुन 2.5 देशी ऑडियो संवाद और नियंत्रणीय भाषण पीढ़ी तक पहुंच खोलता है | Infinium-tech

04JunJune 4, 2025

Google पूर्वावलोकन में मिथुन 2.5 देशी ऑडियो संवाद और नियंत्रणीय भाषण पीढ़ी तक पहुंच खोलता है | Infinium-tech

By infinium-tech Tech & Science News Hindi google, Google मिथुन 2 5 देशी ऑडियो डायलॉग कंट्रोलर स्पीच जेनरेशन टीटीएस सुविधाएँ पूर्वावलोकन उपलब्ध Google, Infiniumtech, ऐ, ऑडय, और, कृत्रिम होशियारी, खलत, तक, दश, नयतरणय, पढ, परववलकन, पहच, भषण, म, मथन, मिथुन, सवद, ह

Google ने Google I/O 2025 में मिथुन 2.5 मॉडल के साथ नई ऑडियो पीढ़ी की क्षमताओं की शुरुआत की। माउंटेन व्यू-आधारित टेक दिग्गज अब डेवलपर्स और व्यक्तियों को अपने प्लेटफ़ॉर्म पर इन सुविधाओं का परीक्षण करने दे रहे हैं। दो नई क्षमताओं में देशी ऑडियो संवाद और नियंत्रणीय पाठ-से-भाषण (टीटीएस) में मिथुन 2.5 फ्लैश पूर्वावलोकन शामिल हैं। जबकि पूर्व मूल रूप से उपयोगकर्ता के संकेतों का जवाब देते समय मानव-जैसे ऑडियो उत्पन्न कर सकता है, उत्तरार्द्ध किसी भी स्क्रिप्ट को संवादी भाषण में बदल सकता है। ये सुविधाएँ वर्तमान में एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) के माध्यम से डेवलपर्स के लिए उपलब्ध नहीं हैं।

Google मिथुन 2.5 फ्लैश की ऑडियो आउटपुट क्षमताओं को दिखाता है

में एक ब्लॉग भेजाटेक दिग्गज ने इन दो ऑडियो जेनरेशन मोड की विशेषताओं को विस्तृत किया, जिसमें कहा गया है कि डेवलपर्स लोगों के लिए नए अनुभव बनाने के लिए उनका उपयोग कैसे कर सकते हैं। वर्तमान में, Google AI स्टूडियो में देशी ऑडियो संवाद की कोशिश की जा सकती है धारा टैब, जबकि टीटीएस सुविधा का परीक्षण किया जा सकता है मीडिया उत्पन्न करें AI स्टूडियो के भीतर टैब।

मिथुन 2.5 फ्लैश पूर्वावलोकन के साथ देशी ऑडियो संवाद एक मानव उपयोगकर्ता और एआई के बीच वास्तविक समय की बातचीत के लिए डिज़ाइन किया गया है। उपयोगकर्ता या तो एक प्रॉम्प्ट टाइप कर सकता है या इसे बोल सकता है, और एआई मौखिक रूप से प्रतिक्रिया करता है। यह प्रक्रिया सीधे ऑडियो उत्पन्न करती है, बजाय पहले पाठ उत्पन्न करने और फिर इसे भाषण में परिवर्तित करने के लिए।

इसके कई फायदे भी हैं। यह भावात्मक संवाद का समर्थन करता है, जिसका अर्थ है कि जब मिथुन 2.5 फ्लैश उपयोगकर्ता की आवाज के स्वर पर प्रतिक्रिया करता है, तो यह उक्त शब्दों के पीछे की भावना को पहचान सकता है। यह समझ सकता है कि उपयोगकर्ता कब डरता है, गुस्सा होता है, या आश्चर्यचकित करता है और उसके अनुसार प्रतिक्रिया देता है।

इसके अलावा, ऑडियो जनरेशन फीचर बोलते समय भावनाओं को व्यक्त कर सकता है, विभिन्न लहजे और भाषाई शैलियों को अपनाते हैं, Google खोज जैसे उपकरणों तक पहुंच सकते हैं, और 24 से अधिक भाषाओं का समर्थन करते हैं।

नियंत्रणीय टीटीएस सुविधा में आकर, यह मल्टी-स्पीकर डायलॉग पीढ़ी प्रदान करता है, स्क्रिप्ट को बयान करते समय भावनाओं और लहजे का उत्पादन कर सकता है, वितरण की गति को नियंत्रित कर सकता है और उच्चारण पर जोर दे सकता है, और समान 24 भाषाओं और भाषा मिश्रण का समर्थन करता है।

Google का कहना है कि इन क्षमताओं का आकलन विकास प्रक्रिया में संभावित जोखिमों के लिए किया गया था। कंपनी ने किसी भी कमजोरियों को खोजने और ठीक करने के लिए दोनों आंतरिक तंत्रों के साथ -साथ रेड टीमिंग का उपयोग किया। कंपनी ने यह भी कहा कि इन मॉडलों से सभी ऑडियो आउटपुट सिंथिड, इसकी वॉटरमार्किंग तकनीक के साथ एम्बेडेड हैं।

Credits : gadgets360

Author

infinium-tech

Leave a Reply Cancel reply

28OctOctober 28, 2024

Google पूर्वावलोकन में मिथुन 2.5 देशी ऑडियो संवाद और नियंत्रणीय भाषण पीढ़ी तक पहुंच खोलता है | Infinium-tech