
ओपनएआई का जीपीटी रियलटाइम स्पीच मॉडल। (Image Source: ChatGPT)
AI Speech Generation Module: ओपनएआई ने एक नए आर्टिफिशियल इंटेलिजेंस (AI) स्पीच जेनरेशन मॉडल, जीपीटी-रियलटाइम के बारे में बताया है। यह मॉडल बिना देरी किए नेटिव ऑडियो जनरेट करता है, जिससे दो-तरफा, रीयल-टाइम वॉइस में बात करना संभव हो सके। सैन फ्रांसिस्को स्थित इस एआई फर्म ने बताया कि ये अपने मौजूदा वॉइस मॉडलों की तुलना में, रीयल-टाइम मॉडल हाई क्वालिटी आउटपुट, कम प्रोसेसिंग टाइम, साथ ही टूल कॉलिंग, रिमोट मॉडल कॉन्टेक्स्ट प्रोटोकॉल (एमसीपी) सर्वर और इमेज इनपुट के लिए सपोर्ट जैसी कई सुविधाएं देने में सक्षम है।
एआई फर्म ने अपने बेस्ट स्पीच जेनरेशन मॉडल, GPT-Realtime, के लॉन्च के बार में बताया। उन्होंने बताया कि ये स्पीच जेनरेशन मॉडल उन पुराने वॉयस असिस्टेंट से अलग है जिनका इस्तेमाल कंपनियां ग्राहक सेवा के लिए करती हैं। ये मॉडल टेक्स्ट-टू-स्पीच और स्पीच-टू-टेक्स्ट जैसे कई सिस्टम को एक साथ जोड़कर किसी व्यक्ति के साथ बातें करता है। वहीं, OpenAI मॉडल स्पीच इनपुट को प्रोसेस करके उसके अनुरूप स्पीच आउटपुट देता है।
GPT-Realtime मॉडल में कई खूबियां हैं। ये एडवांस्ड वॉयस मोड की तरह, इमोशनल और नेचुरल आवाज निकालने में सक्षम है। पुरुष आवाज को सीडर और महिला आवाज को मारिन नाम दिया गया है। इसी के साथ कंपनी मौजूदा आठ आवाजों को भी अपडेट कर रही है।
कंपनी ने बताया कि GPT-Realtime एक एंटरप्राइज फोकस्ड ऑफर है जो कंपनी के Realtime API के साथ उपलब्ध है, जो अब सभी डेवलपर्स के लिए उपलब्ध है। इस API को पहली बार अक्टूबर 2024 में एक सार्वजनिक बीटा के रूप में पेश किया गया था।
Published on:
30 Aug 2025 10:48 am
बड़ी खबरें
View Allटेक्नोलॉजी
ट्रेंडिंग
