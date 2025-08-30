AI Speech Generation Module: ओपनएआई ने एक नए आर्टिफिशियल इंटेलिजेंस (AI) स्पीच जेनरेशन मॉडल, जीपीटी-रियलटाइम के बारे में बताया है। यह मॉडल बिना देरी किए नेटिव ऑडियो जनरेट करता है, जिससे दो-तरफा, रीयल-टाइम वॉइस में बात करना संभव हो सके। सैन फ्रांसिस्को स्थित इस एआई फर्म ने बताया कि ये अपने मौजूदा वॉइस मॉडलों की तुलना में, रीयल-टाइम मॉडल हाई क्वालिटी आउटपुट, कम प्रोसेसिंग टाइम, साथ ही टूल कॉलिंग, रिमोट मॉडल कॉन्टेक्स्ट प्रोटोकॉल (एमसीपी) सर्वर और इमेज इनपुट के लिए सपोर्ट जैसी कई सुविधाएं देने में सक्षम है।
एआई फर्म ने अपने बेस्ट स्पीच जेनरेशन मॉडल, GPT-Realtime, के लॉन्च के बार में बताया। उन्होंने बताया कि ये स्पीच जेनरेशन मॉडल उन पुराने वॉयस असिस्टेंट से अलग है जिनका इस्तेमाल कंपनियां ग्राहक सेवा के लिए करती हैं। ये मॉडल टेक्स्ट-टू-स्पीच और स्पीच-टू-टेक्स्ट जैसे कई सिस्टम को एक साथ जोड़कर किसी व्यक्ति के साथ बातें करता है। वहीं, OpenAI मॉडल स्पीच इनपुट को प्रोसेस करके उसके अनुरूप स्पीच आउटपुट देता है।
GPT-Realtime मॉडल में कई खूबियां हैं। ये एडवांस्ड वॉयस मोड की तरह, इमोशनल और नेचुरल आवाज निकालने में सक्षम है। पुरुष आवाज को सीडर और महिला आवाज को मारिन नाम दिया गया है। इसी के साथ कंपनी मौजूदा आठ आवाजों को भी अपडेट कर रही है।
कंपनी ने बताया कि GPT-Realtime एक एंटरप्राइज फोकस्ड ऑफर है जो कंपनी के Realtime API के साथ उपलब्ध है, जो अब सभी डेवलपर्स के लिए उपलब्ध है। इस API को पहली बार अक्टूबर 2024 में एक सार्वजनिक बीटा के रूप में पेश किया गया था।