15 दिसंबर 2025,

सोमवार

Patrika LogoSwitch to English
home_icon

मेरी खबर

icon

प्लस

video_icon

शॉर्ट्स

epaper_icon

ई-पेपर

AI को कहां से मिलता है डेटा? रिपोर्ट ने खोला राज

स्टेटिस्टा की हालिया रिपोर्ट के अनुसार, रेडिट (40.1%) एआई के लिए डेटा का सबसे बड़ा स्रोत है, इसके बाद विकिपीडिया (26.3%) और यूट्यूब (23.5%) हैं। पढ़िए शैली शर्मा की रिपोर्ट।

2 min read
Google source verification

भारत

image

Devika Chatraj

Aug 18, 2025

AI को कहां से मिलता है डेटा (File Photo)

आर्टिफिशियल इंटेलिजेंस (AI) की दुनिया में यह सवाल लंबे समय से चर्चा में रहा है कि ये मशीनें अपनी जानकारी कहां से प्राप्त करती हैं। स्टेटिस्टा की हालिया रिपोर्ट ने इस रहस्य को कुछ हद तक सुलझाया है। 5,000 रैंडम कीवर्ड्स और 1.5 लाख उद्धरणों पर आधारित इस अध्ययन ने बताया कि इंटरनेट के कौन-से प्लेटफॉर्म एआई को सबसे अधिक डेटा प्रदान करते हैं।

डेटा का सबसे बड़ा स्रोत

रिपोर्ट के अनुसार, रेडिट एआई के लिए डेटा का सबसे बड़ा स्रोत है, जिसकी हिस्सेदारी 40.1% है। इसके बाद विकिपीडिया (26.3%) और यूट्यूब (23.5%) का स्थान है। अन्य प्रमुख स्रोतों में गूगल (23.3%), येल्प (21.0%), फेसबुक (20.0%), अमेजन (18.7%), ट्रिपएडवाइजर (12.5%), मेपबॉक्स (11.3%), और ओपनस्ट्रीटमैप (11.3%) शामिल हैं।

डेटा चोरी के आरोप

एआई के डेटा स्रोतों को लेकर पारदर्शिता का अभाव रहा है, और कई कंपनियों पर डेटा चोरी के आरोप लगे हैं। रेडिट ने हाल ही में इंटरनेट आर्काइव की वेबैक मशीन को अपनी वेबसाइट से ब्लॉक कर दिया, यह दावा करते हुए कि एआई कंपनियां इस टूल के माध्यम से उसका डेटा कॉपी कर रही थीं। नतीजतन, रेडिट अब अपनी साइट के बड़े हिस्से को इंडेक्स होने से रोकने की योजना बना रहा है। वेबैक मशीन एक ऐसा टूल है जो वेबसाइटों के पुराने संस्करण और सामग्री को संग्रहीत करता है।

रेडिट का एपीआई विवाद

2023 में रेडिट ने अपने एपीआई (एप्लिकेशन प्रोग्रामिंग इंटरफेस) में बदलाव किए, जिसके कारण कई थर्ड-पार्टी ऐप्स बंद हो गए। इससे यूजर्स में भारी नाराजगी देखी गई और विरोध प्रदर्शन हुए। रेडिट ने दावा किया कि इन एपीआई का उपयोग बिना अनुमति के एआई मॉडल्स को प्रशिक्षित करने के लिए किया जा रहा था।

‘सेकंड ओपिनियन’ की सलाह

एआई के उपयोग को लेकर विशेषज्ञ सतर्कता बरतने की सलाह देते हैं। चैटजीपीटी के प्रमुख निक टर्ले ने कहा है कि एआई चैटबॉट्स को हमेशा ‘दूसरी राय’ के रूप में लिया जाना चाहिए, न कि अंतिम सत्य के रूप में। ओपनएआई ने भी स्वीकार किया है कि भले ही गलतियों में कमी आई है, फिर भी लगभग 10% मामलों में एआई गलत जवाब दे सकता है।

एआई डेटा स्रोतों की टॉप-10 सूची

  • रेडिट: 40.1%
  • विकिपीडिया: 26.3%
  • यूट्यूब: 23.5%
  • गूगल: 23.3%
  • येल्प: 21.0%
  • फेसबुक: 20.0%
  • अमेजन: 18.7%
  • ट्रिपएडवाइजर: 12.5%
  • मेपबॉक्स: 11.3%
  • ओपनस्ट्रीटमैप: 11.3%

आंकड़े: 5,000 रैंडम कीवर्ड्स और 1.5 लाख उद्धरणों पर आधारित