Sunʼiy intellekt savollarga javob berishda manbalarni qayerdan oladi?
Statista va Semrush maʼlumotlariga koʻra, katta til modellari bilimlarining katta qismi Reddit, Wikipedia va YouTube kabi ochiq platformalar orqali shakllanmoqda. Bu tendensiya dezinformatsiya va tarafkashlik xavfini oshirishini taʼkidlamoqda.

Statista va Semrush tomonidan 2025 yil iyun oyida eʼlon qilingan qoʻshma tadqiqot sunʼiy intellekt tizimlari eng koʻp foydalanadigan domenlar va axborot manbalarini aniqlab berdi.
Katta til modellari (LLM) bugungi kunda axborot texnologiyalari sohasida tub oʻzgarishlarni boshlab bermoqda. Ular qidiruv tizimlari, tahliliy platformalar, mijozlarga xizmat koʻrsatish va kontent yaratish kabi koʻplab yoʻnalishlarda faol qoʻllanilmoqda. Biroq bu modellarning aniqligi va ishonchliligi bevosita ular oʻqitilgan maʼlumotlar sifati bilan belgilanadi.
Tahlil shuni ko‘rsatadiki, katta til modellari akademik yoki yuqori darajada ixtisoslashgan bazalarga qaraganda, ochiq internet va ijtimoiy platformalarga ancha ko‘proq tayanadi. Ma’lumotlar oqimining asosiy qismi uchta yirik manba atrofida jamlangan.
Reddit — 40,1 foiz
Eng katta ulush — 40,1 foiz bilan Reddit platformasiga toʻgʻri keladi. Bu forumlar AI uchun jamoaviy fikrlash, jonli muloqot, ogʻzaki nutq uslublari va real hayotiy vaziyatlarga oid tajribalar manbai hisoblanadi. Modellar koʻplab kontekstual yechimlarni aynan foydalanuvchilar oʻrtasidagi muhokamalar orqali oʻzlashtiradi.
Wikipedia — 26,3 foiz
Ikkinchi oʻrinda 26,3 foiz ulush bilan Wikipedia turadi. Ushbu platforma strukturallashgan ensiklopedik bilimlar, tarixiy faktlar va ilmiy tushunchalar boʻyicha asosiy tayanch manba boʻlib xizmat qiladi. Peer-moderatsiya mexanizmi mavjud boʻlsa-da, uning ochiqligi ayrim hollarda bahsli maʼlumotlarning ham saqlanib qolishiga sabab boʻladi.
YouTube — 23,5 foiz
Uchinchi yirik manba — 23,5 foiz ulushga ega YouTube. Video kontentlarning transkripsiyalari orqali AI turli qoʻllanmalar, tushuntirishlar va amaliy yoʻriqnomalardan iborat katta hajmdagi maʼlumotlarni qayta ishlaydi. Bu esa modellarni “qanday qilish kerak” tipidagi savollarda nisbatan kuchli qiladi.
Top-10 roʻyxatga, shuningdek, Google qidiruv natijalari, Yelp va Amazonʼdagi isteʼmolchi sharhlari, Facebookʼdagi ijtimoiy munozaralar, TripAdvisorʼning turizmga oid kontenti hamda Mapbox va OpenStreet kabi geolokatsion platformalar kiradi. Ushbu manbalar AI’ga bozor talabi, jamoatchilik kayfiyati va hududiy maʼlumotlar boʻyicha keng tasavvur beradi.
| Manba | Ulush (%) | Maʼlumot turi va ahamiyati | |
| 1 | 40.1 | Subʼektiv tajribalar, jonli muhokamalar, ijtimoiy va madaniy tendensiyalar | |
| 2 | Wikipedia | 26.3 | Strukturalashgan ensiklopedik bilimlar, tarixiy va ilmiy faktlar |
| 3 | YouTube | 23.5 | Video transkripsiyalari orqali taʼlimiy va tushuntiruvchi kontent |
| 4 | 23.3 | Qidiruv natijalari, snippet’lar va umumiy axborot reytinglari | |
| 5 | Yelp | 21.0 | Isteʼmolchi sharhlari, xizmatlar sifati va foydalanuvchi tajribasi |
| 6 | 20.0 | Ijtimoiy guruhlar, jamoatchilik fikri va ommaviy muhokamalar | |
| 7 | Amazon | 18.7 | Mahsulot tavsiflari, bozor talabi va xaridor fikrlari |
| 8 | TripAdvisor | 12.5 | Turizm va mehmondoʻstlik sohasiga oid tajribaviy maʼlumotlar |
| 9 | Mapbox | 11.3 | Geografik joylashuv, xaritalar va navigatsiya maʼlumotlari |
| 10 | OpenStreetMap | 11.3 | Ochiq kodli geolokatsiya va hududiy axborot resurslari |
Manbalarning bunday taqsimoti bir qator muammolarga olib keladi
Biroq maʼlumotlar tarkibining bunday tuzilishi bir qator tizimli xavflarni yuzaga chiqaradi. Eng asosiy muammo — dezinformatsiya va tarafkashlikdir. Reddit yoki Facebook kabi platformalarda subʼektiv fikrlar, tekshirilmagan daʼvolar va mish-mishlar keng tarqalgan boʻlib, AI ularni yetarli filtratsiyasiz qabul qilishi mumkin. Natijada modellar noxolis yoki notoʻgʻri xulosalarga kelish ehtimoli oshadi.
Yana bir muhim xatar — vakolatli manbalar ulushining pastligidir. Masalan, Amazon yoki Yelpʼdagi sharhlar isteʼmolchi tajribasini aks ettiradi, biroq ular ilmiy yoki professional ekspertiza bilan mustahkamlanmagan. Bu holat tibbiyot, huquq yoki moliya kabi yuqori aniqlik talab etiladigan sohalarda jiddiy xatolarga olib kelishi mumkin.
Shuningdek, ijtimoiy tarmoqlarga xos “aks sado effekti”, yaʼni ommabop, ammo notoʻgʻri qarashlarning ustunlik qilishi AI algoritmlariga ham singib qolish xavfini tugʻdiradi. Bu esa bilimlarning muvozanatsiz va tor doiradagi qarashlar asosida shakllanishiga olib keladi.
Nima qilish kerak?
Ekspertlar fikricha, sunʼiy intellekt rivojining keyingi bosqichi “katta maʼlumotlar”dan “ishonchli maʼlumotlar”ga oʻtish bilan tavsiflanadi. Kelajakda modellarni oʻqitishda saralangan, tekshirilgan va ixtisoslashgan maʼlumotlar toʻplamlariga ustuvorlik berilishi kutilmoqda. Bular qatoriga ilmiy jurnallar, qonunchilik bazalari, tibbiy protokollar va ichki korporativ hujjatlar kiradi.
Bundan tashqari, axborot manbasining kelib chiqishini va ishonchliligini tasdiqlovchi verifikatsiya mexanizmlari, jumladan, blokcheyn asosidagi yechimlar joriy etilishi ehtimoli yuqori. Shu bilan birga, AI modellari foydalanadigan maʼlumotlar shaffofligini taʼminlashga qaratilgan regulyativ talablar ham kuchayib boradi.









