AI’ning milliard dollarlik to‘sig‘i: Sifatli ma’lumotlar, model emas | Fikr
AI keyingi trillion dollarlik sanoat bo‘lishi mumkin, biroq u jimjitlikda ulkan to‘siqqa yaqinlashmoqda. Hamma kattaroq va kuchliroq modellar qurishga shoshilayotgan bir paytda, yaqinlashib kelayotgan muammo deyarli e’tibordan chetda qolmoqda: biz atigi bir necha yil ichida foydalanish mumkin bo‘lgan o‘quv ma’lumotlaridan mahrum bo‘lishimiz mumkin.
- AI yoqilg‘isi tugamoqda: O‘quv ma’lumotlar to‘plamlari har yili 3.7 barobar o‘smoqda va biz 2026-2032 yillar oralig‘ida sifatli ochiq ma’lumotlar zahirasini tugatib qo‘yishimiz mumkin.
- Yorliqlash bozori 2024 yilda $3.7B dan 2030 yilga kelib $17.1B ga portlayapti, shu bilan birga haqiqiy inson ma’lumotlariga kirish imkoniyati cheklovlar va tartibga solishlar ortidan qisqarib bormoqda.
- Sintetik ma’lumotlar yetarli emas: Aloqa halqalari va haqiqiy dunyo nozikliklarining yo‘qligi uni inson tomonidan yaratilgan tartibsiz ma’lumotlarga xavfli o‘rinbosar qiladi.
- Quvvat ma’lumot egalariga o‘tmoqda: Modellar ommaviylashar ekan, haqiqiy farqni noyob va yuqori sifatli ma’lumotlar to‘plamiga egalik va nazorat qilish belgilaydi.
EPOCH AI ma’lumotlariga ko‘ra, yirik til modellari uchun o‘quv ma’lumotlar to‘plamlari hajmi 2010 yildan beri har yili taxminan 3.7 barobar o‘sib bormoqda. Shu tezlikda, biz 2026 va 2032 yillar oralig‘ida dunyodagi yuqori sifatli, ochiq o‘quv ma’lumotlari zahirasini tugatib qo‘yishimiz mumkin.
Biz hali bu to‘siqqa yetib bormasdan ham, yorliqlangan ma’lumotlarni yig‘ish va saralash xarajatlari allaqachon osmonga chiqmoqda. Ma’lumotlarni yig‘ish va yorliqlash bozori 2024 yilda $3.77 milliardga baholangan va 2030 yilga kelib $17.10 milliardga yetishi kutilmoqda.
Bunday portlovchi o‘sish aniq imkoniyatni, lekin aniq bo‘g‘ilishni ham ko‘rsatadi. AI modellar faqat ular o‘rgatilgan ma’lumotlar darajasida yaxshi bo‘ladi. Yangi, xilma-xil va xolis ma’lumotlar to‘plamlarining kengaytiriladigan oqimi bo‘lmasa, bu modellar samaradorligi bir nuqtada to‘xtaydi va foydaliligi pasayishni boshlaydi.
Shunday ekan, haqiqiy savol — keyingi buyuk AI modelini kim quradi, emas. Bu ma’lumot kimga tegishli va u qayerdan olinadi?
AI’ning ma’lumot muammosi ko‘ringandan ham kattaroq
So‘nggi o‘n yillikda AI innovatsiyasi asosan ochiq ma’lumotlar to‘plamlariga tayanib keldi: Wikipedia, Common Crawl, Reddit, ochiq kodli repozitoriyalar va boshqalar. Ammo bu manbalar tezda qurib bormoqda. Kompaniyalar o‘z ma’lumotlariga kirishni cheklayotgani va mualliflik huquqlari muammolari ko‘payayotgani sababli, AI kompaniyalari o‘z yondashuvlarini qayta ko‘rib chiqishga majbur bo‘lmoqda. Hukumatlar ham ma’lumotlarni yig‘ishni cheklovchi tartibga solishlarni joriy qilmoqda va jamoatchilik fikri milliard dollarlik modellarni foydalanuvchilar tomonidan bepul yaratilgan kontentda o‘rgatishga qarshi o‘zgarib bormoqda.
Sintetik ma’lumotlar taklif etilgan yechimlardan biri, lekin bu xavfli o‘rinbosar. Model tomonidan yaratilgan ma’lumotlarda o‘qitilgan modellar aloqa halqalari, xayoliy natijalar va vaqt o‘tishi bilan samaradorlikning pasayishiga olib kelishi mumkin. Sifat masalasi ham bor: sintetik ma’lumotlar ko‘pincha haqiqiy dunyo ma’lumotlaridagi tartibsizlik va noziklikdan mahrum bo‘ladi, aynan shu xususiyatlar AI tizimlariga amaliy vaziyatlarda yaxshi ishlash imkonini beradi.
Natijada, haqiqiy dunyo, inson tomonidan yaratilgan ma’lumotlar oltin standartga aylanmoqda va uni topish tobora qiyinlashmoqda. Inson ma’lumotlarini to‘playdigan yirik platformalarning aksariyati, masalan Meta, Google va X (ilgari Twitter), yopiq ekotizimlardir. Kirish cheklangan, monetizatsiya qilingan yoki butunlay taqiqlangan. Eng yomoni, ularning ma’lumotlar to‘plamlari ko‘pincha ma’lum hududlar, tillar va demografiyalarga moyil bo‘lib, natijada turli real hayotiy vaziyatlarda ishlay olmaydigan tarafkash modellar paydo bo‘ladi.
Xulosa qilib aytganda, AI sanoati uzoq vaqt davomida e’tibordan chetda qolgan haqiqatga to‘qnashmoqda: ulkan LLM qurish faqat yarim jang. Uni oziqlantirish esa ikkinchi yarmi.
Nega bu aslida muhim
AI qiymat zanjirining ikki qismi bor: model yaratish va ma’lumotlarni olish. So‘nggi besh yil davomida deyarli barcha kapital va shov-shuv model yaratishga qaratildi. Ammo model hajmi chegaralariga yetar ekanmiz, nihoyat tenglamaning ikkinchi yarmiga e’tibor qaratilmoqda.
Agar modellar ommaviylashayotgan bo‘lsa, ochiq kodli alternativalar, kichikroq versiyalar va apparatga samarali dizaynlar bilan, haqiqiy farq ma’lumotlarda bo‘ladi. Noyob, yuqori sifatli ma’lumotlar to‘plamlari aynan qaysi modellar ustun bo‘lishini belgilaydi.
Ular yangi qiymat yaratish shakllarini ham kiritadi. Ma’lumot hissa qo‘shuvchilar manfaatdor tomonlarga aylanadi. Quruvchilar yangi va dinamik ma’lumotlarga ega bo‘ladi. Korxonalar esa o‘z auditoriyasiga yaxshiroq moslashgan modellarni o‘rgata oladi.
AI kelajagi ma’lumot yetkazib beruvchilarga tegishli
Biz AI’ning yangi davriga kiryapmiz, bu davrda ma’lumotni kim nazorat qilsa, haqiqiy quvvat ham o‘sha qo‘lda bo‘ladi. Yaxshiroq, aqlliroq modellarni o‘rgatish bo‘yicha raqobat kuchayarkan, eng katta cheklov hisoblash quvvati emas. Bu — haqiqiy, foydali va qonuniy foydalanish mumkin bo‘lgan ma’lumotlarni topish bo‘ladi.
Endi savol AI kengayadimi yo‘qmi, emas, balki bu kengayishni kim ta’minlaydi. Bu faqat ma’lumot olimlari bo‘lmaydi. Bu ma’lumot boshqaruvchilari, agregatorlar, hissa qo‘shuvchilar va ularni birlashtiradigan platformalar bo‘ladi. Keyingi chegara aynan shu yerda.
Shunday ekan, keyingi safar sun’iy intellektdagi yangi chegara haqida eshitsangiz, modelni kim yaratganini emas, uni kim o‘rgatganini va ma’lumot qayerdan kelganini so‘rang. Chunki oxir-oqibat, AI kelajagi faqat arxitekturaga bog‘liq emas. Bu — kiruvchi ma’lumotga bog‘liq.
Max Li — OORT asoschisi va bosh direktori, markazsiz AI uchun ma’lumot buluti. Dr. Li professor, tajribali muhandis va 200 dan ortiq patentga ega ixtirochi. Uning tajribasi Qualcomm Research bilan 4G LTE va 5G tizimlarida ishlash, axborot nazariyasi, mashinani o‘rganish va blockchain texnologiyasi bo‘yicha ilmiy hissalarni o‘z ichiga oladi. U Taylor & Francis CRC Press tomonidan chop etilgan “Reinforcement Learning for Cyber-physical Systems” kitobining muallifi.
Mas'uliyatni rad etish: Ushbu maqolaning mazmuni faqat muallifning fikrini aks ettiradi va platformani hech qanday sifatda ifodalamaydi. Ushbu maqola investitsiya qarorlarini qabul qilish uchun ma'lumotnoma sifatida xizmat qilish uchun mo'ljallanmagan.
Sizga ham yoqishi mumkin


AQSH CPI avgust oyida kutilganidan tezroq 0.4% ga oshdi; Asosiy ko‘rsatkich mos ravishda
TRON narxi $0.35 ga qayta ko‘tarildi, tarmoq to‘lovlarni 60% ga qisqartirdi

Trendda
Ko'proqKripto narxlari
Ko'proq








