عنق الزجاجة بمليار دولار في مجال الذكاء الاصطناعي: البيانات عالية الجودة، وليس النموذج | رأي
قد تكون AI هي الصناعة التالية التي تبلغ قيمتها تريليون دولار، لكنها تقترب بهدوء من عنق زجاجة هائل. بينما يتسابق الجميع لبناء نماذج أكبر وأكثر قوة، هناك مشكلة تلوح في الأفق لم يتم التعامل معها بشكل كبير: قد ننفد من بيانات التدريب القابلة للاستخدام في غضون بضع سنوات فقط.
- AI تقترب من نفاد الوقود: مجموعات بيانات التدريب تنمو بمعدل 3.7 مرة سنويًا، وقد نستنفد إمدادات العالم من البيانات العامة عالية الجودة بين عامي 2026 و2032.
- سوق تصنيف البيانات ينفجر من 3.7 مليار دولار (2024) إلى 17.1 مليار دولار (2030)، بينما يتقلص الوصول إلى بيانات البشر الحقيقية خلف الجدران التنظيمية والحدائق المسورة.
- البيانات الاصطناعية ليست كافية: حلقات التغذية الراجعة وغياب التفاصيل الواقعية تجعلها بديلاً محفوفًا بالمخاطر عن المدخلات البشرية الفوضوية.
- السلطة تنتقل إلى حاملي البيانات: مع تحول النماذج إلى سلعة، سيصبح الفارق الحقيقي هو من يملك ويسيطر على مجموعات البيانات الفريدة وعالية الجودة.
وفقًا لـ EPOCH AI، فإن حجم مجموعات بيانات التدريب للنماذج اللغوية الكبيرة ينمو بمعدل يقارب 3.7 مرة سنويًا منذ عام 2010. بهذا المعدل، قد نستنفد إمدادات العالم من بيانات التدريب العامة عالية الجودة في مكان ما بين عامي 2026 و2032.
حتى قبل أن نصل إلى هذا الحاجز، فإن تكلفة الحصول على البيانات المصنفة وتنظيمها ترتفع بشكل كبير بالفعل. تم تقييم سوق جمع وتصنيف البيانات بـ 3.77 مليار دولار في عام 2024 ومن المتوقع أن يرتفع إلى 17.10 مليار دولار بحلول عام 2030.
يشير هذا النوع من النمو المتفجر إلى فرصة واضحة، ولكن أيضًا إلى نقطة اختناق واضحة. نماذج AI جيدة فقط بقدر جودة البيانات التي تم تدريبها عليها. بدون خط إنتاج قابل للتوسع من مجموعات بيانات جديدة ومتنوعة وغير متحيزة، ستصل أداء هذه النماذج إلى مرحلة التشبع، وستبدأ فائدتها في التدهور.
لذا فإن السؤال الحقيقي ليس من سيبني نموذج AI العظيم التالي. بل من يملك البيانات ومن أين ستأتي؟
مشكلة البيانات في AI أكبر مما تبدو عليه
على مدار العقد الماضي، اعتمد الابتكار في AI بشكل كبير على مجموعات البيانات المتاحة للجمهور: Wikipedia، Common Crawl، Reddit، مستودعات الشيفرة مفتوحة المصدر، وغيرها. لكن هذا المصدر يجف بسرعة. مع تشديد الشركات على الوصول إلى بياناتها وتراكم قضايا حقوق النشر، تُجبر شركات AI على إعادة التفكير في نهجها. كما أن الحكومات تفرض لوائح للحد من جمع البيانات، ويتغير الرأي العام ضد فكرة تدريب نماذج بمليارات الدولارات على محتوى المستخدمين غير المدفوع.
البيانات الاصطناعية هي أحد الحلول المقترحة، لكنها بديل محفوف بالمخاطر. النماذج التي يتم تدريبها على بيانات تم إنشاؤها بواسطة نماذج أخرى يمكن أن تؤدي إلى حلقات تغذية راجعة، وهلوسات، وتدهور في الأداء مع مرور الوقت. هناك أيضًا مسألة الجودة: غالبًا ما تفتقر البيانات الاصطناعية إلى الفوضى والتفاصيل الدقيقة للمدخلات الواقعية، وهي بالضبط ما تحتاجه أنظمة AI للأداء الجيد في السيناريوهات العملية.
هذا يترك البيانات الواقعية التي ينتجها البشر كمعيار ذهبي، وأصبح الحصول عليها أكثر صعوبة. معظم المنصات الكبرى التي تجمع بيانات البشر، مثل Meta وGoogle وX (المعروفة سابقًا باسم Twitter)، هي حدائق مسورة. الوصول إليها مقيد أو يتم تحقيق الدخل منه أو محظور تمامًا. والأسوأ من ذلك، أن مجموعات بياناتهم غالبًا ما تميل نحو مناطق أو لغات أو فئات سكانية معينة، مما يؤدي إلى نماذج متحيزة تفشل في حالات الاستخدام الواقعية المتنوعة.
باختصار، صناعة AI على وشك الاصطدام بواقع تجاهلته طويلاً: بناء نموذج LLM ضخم هو نصف المعركة فقط. إطعامه هو النصف الآخر.
لماذا هذا الأمر مهم فعلاً
هناك جزآن في سلسلة قيمة AI: إنشاء النماذج واكتساب البيانات. خلال السنوات الخمس الماضية، ذهب تقريبًا كل رأس المال والضجة إلى إنشاء النماذج. ولكن مع دفع حدود حجم النماذج، يتحول الانتباه أخيرًا إلى النصف الآخر من المعادلة.
إذا أصبحت النماذج سلعة، مع بدائل مفتوحة المصدر وإصدارات أصغر وتصاميم فعالة من حيث العتاد، فإن الفارق الحقيقي يصبح البيانات. مجموعات البيانات الفريدة وعالية الجودة ستكون الوقود الذي يحدد أي النماذج يتفوق.
كما أنها تقدم أشكالًا جديدة من خلق القيمة. يصبح مساهمو البيانات أصحاب مصلحة. يحصل المطورون على بيانات أحدث وأكثر ديناميكية. ويمكن للمؤسسات تدريب نماذج تتماشى بشكل أفضل مع جماهيرها المستهدفة.
مستقبل AI ملك لمزودي البيانات
ندخل عصرًا جديدًا من AI، حيث من يسيطر على البيانات يمتلك القوة الحقيقية. مع اشتداد المنافسة لتدريب نماذج أفضل وأكثر ذكاءً، لن يكون أكبر قيد هو الحوسبة. بل سيكون في الحصول على بيانات حقيقية ومفيدة وقانونية للاستخدام.
السؤال الآن ليس ما إذا كانت AI ستتوسع، بل من سيغذي هذا التوسع. لن يكونوا علماء البيانات فقط. بل سيكونون أمناء البيانات، والمجمعين، والمساهمين، والمنصات التي تجمعهم معًا. هذا هو المكان الذي يكمن فيه الحد التالي.
لذا في المرة القادمة التي تسمع فيها عن حدود جديدة في الذكاء الاصطناعي، لا تسأل من بنى النموذج. اسأل من دربه، ومن أين جاءت البيانات. لأنه في النهاية، مستقبل AI لا يتعلق فقط بالهيكلية. بل يتعلق بالمدخلات.
Max Li هو المؤسس والرئيس التنفيذي في OORT، سحابة البيانات لـ AI اللامركزي. الدكتور Li أستاذ ومهندس ذو خبرة ومخترع يحمل أكثر من 200 براءة اختراع. تشمل خبرته العمل على أنظمة 4G LTE و5G مع Qualcomm Research ومساهمات أكاديمية في نظرية المعلومات، وتعلم الآلة، وتكنولوجيا blockchain. وهو مؤلف كتاب بعنوان “Reinforcement Learning for Cyber-physical Systems”، الذي نشرته Taylor & Francis CRC Press.
إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.
You may also like
سجلت صناديق ETF الخاصة بـ Grayscale و Franklin لـ XRP تدفقات تزيد عن 60 مليون دولار في اليوم الأول، متفوقة بذلك على صناديق BTC و ETH و SOL
جذبت صناديق ETF الفورية الجديدة لـ XRP في الولايات المتحدة التابعة لـ Grayscale وFranklin Templeton تدفقات مالية بقيمة 67.4 مليون دولار و62.6 مليون دولار على التوالي في أول يوم تداول لها يوم الاثنين. وسجلت صناديق ETF الفورية لـ XRP مجتمعة صافي تدفقات بقيمة 164.1 مليون دولار في ذلك اليوم، متفوقةً بذلك على نظرائها من BTC وETH وSOL.

تقدم JPMorgan للمستثمرين فرصة لتحقيق أرباح كبيرة إذا انخفض سعر Bitcoin في العام المقبل، ثم ارتفع بشكل صاروخي في عام 2028
تمنح المذكرة المهيكلة المستثمرين فرصة لتحقيق عوائد كبيرة إذا انخفض سعر Bitcoin ETF التابع لـ BlackRock خلال عام، ثم ارتفع بحلول عام 2028، وذلك بدون حد أقصى. وتُعد هذه الأداة مثالًا إضافيًا على تبني JPMorgan وWall Street للأدوات المالية المبنية على العملات المشفرة.

Exodus مستعدة لتحقيق إيرادات أكثر استقرارًا وشبيهة بالتكنولوجيا المالية بعد استحواذها على W3C: Benchmark
قالت Benchmark إن W3C يمنح Exodus نطاقًا هامًا في إصدار البطاقات، مما قد يدفع إلى نمو طويل الأمد. تجلب عملية الاستحواذ قاعدة عملاء غير مرتبطة بشكل كبير بالعملات المشفرة، ما يمنح Exodus طريقًا أوضح نحو قطاع التكنولوجيا المالية التقليدي.

أطلقت IoTeX أول حل هوية على السلسلة في العالم مصمم خصيصًا للأجهزة الذكية باسم ioID
تقوم ioID بإحداث ثورة في طريقة إدارة هوية الأجهزة الذكية، حيث تتيح للأجهزة المعتمدة على الإنترنت اللامركزي (DePIN) المصادقة على الأجهزة، حماية البيانات، وفتح الجيل القادم من حالات الاستخدام ضمن نظام بيئي مملوك للمستخدم ومتوافق مع أي سلسلة بلوكشين.

