هشدار درباره بحران داده در صنعت هوش مصنوعی؛ منابع آموزشی تا 2032 به پایان میرسند
گزارشها حاکی از آن است که صنعت هوش مصنوعی با چالشی جدی در زمینه کمبود دادههای آموزشی روبهرو است. بر اساس بررسیهای انجامشده توسط مؤسسه Epoch AI، حجم دادههای مورد استفاده برای آموزش مدلهای زبانی بزرگ از سال 2010 تاکنون سالانه 3.7 برابر رشد داشته است. این روند در صورت ادامه، میتواند باعث اتمام منابع دادههای عمومی با کیفیت بالا در فاصله زمانی 2026 تا 2032 شود.
همزمان با افزایش نیاز به دادههای آموزشی، هزینه جمعآوری و برچسبگذاری دادهها نیز رشد چشمگیری داشته است. برآوردها نشان میدهد ارزش این بازار که در سال 2024 حدود 3.7 میلیارد دلار بوده، تا سال 2030 به بیش از 17 میلیارد دلار خواهد رسید. این روند، فرصتهای اقتصادی جدیدی را به وجود آورده، اما در عین حال به یک مانع بزرگ در مسیر توسعه مدلهای هوش مصنوعی تبدیل شده است.
کارشناسان هشدار میدهند که دادههای مصنوعی، هرچند بهعنوان یک جایگزین مطرح شدهاند، اما نمیتوانند نیاز واقعی صنعت را برآورده کنند. استفاده بیش از حد از این دادهها میتواند منجر به ایجاد حلقههای بازخورد، بروز خطا و کاهش کیفیت عملکرد مدلها شود. دلیل اصلی این مسئله، نبود پیچیدگیها و ظرافتهای دنیای واقعی در دادههای تولیدشده توسط ماشین است.
با محدود شدن دسترسی به دادههای انسانی در پلتفرمهایی نظیر متا، گوگل و ایکس (توییتر سابق)، قدرت واقعی در صنعت هوش مصنوعی در اختیار شرکتها و نهادهایی قرار میگیرد که توانایی تأمین دادههای منحصربهفرد و باکیفیت را دارند. به همین دلیل، تحلیلگران معتقدند آینده رقابت در این صنعت نه بر سر ساخت مدلهای بزرگتر، بلکه بر سر تأمین دادههای ارزشمند خواهد بود.
به گفته کارشناسان، زنجیره ارزش در هوش مصنوعی از دو بخش تشکیل میشود: توسعه مدل و دستیابی به داده. طی سالهای اخیر، بیشتر سرمایهگذاریها بر توسعه مدلها متمرکز بوده، اما اکنون نگاهها به سمت دادهها معطوف شده است. مجموعه دادههای تازه و متنوع میتوانند عملکرد مدلها را به سطحی بالاتر برسانند و تمایز واقعی میان پروژهها را رقم بزنند.
در نهایت، آینده صنعت هوش مصنوعی در اختیار کسانی خواهد بود که کنترل دادهها را در دست دارند. در این مسیر، گردآورندگان داده، مشارکتکنندگان و پلتفرمهای بزرگ نقشی اساسی ایفا خواهند کرد. به همین دلیل، پرسش اصلی در مورد آینده هوش مصنوعی دیگر این نیست که چه کسی مدل را ساخته است، بلکه این است که چه کسی آن را آموزش داده و دادهها از کجا تأمین شدهاند.
source