بحران داده برای آموزش هوش مصنوعی در راه است

توسعه مدل‌های هوش مصنوعی نیازمند آموزش مداوم است که دسترسی به داده‌های کلان و جدید را می‌طلبد. کارشناسان بحران کمبود داده در این حوزه را پیش‌بینی می‌کنند.

به گزارش پایداری ملی و نقل از آنا؛ شرکت اُپن‌ای آی در اقدامی که بنا بر ادعای رسانه‌ها غیرقانونی است، از یک میلیون ساعت ویدیوی یوتیوب برای آموزش مدل هوش مصنوعی خود استفاده کرده است.

دو رسانه آمریکایی، وال استریت ژورنال و نیویورک تایمز، گزارش داده‌اند که شرکت‌های توسعه‌دهنده هوش مصنوعی مانند اُپن‌ای آی در یافتن داده‌های باکیفیت برای آموزش مدل‌های خود با مشکلاتی مواجه شده‌اند و در این میان اُپن‌ای آی در اقدامی غیرقانونی از محتوای یوتیوب استفاده کرده است، اما گرِگ براکمن (Greg Brockman)، رئیس اُپن‌ای آی که شخصاً در گردآوری ویدیو‌ها شرکت داشته است ادعا می‌کند که رویکردش در استفاده از ویدیو‌های یوتیوب منصفانه بوده است.

روش‌های قدیمی پاسخگو نیستند

اُپن‌ای آی گردآوری منابع داده‌های مفید را در سال ۲۰۲۱ به پایان رساند و سپس به سراغ پیاده‌سازی ویدیوها، پادکست‌ها و کتاب‌های صوتی یوتیوب رفت. این شرکت پیشرو در حوزه تحقیقات هوش مصنوعی از مقادیر زیادی داده برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کند تا مجموعه داده‌های منحصر به فردی را برای هر مدل ایجاد کند و اخیراً در حال بررسی راه‌هایی برای تولید داده‌های مصنوعی خود بوده است. تا پیش از این، اُپن‌ای آی مدل‌های خود را بر اساس داده‌های کد رایانه‌ای گیتهاب (Github) و محتوای تکالیف مدرسه در نرم‌افزار کوییزلِت (Quizlet) آموزش می‌داد.

نیاز به تولید داده‌های جدید

لیندزی هلد (Lindsay Held)، سخنگوی شرکت اُپن‌ای آی، گفت که این شرکت مجموعه داده‌های منحصربه‌فردی را برای هر یک از مدل‌های خود تنظیم می‌کند تا رقابت تحقیقاتی خود را در سطح جهانی حفظ کند. هلد افزود که این شرکت از «منابع متعددی از جمله داده‌های در دسترس عموم و مشارکت برای داده‌های غیرعمومی» استفاده می‌کند و در تلاش است داده‌های مصنوعی خود را تولید کند.

استفاده غیرمجاز از ویدیو‌های یوتیوب

به گفته نیویورک تایمز، یکی از مدیران گوگل به نام مت برایانت گفته است که آنها گزارش‌های تأییدنشده‌ای در مورد فعالیت اُپن‌ای آی مبنی بر دانلود غیرمجاز محتوا از یوتیوب دریافت کرده‌اند. نیل موهان، مدیرعامل یوتیوب نیز اظهار داشت که اُپن‌ای آی ممکن است از یوتیوب برای آموزش مدل تولید ویدیوی سورا (Sora) استفاده کرده باشد. برایانت گفت که گوگل برای جلوگیری از این قبیل استفاده‌های غیرمجاز، زمانی که دلیل فنی واضحی برای انجام این کار داشته باشد، اقدامات قانونی را انجام می‌دهد.

محدودیت‌ها و چالش‌ها

بر اساس گزارش‌های نیویورک تایمز، شرکت متا نیز به دلیل کمبود داده‌های خوب برای آموزش فناوری هوش مصنوعی خود با چالش‌هایی مواجه شده است. مذاکرات تیم هوش مصنوعی این شرکت برای استفاده از محتوای دارای حق نشر هنوز به نتیجه نرسیده است. متا برای بهبود داده‌های خود، از پرداخت هزینه‌های حق نشر کتاب تا حتی خرید ناشر‌های بزرگ پیش رفته است. با این حال، متا همچنان به دلیل تغییرات مربوط به حریم خصوصی در نحوه استفاده از داده‌های کاربران با محدودیت‌هایی روبه‌رو است.

دنیای آموزش مدل‌های هوش مصنوعی با کمبود داده‌های آموزشیِ با کیفیت دست‌و‌پنجه نرم می‌کند. وال استریت ژورنال این هفته نوشت که شرکت‌های توسعه دهنده مدل‌های هوش مصنوعی ممکن است تا سال ۲۰۲۸ از محتوای موجود پیشی بگیرند و با کمبود جدی روبه‌رو شوند.

این گزارش ازپایگاه اینترنتی دِ ورج به فارسی برگردان شده است.

گزارش خطا