به گزارش پایداری ملی و نقل از آنا؛ شرکت اُپنای آی در اقدامی که بنا بر ادعای رسانهها غیرقانونی است، از یک میلیون ساعت ویدیوی یوتیوب برای آموزش مدل هوش مصنوعی خود استفاده کرده است.
دو رسانه آمریکایی، وال استریت ژورنال و نیویورک تایمز، گزارش دادهاند که شرکتهای توسعهدهنده هوش مصنوعی مانند اُپنای آی در یافتن دادههای باکیفیت برای آموزش مدلهای خود با مشکلاتی مواجه شدهاند و در این میان اُپنای آی در اقدامی غیرقانونی از محتوای یوتیوب استفاده کرده است، اما گرِگ براکمن (Greg Brockman)، رئیس اُپنای آی که شخصاً در گردآوری ویدیوها شرکت داشته است ادعا میکند که رویکردش در استفاده از ویدیوهای یوتیوب منصفانه بوده است.
روشهای قدیمی پاسخگو نیستند
اُپنای آی گردآوری منابع دادههای مفید را در سال ۲۰۲۱ به پایان رساند و سپس به سراغ پیادهسازی ویدیوها، پادکستها و کتابهای صوتی یوتیوب رفت. این شرکت پیشرو در حوزه تحقیقات هوش مصنوعی از مقادیر زیادی داده برای آموزش مدلهای هوش مصنوعی خود استفاده میکند تا مجموعه دادههای منحصر به فردی را برای هر مدل ایجاد کند و اخیراً در حال بررسی راههایی برای تولید دادههای مصنوعی خود بوده است. تا پیش از این، اُپنای آی مدلهای خود را بر اساس دادههای کد رایانهای گیتهاب (Github) و محتوای تکالیف مدرسه در نرمافزار کوییزلِت (Quizlet) آموزش میداد.
نیاز به تولید دادههای جدید
لیندزی هلد (Lindsay Held)، سخنگوی شرکت اُپنای آی، گفت که این شرکت مجموعه دادههای منحصربهفردی را برای هر یک از مدلهای خود تنظیم میکند تا رقابت تحقیقاتی خود را در سطح جهانی حفظ کند. هلد افزود که این شرکت از «منابع متعددی از جمله دادههای در دسترس عموم و مشارکت برای دادههای غیرعمومی» استفاده میکند و در تلاش است دادههای مصنوعی خود را تولید کند.
استفاده غیرمجاز از ویدیوهای یوتیوب
به گفته نیویورک تایمز، یکی از مدیران گوگل به نام مت برایانت گفته است که آنها گزارشهای تأییدنشدهای در مورد فعالیت اُپنای آی مبنی بر دانلود غیرمجاز محتوا از یوتیوب دریافت کردهاند. نیل موهان، مدیرعامل یوتیوب نیز اظهار داشت که اُپنای آی ممکن است از یوتیوب برای آموزش مدل تولید ویدیوی سورا (Sora) استفاده کرده باشد. برایانت گفت که گوگل برای جلوگیری از این قبیل استفادههای غیرمجاز، زمانی که دلیل فنی واضحی برای انجام این کار داشته باشد، اقدامات قانونی را انجام میدهد.
محدودیتها و چالشها
بر اساس گزارشهای نیویورک تایمز، شرکت متا نیز به دلیل کمبود دادههای خوب برای آموزش فناوری هوش مصنوعی خود با چالشهایی مواجه شده است. مذاکرات تیم هوش مصنوعی این شرکت برای استفاده از محتوای دارای حق نشر هنوز به نتیجه نرسیده است. متا برای بهبود دادههای خود، از پرداخت هزینههای حق نشر کتاب تا حتی خرید ناشرهای بزرگ پیش رفته است. با این حال، متا همچنان به دلیل تغییرات مربوط به حریم خصوصی در نحوه استفاده از دادههای کاربران با محدودیتهایی روبهرو است.
دنیای آموزش مدلهای هوش مصنوعی با کمبود دادههای آموزشیِ با کیفیت دستوپنجه نرم میکند. وال استریت ژورنال این هفته نوشت که شرکتهای توسعه دهنده مدلهای هوش مصنوعی ممکن است تا سال ۲۰۲۸ از محتوای موجود پیشی بگیرند و با کمبود جدی روبهرو شوند.
این گزارش ازپایگاه اینترنتی دِ ورج به فارسی برگردان شده است.