داده بیشتر؛ قدرت بیشتر

دبیر ستاد توسعه فناوری‌های هوش مصنوعی معاونت علمی گفت: هر کشوری که داده بیشتری داشته باشد، از قدرت بیشتری برخوردار بوده و اساسا هوش مصنوعی مولد قدرت حکومت‌ها است.

به گزارش پایداری ملی به نقل از معاونت علمی، فناوری و اقتصاد دانش بنیان ریاست جمهوری، همایش «الزامات توسعه مدل زبانی بزرگ فارسی» با شعار «هوش مصنوعی، مولد قدرت حکومت ها» به همت ستاد توسعه فناوری‌های هوش مصنوعی و رباتیک معاونت علمی در محل پژوهشگاه ارتباطات و فناوری اطلاعات برگزار شد.

بهروز مینایی، دبیر ستاد توسعه فناوری‌های هوش مصنوعی و رباتیک در بحث خود به سیر تطور فناوری هوش مصنوعی تا به امروز پرداخت و گفت: در دهه‌های ۱۹۷۰ تا ۱۹۸۰ «سیستم‌های خبره» (Expert systems)، فناوری غالب در دنیای «هوش مصنوعی» بود که به عنوان یک پایگاه دانشی عمل می‌کرد و برآمده از تلاش‌های محققان بود که اساسا کاری به حوزه تولید نداشت و بیشتر در پی تشخیص بود.

به گفته او در ۱۹۹۰ گام مهمی در حوزه هوش مصنوعی برداشته شد و «داده کاوی» به میدان آمد. در این نسل از فناوری‌های هوش مصنوعی، دیگر نیازی نبود که داده‌ها از یک متخصص گرفته شود و افراد تنها از رهگذر داده‌ها می‌توانستند به یک الگو برسند.

مینایی، تفاوت «سیستم‌های خبره» با سیستم‌های «داده‌کاوی» را در میزان دقت آن‌ها عنوان کرد و گفت: سیستم‌های خبره از دقت بالاتری در مقایسه با سیستم‌های داده کاوی برخوردارند، اما در مقابل، داده‌کاوی‌ها، توان کار روی داده‌های سنگین را دارا هستند.

وی در ادامه به «سیستم‌های یادگیری عمیق» اشاره و تاکید کرد: این نوع سیستم‌ها در شناخت تصاویر به اندازه انسان توانایی دارند و می‌توانند لایه‌های مختلف از شبکه‌های عصبی را ایجاد کنند.

به گفته او در فاصله ۲۰۱۲تا ۲۰۱۸ «سیستم مدل‌های زبانی» طراحی شد، این سیستم ها، می‌توانند رابطه یک کلمه را در بستر اطرافش ببینند و بردار‌ها را با هم نسبت سنجی کنند، و این نسبت سنجی‌ها می‌تواند درک مطلب را در این سیستم‌ها عمیق‌تر کند.

مینایی، مزیت نسل جدید سیستم‌های هوش مصنوعی را در مقایسه با گذشته، محدود نبودن توان آن‌ها به یک دامنه خاص و افزایش توان افقی آن‌ها دانست که در مدار‌های معنایی و درک مطلب از اهمیت بالایی برخوردار است.

وی با بیان اینکه LLM‌ها سوگیری خاصی را از نظر فرهنگی و ارزشی ایجاد می‌کنند، تصریح کرد: یک نوع پلورالیسم عقیدتی و اجتماعی بر دنیای استفاده از LLM‌ها حاکم است و بنا بر نوع پرسشی که در آن‌ها طرح شود، پاسخ‌های متفاوتی ارائه خواهند کرد.

از این رو، به باور مینایی، مهم‌ترین سوگیری استفاده از LLM‌ها، سوگیری «داده» است و در این فضا، حکمرانی داده، یک ضرورت است و هر کشوری که داده بیشتری داشته باشد از قدرت بیشتری برخوردار است و به همین دلیل ما باید LLM بومی خودمان را داشته باشیم.

وی در پایان خاطرنشان کرد: کاری را که ستاد توسعه اقتصاد دانش بنیان دیجیتال معاونت علمی پایه گذاری کرد و ما هم ادامه آن را سرلوحه خود قرار داده ایم، تولید داخلی LLM است و این جلسه هم برای رونمایی از اولین ورژن با پیکره mistrial ۷ میلیاردی و به حجم ۳۵ میلیارد توکن برگزار شده است. این پیکره با بهره‌گیری از حدود یک میلیون و ۴۰۰ پرسش و پاسخ حقوقی می‌تواند پاسخ‌های صحیح در خصوص سوالات حقوقی ارائه کند.

مدل زبانی بزرگ large language model یا به اختصار ال‌ال‌ام LLM، سیستم‌های هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شده اند. آن‌ها "بزرگ" هستند، زیرا حاوی میلیارد‌ها پارامتر هستند که به آن‌ها امکان می‌دهد الگو‌های پیچیده در داده‌های زبان را پردازش کنند.

گزارش خطا