فرهادی اظهار کرد: این فناوری شامل کشف ارتباطات بین دادههای متنی و بصری است. برنامه ما یاد میگیرد که مجموعههای غنی از عبارات را با پیکسلهای درون تصاویر ترکیب کند. این امر بدان معنی است که فناوری مذکور میتواند مثالهای مفاهیم خاص را با دیدن آن شناسایی کند.
این برنامه با مشاهده محتوای تصاویر بر روی اینترنت و شناسایی الگوهای خاص در سراسر آنها با استفاده از الگوریتمهای تشخیص شیء، یاد میگیرد که کدام موارد با هم مرتبط هستند. در حقیقت برنامه مذکور با کتابخانههای تصویر آنلاین تفاوت دارد چرا که مجموعهای غنی از عبارات را برای درک و برچسبگذاری تصاویر با محتویات و ترکیب پیکسل آنها بجای نمایش ساده کلمات زیرنویس ترسیم میکند.
کتابخانه موجود از حدود 175 مفهوم برخوردار است. دامنه مفاهیم موجود از «شرکت هواپیمایی» تا «پنجره» را در بر گرفته و شامل تعاریف «زیبا»، «صبحانه»، «درخشان»، «سرطان»، «ابتکار»، «اسکیت سواری»، «ربات» و نخستین ورودی محققان یعنی «اسب» است.
اگر مفهومی که به دنبال آن میگردید در فهرست این کتابخانه وجود ندارد، میتوانید هر گونه عبارت جستجویی را وارد کرده و برنامه بطور خودکار به تولید فهرست جامعی حاوی تصاویر زیرشاخه مرتبط با مفهوم خواهد پرداخت. برای مثال جستجویی برای «سگ» مجموعه واضحی از زیرمجموعههای «سگ شی هوا هوا»، «سگ سیاه»، «سگ در حال شنا»، «سگ ژولیده»، «سگ تازی»، «بینی سگ»، «ظرف غذای سگ» و حتی «هاتداگ» را ارائه خواهد داد.
این روش با جستجوی متن از میلیونها کتاب نوشته شده به زبان انگلیسی و موجود در کتابهای گوگل کار میکند و همه تکرارهای این مفهوم را در کل کتابخانه دیجیتال پیگیری میکند. سپس یک الگوریتم، کلماتی را که بصری نیستند فیلتر میکند. برای مثال در جستجو برای کلمه اسب، این برنامه همه کلمات دارای این مفهوم مانند اسب دونده، اسب سیاه، اسب در حال پرش و اسب سواری را نشان داده اما عباراتی مانند اسب من یا آن اسب را فیلتر میکند.
هنگامی که برنامه LEVAN یاد گرفت کدام عبارات مرتبط هستند، یک جستجوی تصویری را در اینترنت آغاز کرده و به دنبال وحدتی در ظاهر عکسهای بازیابی شده میگردد.
محققان این برنامه را در ماه مارس یا چند مفهوم انگشتشمار آغاز کردند و اکنون با رشد آن، شاهد برچسب خوردن بیش از 13 میلیون تصویر با 65 هزار عبارت مختلف هستند.
در حال حاضر این برنامه در سرعت یادگیری یک مفهوم به دلیل نیروی محاسباتی مورد استفاده برای پردازش هر جستجو که گاهی تا 12 ساعت طول میکشد، با محدودیتهایی روبرو است. محققان در حال کار بر روی افزایش سرعت پردازش و قابلیتهای این برنامه هستند.
این پروژه به همراه یک مقاله مرتبط در نشست سالانه دید و تشخیص الگوی رایانه در کلمبوس، مرکز ایالت اوهایو ارائه خواهد شد.