آیفون هوشمندتر از همیشه؛ هوش مصنوعی جدید اپل با قابلیت درک بصری اپلیکیشن‌ها از راه رسید

هوش مصنوعی جدید اپل با قابلیت درک بصری اپلیکیشن‌ها

اپل با رونمایی از مدل هوش مصنوعی فوق‌سبک «Ferret-UI Lite»، مرزهای پردازش محلی روی موبایل را جابه‌جا کرد. این مدل ۳ میلیارد پارامتری که برای درک عمیق رابط کاربری اپلیکیشن‌ها طراحی شده، در بنچمارک‌های اخیر موفق شده است مدل‌هایی با ۲۴ برابر اندازه خود را شکست دهد و نویدبخش عصر جدیدی از دستیاران صوتی فوق‌هوشمند در آیفون باشد.

پایان عصر هوش مصنوعی‌های سنگین و سرورمحور؟

تا پیش از این، وقتی صحبت از هوش مصنوعی قدرتمند می‌شد، ذهن‌ها به سمت سرورهای عظیم و مدل‌های زبانی غول‌پیکر می‌رفت. اما اپل، که همواره بر حریم خصوصی و پردازش روی دستگاه (On-Device) تاکید دارد، مسیر متفاوتی را برگزیده است. جدیدترین دستاورد تیم پژوهشی کوپرتینو، مدلی با نام Ferret-UI Lite است؛ یک هوش مصنوعی «چابک و مینیاتوری» که برخلاف جثه کوچکش، هوشی هم‌تراز با مدل‌های سنگین وزن دارد.

این مدل عضوی از خانواده بزرگ Ferret است که از دسامبر ۲۰۲۳ با انتشار مقاله‌ای تحت عنوان «FERRET: ارجاع و زمینه‌یابی همه‌چیز در همه‌جا» متولد شد. هدف اصلی این پروژه، خلق سیستمی بود که بتواند ارجاعات زبان طبیعی انسان را به اجزای خاصی از یک تصویر (مثلاً یک دکمه در گوشه صفحه اپلیکیشن) درک کند.

چرا Ferret-UI Lite یک شاهکار مهندسی است؟

بزرگترین چالش مهندسان اپل، «نقص مدل‌های چندوجهی عمومی» در درک رابط کاربری موبایل بود. اکثر مدل‌های هوش مصنوعی بزرگ (LLM) در درک کلیات یک تصویر عالی هستند، اما وقتی نوبت به تشخیص دکمه‌های ریز، اسکرول کردن در منوها و فهمیدن چیدمان یک اپلیکیشن موبایل می‌رسد، دچار خطا می‌شوند.

۱. جادوی ۳ میلیارد پارامتر

در دنیای هوش مصنوعی، پارامترها به نوعی نشان‌دهنده ظرفیت یادگیری مدل هستند. در حالی که مدل‌های بزرگ سمت سرور صدها میلیارد پارامتر دارند، Ferret-UI Lite تنها با ۳ میلیارد پارامتر طراحی شده است. نکته شگفت‌انگیز اینجاست که این مدل در تست‌ها عملکردی مشابه یا حتی بهتر از مدل‌های ۷۰ میلیارد پارامتری نشان داده است. این یعنی اپل توانسته است بازدهی را به ازای هر پارامتر، به طرز وحشتناکی افزایش دهد.

۲. درک بصری فراتر از اسکرین‌شات

مدل‌های اولیه Ferret-UI بر پایه مدل‌های ۱۳ میلیارد پارامتری بودند و فقط اسکرین‌شات‌هایی با وضوح ثابت را می‌فهمیدند. اما نسخه Lite، به همراه برادر بزرگترش یعنی Ferret-UI 2، یاد گرفته است که تصاویری با وضوح بسیار بالا و پلتفرم‌های متنوع (از آیفون گرفته تا آیپد) را تحلیل کند. این هوش مصنوعی می‌تواند «عناصر صفحه»، «منطق چیدمان» و «برنامه‌ریزی چندمرحله‌ای» را درک کند.

دستیار هوشمندی که برای شما اپلیکیشن‌ها را اجرا می‌کند!

تصور کنید به آیفون خود می‌گویید: «در اپلیکیشن خرید، ارزان‌ترین کفش ورزشی نایک را پیدا کن و به سبد خریدم اضافه کن.» برای اجرای این دستور، هوش مصنوعی باید بتواند:

  1. رابط کاربری اپلیکیشن را ببیند.
  2. فیلترها را شناسایی کند.
  3. نتایج را با هم مقایسه کند.
  4. دکمه خرید را پیدا و روی آن کلیک کند.

پژوهشگران اپل می‌گویند: «اکثر روش‌های فعلی برای ساخت دستیارهای رابط کاربری روی مدل‌های بزرگ تمرکز دارند چون توانایی استدلال بالایی دارند، اما این مدل‌ها برای اجرای روان روی گوشی بیش از حد سنگین هستند.» Ferret-UI Lite دقیقاً برای پر کردن این شکاف ساخته شده است؛ مدلی که بدون نیاز به اینترنت و ارسال اطلاعات به سرور، مستقیماً روی تراشه‌های سری A اپل اجرا می‌شود.

چرا اپل روی مدل‌های “Lite” سرمایه‌گذاری می‌کند؟

پاسخ در سه کلمه خلاصه می‌شود: سرعت، امنیت و هزینه.

  • سرعت: وقتی پردازش روی دستگاه انجام شود، تاخیری (Latency) وجود ندارد. دستیار صوتی بلافاصله به دستورات شما پاسخ می‌دهد.
  • امنیت (Privacy): اپل نمی‌خواهد اسکرین‌شات‌های شخصی یا فعالیت‌های شما در اپلیکیشن‌ها به سرورهای ابری فرستاده شود. Ferret-UI Lite اجازه می‌دهد همه چیز در داخل گوشی باقی بماند.
  • هزینه: اجرای مدل‌های غول‌آسا در سرور برای میلیون‌ها کاربر، هزینه کمرشکنی دارد. مدل‌های کوچک و بهینه، فشار مالی را از روی زیرساخت‌ها برمی‌دارند.

چگونه مدل کوچک، بزرگ‌ها را شکست داد؟

محققان اپل در مقاله خود با عنوان «درس‌هایی از ساخت دستیارهای رابط کاربری کوچک»، فاش کردند که کلید موفقیت آن‌ها در «داده‌های آموزشی با کیفیت» و «معماری چند لایه» بوده است. آن‌ها به جای بزرگ کردن مدل، روی بصیرت‌های آموزشی (Training Insights) تمرکز کردند. یعنی مدل را با سناریوهای بسیار دقیق از نحوه تعامل کاربر با اپلیکیشن‌ها آموزش دادند تا یاد بگیرد با کمترین پردازش، بیشترین مفهوم را استخراج کند.

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *