اپل با رونمایی از مدل هوش مصنوعی فوقسبک «Ferret-UI Lite»، مرزهای پردازش محلی روی موبایل را جابهجا کرد. این مدل ۳ میلیارد پارامتری که برای درک عمیق رابط کاربری اپلیکیشنها طراحی شده، در بنچمارکهای اخیر موفق شده است مدلهایی با ۲۴ برابر اندازه خود را شکست دهد و نویدبخش عصر جدیدی از دستیاران صوتی فوقهوشمند در آیفون باشد.
پایان عصر هوش مصنوعیهای سنگین و سرورمحور؟
تا پیش از این، وقتی صحبت از هوش مصنوعی قدرتمند میشد، ذهنها به سمت سرورهای عظیم و مدلهای زبانی غولپیکر میرفت. اما اپل، که همواره بر حریم خصوصی و پردازش روی دستگاه (On-Device) تاکید دارد، مسیر متفاوتی را برگزیده است. جدیدترین دستاورد تیم پژوهشی کوپرتینو، مدلی با نام Ferret-UI Lite است؛ یک هوش مصنوعی «چابک و مینیاتوری» که برخلاف جثه کوچکش، هوشی همتراز با مدلهای سنگین وزن دارد.
این مدل عضوی از خانواده بزرگ Ferret است که از دسامبر ۲۰۲۳ با انتشار مقالهای تحت عنوان «FERRET: ارجاع و زمینهیابی همهچیز در همهجا» متولد شد. هدف اصلی این پروژه، خلق سیستمی بود که بتواند ارجاعات زبان طبیعی انسان را به اجزای خاصی از یک تصویر (مثلاً یک دکمه در گوشه صفحه اپلیکیشن) درک کند.
چرا Ferret-UI Lite یک شاهکار مهندسی است؟
بزرگترین چالش مهندسان اپل، «نقص مدلهای چندوجهی عمومی» در درک رابط کاربری موبایل بود. اکثر مدلهای هوش مصنوعی بزرگ (LLM) در درک کلیات یک تصویر عالی هستند، اما وقتی نوبت به تشخیص دکمههای ریز، اسکرول کردن در منوها و فهمیدن چیدمان یک اپلیکیشن موبایل میرسد، دچار خطا میشوند.
۱. جادوی ۳ میلیارد پارامتر
در دنیای هوش مصنوعی، پارامترها به نوعی نشاندهنده ظرفیت یادگیری مدل هستند. در حالی که مدلهای بزرگ سمت سرور صدها میلیارد پارامتر دارند، Ferret-UI Lite تنها با ۳ میلیارد پارامتر طراحی شده است. نکته شگفتانگیز اینجاست که این مدل در تستها عملکردی مشابه یا حتی بهتر از مدلهای ۷۰ میلیارد پارامتری نشان داده است. این یعنی اپل توانسته است بازدهی را به ازای هر پارامتر، به طرز وحشتناکی افزایش دهد.
۲. درک بصری فراتر از اسکرینشات
مدلهای اولیه Ferret-UI بر پایه مدلهای ۱۳ میلیارد پارامتری بودند و فقط اسکرینشاتهایی با وضوح ثابت را میفهمیدند. اما نسخه Lite، به همراه برادر بزرگترش یعنی Ferret-UI 2، یاد گرفته است که تصاویری با وضوح بسیار بالا و پلتفرمهای متنوع (از آیفون گرفته تا آیپد) را تحلیل کند. این هوش مصنوعی میتواند «عناصر صفحه»، «منطق چیدمان» و «برنامهریزی چندمرحلهای» را درک کند.
دستیار هوشمندی که برای شما اپلیکیشنها را اجرا میکند!
تصور کنید به آیفون خود میگویید: «در اپلیکیشن خرید، ارزانترین کفش ورزشی نایک را پیدا کن و به سبد خریدم اضافه کن.» برای اجرای این دستور، هوش مصنوعی باید بتواند:
- رابط کاربری اپلیکیشن را ببیند.
- فیلترها را شناسایی کند.
- نتایج را با هم مقایسه کند.
- دکمه خرید را پیدا و روی آن کلیک کند.
پژوهشگران اپل میگویند: «اکثر روشهای فعلی برای ساخت دستیارهای رابط کاربری روی مدلهای بزرگ تمرکز دارند چون توانایی استدلال بالایی دارند، اما این مدلها برای اجرای روان روی گوشی بیش از حد سنگین هستند.» Ferret-UI Lite دقیقاً برای پر کردن این شکاف ساخته شده است؛ مدلی که بدون نیاز به اینترنت و ارسال اطلاعات به سرور، مستقیماً روی تراشههای سری A اپل اجرا میشود.
چرا اپل روی مدلهای “Lite” سرمایهگذاری میکند؟
پاسخ در سه کلمه خلاصه میشود: سرعت، امنیت و هزینه.
- سرعت: وقتی پردازش روی دستگاه انجام شود، تاخیری (Latency) وجود ندارد. دستیار صوتی بلافاصله به دستورات شما پاسخ میدهد.
- امنیت (Privacy): اپل نمیخواهد اسکرینشاتهای شخصی یا فعالیتهای شما در اپلیکیشنها به سرورهای ابری فرستاده شود. Ferret-UI Lite اجازه میدهد همه چیز در داخل گوشی باقی بماند.
- هزینه: اجرای مدلهای غولآسا در سرور برای میلیونها کاربر، هزینه کمرشکنی دارد. مدلهای کوچک و بهینه، فشار مالی را از روی زیرساختها برمیدارند.
چگونه مدل کوچک، بزرگها را شکست داد؟
محققان اپل در مقاله خود با عنوان «درسهایی از ساخت دستیارهای رابط کاربری کوچک»، فاش کردند که کلید موفقیت آنها در «دادههای آموزشی با کیفیت» و «معماری چند لایه» بوده است. آنها به جای بزرگ کردن مدل، روی بصیرتهای آموزشی (Training Insights) تمرکز کردند. یعنی مدل را با سناریوهای بسیار دقیق از نحوه تعامل کاربر با اپلیکیشنها آموزش دادند تا یاد بگیرد با کمترین پردازش، بیشترین مفهوم را استخراج کند.



