- سانا ترکیب کارآمد تصویر با وضوح بالا
محققان انویدیا، دانشگاه MIT و «دانشگاه چینهوا» چین مدل هوش مصنوعی جدیدی با نام Sana معرفی کردهاند که میتواند در چند ثانیه تصاویری با وضوح 4096 در 4096 پیکسل تولید کند.
محققان در صفحه گیتهاب Sana توضیح میدهند برخلاف مدلهای هوش مصنوعی قدیمی که تصاویر را 8 برابر فشرده میکنند، Sana میتواند تصاویر را 32 برابر فشرده کند و تعداد توکنهای موردنیاز را کاهش بدهد.
علاوهبراین، Sana از مدل زبانی Gemma بهجای رمزگذار متن خود برای بهبود عملکرد درک و استنتاج سریع استفاده میکند. محققان همچنین برای کاهش مراحل نمونهگیری آن از مکانیزمی با نام «Flow-DPM-Solver» استفاده کردهاند که اساساً تعداد مراحل نمونهگیری را از 28-50 به 14-20 کاهش میدهد.
عملکرد Sana در برابر سایر مدلهای هوش مصنوعی
آنها ادعا کردهاند مدل Sana-0.6B میتواند با مدلهای غولپیکر مدرن مانند Flux-12B رقابت کند و 20 برابر کوچکتر و بیشتر از 100 برابر در اندازهگیری سریعتر باشد. همچنین Sana-0.6B را میتوان روی پردازشگر گرافیکی لپتاپ 16 گیگابایتی اجرا کرد.
نمودار زیر مدت تولید تصویر توسط مدل Sana را با سایر مدلها مقایسه میکند. طبق این نمودار برای مثال مدل SANA-1.6B با 1.6 میلیارد پارامتر میتواند در 1.2 ثانیه تصویری با وضوح 1024 در 1024 پیکسل تولید کند.
درباره سانا
Sana یک چارچوب متن به تصویر که می تواند به طور موثر تصاویری با وضوح 4096 × 4096 تولید کند. Sana میتواند تصاویر با وضوح بالا و با کیفیت بالا را با همترازی متن-تصویر قوی با سرعت فوقالعادهای سریع ترکیب کند که بر روی پردازنده گرافیکی لپتاپ قابل نصب است.
طرحهای اصلی عبارتند از:
رمزگذار خودکار فشردهسازی عمیق: بر خلاف AEهای سنتی که تصاویر را فقط 8× فشرده میکنند، ما AE را آموزش دادیم که میتواند تصاویر را 32× فشرده کند و به طور موثر تعداد توکنهای پنهان را کاهش دهد.
خطی DiT: ما تمام توجه وانیلی را در DiT با توجه خطی جایگزین میکنیم که در وضوحهای بالا بدون کاهش کیفیت کارآمدتر است.
رمزگذار متن فقط رسیور: ما T5 را با LLM کوچک فقط رمزگشای مدرن به عنوان رمزگذار متن جایگزین کردیم و دستورالعمل های انسانی پیچیده ای را با یادگیری درون متنی طراحی کردیم تا تراز تصویر-متن را افزایش دهیم.
آموزش و نمونهگیری کارآمد: ما Flow-DPM-Solver را برای کاهش مراحل نمونهگیری با برچسبگذاری کارآمد عنوان و انتخاب برای تسریع همگرایی پیشنهاد میکنیم.
در نتیجه، Sana-0.6B با مدل انتشار غول پیکر مدرن (به عنوان مثال Flux-12B) بسیار رقابتی است، که 20 برابر کوچکتر و بیش از 100 بار در توان اندازه گیری شده سریعتر است. علاوه بر این، Sana-0.6B را می توان بر روی یک پردازنده گرافیکی لپ تاپ 16 گیگابایتی مستقر کرد که کمتر از 1 ثانیه طول می کشد تا تصویری با وضوح 1024 × 1024 ایجاد کند. سانا تولید محتوا را با هزینه کم امکان پذیر می کند.
تصاویر زیر با هوش مصنوعی Sana تولید شدهاند: