انویدا و MIT هوش مصنوعی تصویر ساز Sana را معرفی کردنند

سانا ترکیب کارآمد تصویر با وضوح بالا

محققان انویدیا، دانشگاه MIT و «دانشگاه چینهوا» چین مدل هوش مصنوعی جدیدی با نام Sana معرفی کرده‌اند که می‌تواند در چند ثانیه تصاویری با وضوح 4096 در 4096 پیکسل تولید کند.

محققان در صفحه گیت‌هاب Sana توضیح می‌دهند برخلاف مدل‌های هوش مصنوعی قدیمی که تصاویر را 8 برابر فشرده می‌کنند، Sana می‌تواند تصاویر را 32 برابر فشرده کند و تعداد توکن‌های موردنیاز را کاهش بدهد.

علاوه‌براین، Sana از مدل زبانی Gemma به‌جای رمزگذار متن خود برای بهبود عملکرد درک و استنتاج سریع استفاده می‌کند. محققان همچنین برای کاهش مراحل نمونه‌گیری آن از مکانیزمی با نام «Flow-DPM-Solver» استفاده کرده‌اند که اساساً تعداد مراحل نمونه‌گیری را از 28-50 به 14-20 کاهش می‌دهد.

عملکرد Sana در برابر سایر مدل‌های هوش مصنوعی

آن‌ها ادعا کرده‌اند مدل Sana-0.6B می‌تواند با مدل‌های غول‌پیکر مدرن مانند Flux-12B رقابت کند و 20 برابر کوچک‌تر و بیشتر از 100 برابر در اندازه‌گیری سریع‌تر باشد. همچنین Sana-0.6B را می‌توان روی پردازشگر گرافیکی لپ‌تاپ 16 گیگابایتی اجرا کرد.

نمودار زیر مدت تولید تصویر توسط مدل Sana را با سایر مدل‌ها مقایسه می‌کند. طبق این نمودار برای مثال مدل SANA-1.6B با 1.6 میلیارد پارامتر می‌تواند در 1.2 ثانیه تصویری با وضوح 1024 در 1024 پیکسل تولید کند.

هم‌اکنون از طریق گیت‌هاب می‌توانید نسخه اولیه Sana را آزمایش کنید و محققان وعده داده‌اند کد منبع آن را به‌زودی منتشر می‌کنند.

درباره سانا

Sana یک چارچوب متن به تصویر که می تواند به طور موثر تصاویری با وضوح 4096 × 4096 تولید کند. Sana می‌تواند تصاویر با وضوح بالا و با کیفیت بالا را با هم‌ترازی متن-تصویر قوی با سرعت فوق‌العاده‌ای سریع ترکیب کند که بر روی پردازنده گرافیکی لپ‌تاپ قابل نصب است.

طرح‌های اصلی عبارتند از:

رمزگذار خودکار فشرده‌سازی عمیق: بر خلاف AE‌های سنتی که تصاویر را فقط 8× فشرده می‌کنند، ما AE را آموزش دادیم که می‌تواند تصاویر را 32× فشرده کند و به طور موثر تعداد توکن‌های پنهان را کاهش دهد.

خطی DiT: ما تمام توجه وانیلی را در DiT با توجه خطی جایگزین می‌کنیم که در وضوح‌های بالا بدون کاهش کیفیت کارآمدتر است.

رمزگذار متن فقط رسیور: ما T5 را با LLM کوچک فقط رمزگشای مدرن به عنوان رمزگذار متن جایگزین کردیم و دستورالعمل های انسانی پیچیده ای را با یادگیری درون متنی طراحی کردیم تا تراز تصویر-متن را افزایش دهیم.

آموزش و نمونه‌گیری کارآمد: ما Flow-DPM-Solver را برای کاهش مراحل نمونه‌گیری با برچسب‌گذاری کارآمد عنوان و انتخاب برای تسریع همگرایی پیشنهاد می‌کنیم.

در نتیجه، Sana-0.6B با مدل انتشار غول پیکر مدرن (به عنوان مثال Flux-12B) بسیار رقابتی است، که 20 برابر کوچکتر و بیش از 100 بار در توان اندازه گیری شده سریعتر است. علاوه بر این، Sana-0.6B را می توان بر روی یک پردازنده گرافیکی لپ تاپ 16 گیگابایتی مستقر کرد که کمتر از 1 ثانیه طول می کشد تا تصویری با وضوح 1024 × 1024 ایجاد کند. سانا تولید محتوا را با هزینه کم امکان پذیر می کند.

تصاویر زیر با هوش مصنوعی Sana تولید شده‌اند:

برچسب ها

Computer plus10/08/1403

0 36 زمان تقریبی مطالعه 2 دقیقه

انویدا و MIT هوش مصنوعی تصویر ساز Sana را معرفی کردنند

انویدیا و MIT از هوش مصنوعی Sana رونمایی کردند؛ تولید تصویر با وضوح بالا در چند ثانیه

عملکرد Sana در برابر سایر مدل‌های هوش مصنوعی

درباره سانا

Computer plus

دیدگاهتان را بنویسید لغو پاسخ

این بازوی مصنوعی را با ذهن و عضلات خود کنترل کنید

رونمایی سامسونگ از Galaxy Ring جدید و ساعت‌های Galaxy Watch Ultra و Galaxy Watch7

لامبورگینی اوروس SE مدل 2025 یک ترکیب از عملکرد، استایل و نوآوری هیبریدی است.

قدرتمندترین لندروور را ببینید! لندروور دیفندر اکتا

لذت سرعت و سلامتی

سامسونگ از گلکسی های Z Flip 6 و Z Fold 6 رونمایی کرد

رونمایی سامسونگ از Galaxy Ring جدید و ساعت‌های Galaxy Watch Ultra و Galaxy Watch7

لذت سرعت و سلامتی

قدرتمندترین لندروور را ببینید! لندروور دیفندر اکتا

بازی The Witcher 4 پیشرفته‌ترین پروژه تاریخ سی‌دی پراجکت است

بهترین تلویزیون های سال 2024

عملکرد Sana در برابر سایر مدل‌های هوش مصنوعی

درباره سانا

Computer plus

نوشته های مشابه

سامسونگ از گلکسی های Z Flip 6 و Z Fold 6 رونمایی کرد

مک مینی جدید اپل معرفی شد با پردازنده جدید M4 pro

آمازون قدم در فضا گذاشت: پرتاب اولین ماهواره‌های Project Kuiper در رقابت با استارلینک

نحوه پرسیدن همه سوالات درست از هوش مصنوعی

دیدگاهتان را بنویسید لغو پاسخ

این بازوی مصنوعی را با ذهن و عضلات خود کنترل کنید

رونمایی سامسونگ از Galaxy Ring جدید و ساعت‌های Galaxy Watch Ultra و Galaxy Watch7

لامبورگینی اوروس SE مدل 2025 یک ترکیب از عملکرد، استایل و نوآوری هیبریدی است.

قدرتمندترین لندروور را ببینید! لندروور دیفندر اکتا

لذت سرعت و سلامتی

سامسونگ از گلکسی های Z Flip 6 و Z Fold 6 رونمایی کرد

رونمایی سامسونگ از Galaxy Ring جدید و ساعت‌های Galaxy Watch Ultra و Galaxy Watch7

لذت سرعت و سلامتی

قدرتمندترین لندروور را ببینید! لندروور دیفندر اکتا

بازی The Witcher 4 پیشرفته‌ترین پروژه تاریخ سی‌دی پراجکت است

بهترین تلویزیون های سال 2024