- هوش مصنوعی، مانند بسیاری از همکاران پژوهشی من، کانون کار زندگی من بوده است. از زمان برنامهنویسی هوش مصنوعی برای بازیهای رایانهای در نوجوانی، و در طول سالهایی که به عنوان محقق علوم اعصاب تلاش میکردم تا عملکرد مغز را درک کنم، همیشه بر این باور بودم که اگر بتوانیم ماشینهای هوشمندتر بسازیم، میتوانیم آنها را به نفع بشریت در حد باورنکردنی مهار کنیم. راه ها این وعده جهانی با مسئولیتپذیری توسط هوش مصنوعی به کار ما در Google DeepMind ادامه میدهد. برای مدت طولانی، ما میخواستیم نسل جدیدی از مدلهای هوش مصنوعی را با الهام از نحوه درک و تعامل مردم با جهان بسازیم. هوش مصنوعی که کمتر شبیه یک نرم افزار هوشمند است و بیشتر شبیه چیزی مفید و شهودی است - یک کمک یا دستیار متخصص.
گوگل روز چهارشنبه 6 دسامبر 2023 (15 آذر 1402) از «بزرگترین و توانمندترین» مدل هوش مصنوعی خود با عنوان Gemini (جمِنای) رونمایی کرد. این مدل جدید از پایه به شکل چندحالتی یا multimodal طراحی شده و به همین دلیل میتواند انواع مختلف اطلاعات – اعم از متن، تصویر، صدا، ویدئو و کد – را در آن واحد درک کرده و تعمیم دهد. این قابلیت به جمِنای اجازه میدهد که بتواند تفاوتهای جزئی را بهتر از یکدیگر تفکیک کرده و در نتیجه در پاسخدهی به سؤالات مرتبط با موضوعات پیچیده بهتر عمل کند. از این رو، انتظار میرود جمِنای در بیان استدلال در مباحثی مثل ریاضی و فیزیک، عملکرد بهتری داشته باشد. در ادامه بیشتر با امکانات جمِنای آشنا میشویم.
سوندار پیچای (Sundar Pichai)، مدیرعامل گوگل، برای اولین بار در ماه ژوئن در جریان کنفرانس سالانه توسعهدهندگان گوگل – موسوم به Google I/O – از عرضه قریبالوقوع جمِنای خبر داده بود. به گفته پیچای، جمِنای سرآغاز عصر جدیدی از هوش مصنوعی در گوگل بوده و در عرصه مدلهای هوش مصنوعی، یک گام بزرگ رو به جلو محسوب میشود که در نهایت تمامی محصولات گوگل را تحت تأثیر قرار خواهد داد.
Gemini جمِنای در سه ورژن مختلف طراحی شده است؛ نسخه سبکتر این مدل که Gemini Nano نام گرفته، به شکل آفلاین روی دیوایسهای اندرویدی اجرا میشود. نسخه پیشرفتهتر این مدل تحت عنوان Gemini Nanoبهزودی مدیریت بسیاری از سرویسهای هوش مصنوعی گوگل را در دست گرفته و از این پس شاکله اصلی Bard (یکی دیگر از مدلهای هوش مصنوعی گوگل) را تشکیل خواهد داد. در نهایت میرسیم به پیشرفتهترین نسخه از این مدل که Ultra نام گرفته است. Gemini Ultra قدرتمندترین LLM (مدل زبانی بزرگ) گوگل تا به امروز بوده و به نظر میرسد برای مراکز داده و کارکردهای سازمانی طراحی شده باشد.
بنا بر آنچه در وبلاگ گوگل آمده، Gemini Ultra نخستین مدل هوش مصنوعی است که در آزمون MMLU با کسب نمره 90 درصد از متخصصین انسانی نیز بهتر عمل کرده است. گفتنیست، آزمون MMLU (کوتاهشده massive multitask language understanding به معنای درک زبان چندوظیفهای بزرگ) آزمونیست که با ترکیب مجموعهای از 57 مبحث درسی مختلف – اعم از ریاضی، فیزیک، تاریخ، حقوق، پزشکی و اخلاق – علاوه بر سنجش دانش عمومی، به ارزشیابی تواناییهای افراد در حل مسأله نیز میپردازد.
نسخه Gemini Ultra میتواند علاوهبر ایجاد کدهای با کیفیت بالا در زبانهای برنامهنویسی Python، جاوا، ++C و Go، این کدها را درک کرده و توضیح دهد. Gemini Ultra توانایی کار کردن با زبانهای مختلف را دارا بوده و میتواند درباره اطلاعات پیچیده به استدلال بپردازد. طبق ادعای گوگل، Gemini Ultra در بسیاری از بنچمارکهای برنامهنویسی – از جمله HumanEval و Natural2Code – رتبه بالاتری را نسبت به مدلهای دیگر کسب کرده است.
در حال حاضر، مدل هوش مصنوعی Bard با ورژنی از Gemini Pro به کار خود ادامه میدهد. به این ترتیب، انتظار میرود از این پس شاهد استدلال، برنامهریزی و درک پیشرفتهتری از Bard باشیم. حال سؤال اینجاست که با این اوصاف، جمِنای از ChatGPT بهتر خواهد بود؟ پاسخ قطعی به این سؤال هنوز کمی زود به نظر میرسد، اما گوگل دوست دارد برتری مدل هوش مصنوعی خود را به مخاطبین القا کند.
به عنوان مثال، گوگل مدعیست که از 8 بنچمارکی که هر دو مدل Gemini Pro و GPT-3.5 را بررسی کردند، عملکرد Gemini Pro در 6 بنچمارک بهتر از GPT-3.5 گزارش شده است. همچنین، در برخی ارزیابیهای نادیده یک طرفه که توسط ارزیابهای طرف سوم انجام شده، گوگل به این نتیجه رسید که در حال حاضر Bard ایدهآلترین بات مکالمه در مقایسه با دیگر گزینههای مشابه است. البته مشخص نیست منظور گوگل از دیگر گزینههای مشابه دقیقا کدام چتباتهاست، زیرا این شرکت از هیچکدام از آنها اسمی نبرده است.
همان طور که گفته شد، در حال حاضر Bard با Gemini Pro کار میکند؛ به عبارت دقیقتر به لطف Gemini Pro، میتوان درخواستهای مبتنی بر متن را به زبان انگلیسی با Bard در میان گذاشت. این ویژگی در 170 کشور جهان به جز اروپا در دسترس است. (اروپا نیز بهزودی این سرویس را دریافت میکند) همچنین، Pixel 8 Pro نخستین اسمارتفونیست که بهزودی با تجهیز به Gemini Nano از امکانات جدیدی بهرهمند خواهند شد. اما Gemini Ultra از سال 2024 در دسترس قرار میگیرد. به گفته گوگل، توسعهدهندگان و مشتریان سازمانی میتوانند از 13 دسامبر (22 آذر) از طریق Google Generative AI Studio یا Vertex AI در پلتفرم ابری گوگل به Gemini Pro دسترسی پیدا کنند.
در حال حاضر، جمِنای فقط به زبان انگلیسی سرویسدهی میکند، اما بهزودی پشتیبانی از سایر زبانها به آن افزوده خواهد شد. به گفته سوندار پیچای، در نهایت جمِنای با موتور جستوجوی گوگل، محصولات تبلیغاتی آن، مرورگر کروم و … در سرتاسر دنیا یکپارچه خواهد شد.
در رویداد رونمایی از جمِنای، گوگل با ارائه سناریوهای متنوع سعی در به رخ کشیدن تواناییهای این مدل هوش مصنوعی جدید داشت. در یک نمونه، جمِنای پس از گرفتن تنها یک اسکرینشات از یک چارت، با تحلیل صدها صفحه پژوهش، چارت را بهروزرسانی کرد. مورد جالب دیگر آن بود که جمِنای با تحلیل عکسی از تکلیف ریاضی یک دانشآموز، پاسخهای درست را شناسایی و موارد نادرست را مشخص کرد. البته گوگل در نمایش تواناییهای جمِنای کمی زیادهروی کرد و در اصطلاح گاف داد.
در یکی از ویدئوهای پخش شده از سوی گوگل درباره تواناییهای جمِنای، شاهد آن هستیم که شخصی یک قلم و کاغذ برداشته و روی آن خطوطی را ترسیم میکند که نهایتا به شکل یک اردک درمیآید. در حین کشیدن این اردک، شخص از جمِنای درخواست میکند که هر چه را میبیند بازگو کند. در کمال تعجب، جمِنای با دقت و سرعت بسیار بالا تمام مراحل را توصیف کرده و حتی میتواند رنگ غیرعادی اردک (آبی) را گوشزد کند. در ادامه، جمِنای با نقشه جهانی که آن شخص در اختیار دارد یک بازی را طراحی کرده و خیلی راحت با آن شخص درباره اطلاعات کشورها بازی میکند. پس از آن، بازی در قالب پیدا کردن کاغذ مچاله شده زیر یکی از سه لیوان ادامه پیدا میکند. جالب است که جمِنای تکتک حرکات دست آن شخص – از جمله سنگ، کاغذ، قیچی، حرکت بالهای پروانه و پارس کردن یک سگ – را به درستی شناسایی میکند.
مطمئنا با دیدن این ویدئو – که در ادامه بسیار جالبتر میشود – از سرعت بالای جمِنای در تعامل با این شخص شگفتزده میشوید. اما طبق خبری که از سوی بلومبرگ منتشر شده، این ویدئو ساختگی و ویرایششده است. به اعتقاد کارشناس بلومبرگ، گوگل برای گمراه کردن مخاطب و فرار از این واقعیت که جمِنای هنوز در حد و اندازههای GPT نیست، دست به این کار زده است. البته خود گوگل این امر را رد کرده و مدعی شده که تمام تعاملات بین شخص و جمِنای واقعیست، منتهی جهت رعایت اختصار، صرفا تقطیع و کوتاه شده و هر بار یک عکس از ویدئوی مذکور در اختیار جمِنای قرار گرفته، با متن از وی سوال شده و پاسخ آن دریافت شده است.