گوگل با Gemini 1.5 Pro، مرزهای هوش مصنوعی را جابه‌جا می‌کند

به گزارش آی تی بوم؛در دنیای پیشرفته‌ی فناوری، توسعه‌ی مدل‌های هوش مصنوعی جایگاه ویژه‌ای دارد. مدل‌های هوش مصنوعی تولیدکننده متن «جِمینی» (Gemini) شرکت گوگل به سه دسته نانو، پرو و اولترا تقسیم می‌شوند.

این شرکت در ماه فوریه از Gemini 1.5 رونمایی کرد و اکنون تأیید شده است که نسخه Gemini 1.5 Pro برای پیش‌نمایش عمومی در دسترس قرار گرفته و ویژگی قابل توجهی به دست آورده است.

گوگل تأیید کرد که Gemini 1.5 Pro اکنون از پردازش صوت پشتیبانی می‌کند. این غول جستجو می‌گوید این پشتیبانی شامل صدای موجود در فایل‌های ویدیویی و گفتار می‌شود.

به طور دقیق‌تر، گوگل توضیح داده است: «این قابلیت به کاربران امکان تجزیه و تحلیل چندرسانه‌ای (cross-modal) یکپارچه را می‌دهد و بینش‌هایی را در سراسر متن، تصاویر، ویدیوها و صدا ارائه می‌کند. همچنین رونوشت (transcription) با کیفیت بالا را ارائه می‌دهد و می‌تواند برای جستجو و تجزیه و تحلیل محتوای صوتی و تصویری، مانند استفاده از آن برای جستجو، تحلیل و پاسخ به سؤالات در تماس‌های درآمدزایی یا جلسات سرمایه‌گذاری، مورد استفاده قرار گیرد.»

گوگل، به‌عنوان یکی از رهبران جهانی در زمینه‌ی تکنولوژی و هوش مصنوعی، به‌روزرسانی‌های مهمی را در مدل‌های خود ارائه کرده است.

این شرکت اظهار کرده است که مدل هوش مصنوعی Gemini 1.5 Pro باعث شکست مدل Gemini 1.0 Pro در ۸۷ درصد از معیارهای سنجش شده و تقریباً به‌اندازه‌ی مدل قدرتمندتر Gemini 1.0 Ultra عمل می‌کند. این به‌معنای ارتقاء چشم‌گیری در توانایی‌های پردازشی و هوش مصنوعی گوگل است.

مدل Gemini 1.5 Pro اصطلاحاً برای کاربران محیط کاری (Workspace) طراحی شده است، اما در نهایت امکان استفاده از آن از طریق دستیار صوتی و سایر راه‌های دسترسی به کاربران عادی نیز ارائه خواهد شد.

این ارتقاء بازدهی در پردازش صدا و ایجاد امکانات جدید برای کاربران عادی، منجر به ارتقاء تجربه کاربری در زمینه‌ی هوش مصنوعی می‌شود.

هم‌اکنون، گوگل در گوشی‌های پیکسل، ابزارهای پیشرفته‌ای را در زمینه‌ی صدا ارائه می‌دهد که با استفاده از فناوری‌های هوش مصنوعی پشتیبانی می‌شوند.

این ابزارها از جمله رونوشت صوت در برنامه‌های ضبط صدا و ابزار پاک‌کننده جادویی صدا (Audio Magic Eraser) می‌شوند. این موارد نشان می‌دهد که گوگل به طور مداوم در جهت بهبود تجربه‌ی کاربری در زمینه‌ی هوش مصنوعی تلاش می‌کند.

ما منتظریم تا ببینیم آیا قابلیت‌های پردازشی صدای Gemini 1.5 Pro به مدل‌های آینده از هوش مصنوعی در دستگاه‌های On-device AI منتقل خواهد شد یا خیر. این گام می‌تواند به ارائه ویژگی‌های صوتی پیشرفته‌تر در آینده برای گوشی‌های هوشمند منجر شود.

منبع: جی اس تم

مهدی حیدری26 فروردین 1403