مایکروسافت  از مدل‌های زبانی Phi-4 که شامل دو مدل Phi-4-multimodal و Phi-4-mini می‌شوند، معرفی کرد. این مدل‌ها به خانواده مدل‌های کوچک زبانی (SLM) این شرکت اضافه شده‌اند و اکنون از طریق Azure AI Foundry، Hugging Face و NVIDIA API Catalog در دسترس هستند.

به‌گزارش تکراتو به نقل از analyticsindiamag، مدل Phi-4-multimodal که دارای ۵.۶ میلیارد پارامتر است، قابلیت پردازش هم‌زمان صوت، تصویر و متن را دارد. ویژو چن، معاون هوش مصنوعی مولد در مایکروسافت، درباره این مدل گفت:

راهنمای خرید تکراتو

«با بهره‌گیری از تکنیک‌های پیشرفته یادگیری بین‌حالتی، این مدل امکان تعامل طبیعی‌تر و درک دقیق‌تر محتوا را فراهم می‌کند و دستگاه‌ها را قادر می‌سازد تا ورودی‌های مختلف را به‌طور هم‌زمان پردازش و تحلیل کنند.»

سال گذشته، مایکروسافت مدل Phi-4 را با ۱۴ میلیارد پارامتر عرضه کرد که توانایی بالایی در استدلال پیچیده دارد.

مدل Phi-4-multimodal در کاربردهایی مانند تحلیل اسناد و تشخیص گفتار عملکرد قابل‌توجهی دارد. در آزمون‌های چندحالتی صوتی و تصویری، این مدل توانسته است مدل‌های گوگل جمنای 2 فلش و جمنای 1.5 پرو را پشت سر بگذارد. مایکروسافت ادعا می‌کند که عملکرد آن قابل‌مقایسه با GPT-4o از OpenAI است.

این شرکت همچنین اعلام کرده که این مدل در وظایف مرتبط با گفتار عملکرد بسیار خوبی داشته و مدل‌هایی مانند WhisperV3 و SeamlessM4T-v2-Large را در تشخیص خودکار گفتار و ترجمه صوتی پشت سر گذاشته است. همچنین، در رتبه‌بندی Hugging Face OpenASR با نرخ خطای کلمه ۶.۱۴٪ در جایگاه نخست قرار گرفته است. این مدل در تحلیل اسناد و نمودارها، تشخیص متن در تصویر (OCR) و استدلال علمی بصری نتایج قابل‌توجهی ارائه داده است.

در مقابل، مدل Phi-4-mini یک مدل مبتنی بر متن با ۳.۸ میلیارد پارامتر است که برای وظایف استدلال، برنامه‌نویسی و پردازش متون طولانی طراحی شده است. این مدل قادر است توکن‌هایی تا طول ۱۲۸,۰۰۰ واحد را پردازش کند و درعین‌حال، بهینه‌تر از نظر محاسباتی عمل کند. همچنین، از فراخوانی توابع پشتیبانی می‌کند که امکان ادغام با ابزارهای خارجی و APIها را فراهم می‌کند.

مدل‌های زبانی Phi-4 برای محیط‌های محاسباتی محدود بهینه شده‌اند و با استفاده از ONNX Runtime قابلیت اجرا در پلتفرم‌های مختلف را دارند، ضمن اینکه تأخیر پردازشی کمتری ایجاد می‌کنند.

مایکروسافت در حال ادغام این مدل‌ها در اکوسیستم خود، از جمله برنامه‌های ویندوز و رایانه‌های Copilot+ است. ویوک پرادیپ، معاون و مهندس ارشد تیم علوم کاربردی ویندوز، می‌گوید:

«رایانه‌های کوپایلوت پلاس از توانایی‌های Phi-4-multimodal بهره خواهند برد تا بدون مصرف انرژی بالا، قدرت مدل‌های پیشرفته SLM مایکروسافت را ارائه دهند.»

توسعه‌دهندگان اکنون می‌توانند از طریق چندین پلتفرم به مدل‌های Phi-4-multimodal و Phi-4-mini دسترسی داشته باشند و کاربردهای آن‌ها را در صنایعی مانند مالی، سلامت و فناوری خودروسازی بررسی کنند.

source

توسط blogcheck.ir