شرکت علی‌بابا، اخیرا هوش مصنوعی QwQ را معرفی کرده است. به ادعای توسعه‌دهنده، هوش Qwen with Questions در حل مسائل ریاضی و کدنویسی می‌توان با هوش مصنوعی o1 رقابت کند.

آنطور که در اطلاعیه qwenlm آمده مدل QwQ که 32.5 میلیارد پارامتر دارد، از قابلیت استدلال پیچیده بهره می‌برد و می‌تواند به حداکثر 32 هزار توکن پاسخ دهد.  این ویژگی به آن اجازه می‌دهد که در مواردی که نیاز به استدلال منطقی یا برنامه‌ریزی دقیق وجود دارد، عملکرد بهتری ارائه دهد. از جمله این موارد می‌توان به حل مسائل ریاضی و کدنویسی اشاره کرد.

راهنمای خرید تکراتو

بنچمارک‌های هوش مصنوعی QwQ علی‌بابا

در بنچمارک‌های مختلفی که توانایی مدل‌ها در حل مسائل ریاضی و استدلال علمی را ارزیابی می‌کنند، هوش مصنوعی Qwen with Questions  نشان داده که از مدل o1-preview عملکرد بهتری دارد. به عنوان مثال، در بنچمارک‌های AIME و MATH که به ارزیابی توانایی حل مسائل ریاضی می‌پردازند، QwQ توانست بر o1 غلبه کند. همچنین در بنچمارک GPQA که به ارزیابی استدلال علمی می‌پردازد، QwQ عملکرد بهتری از o1-mini نشان داد.

البته در زمینه کدنویسی، o1 عملکرد بهتری در بنچمارک LiveCodeBench از خود نشان داد، اما QwQ همچنان از مدل‌های دیگر مانند GPT-4o و Claude 3.5 Sonnet بهتر عمل کرده است. این نشان می‌دهد که QwQ در زمینه‌های خاصی که نیاز به استدلال دقیق دارد، بهتر عمل می‌کند، اما در برخی از حوزه‌ها، مدل‌های رقیب ممکن است قوی‌تر باشند.

علی‌بابا از مدل هوش مصنوعی QwQ رونمایی کرد؛ رقیب هوش مصنوعی OpenAI o1 در حل مسائل ریاضی و کدنویسی

در رابطه با فرایند آموزش این مدل، علی‌بابا اطلاعات دقیقی منتشر نکرده است، اما برخلاف o1، QwQ به صورت متن‌باز عرضه شده است. به این معنی که روند استدلال مدل برای کاربران قابل مشاهده است و آن‌ها می‌توانند نحوه عملکرد و تفکر مدل هنگام حل مسائل پیچیده را بررسی کنند.

علی‌بابا در بیانیه‌ای اعلام کرده که هوش مصنوعی  QwQ برای بهبود خود به روش‌هایی نظیر “پرسش، تأمل و اندیشیدن عمیق” وابسته است. این فرایند به مدل کمک کرده تا در حل مسائل پیچیده، بهبودهای قابل توجهی به دست آورد. با این حال، شرکت اشاره کرده که QwQ در برخی موارد ممکن است با مشکلاتی نظیر ترکیب زبان‌ها یا گیر کردن در حلقه‌های استدلال مواجه شود.

در حال حاضر، نسخه آزمایشی مدل QwQ در دسترس است و می‌توانید از طریق Hugging Face آن را امتحان کنید. اما این مدل هنوز در مراحل اولیه قرار دارد و به نظر می‌رسد که نسخه نهایی و کامل‌تر آن در آینده‌ای نه چندان دور عرضه شود.

بیشتر بخوانید:

source

توسط blogcheck.ir