پلتفرم ال‌ام‌آرنا (LMArena) در اصل همان Chatbot Arena سابق است که ماه می سال ۲۰۲۳ راه‌اندازی شد و با تکیه بر مقایسه‌های دونفره مبتنی بر رای کاربران به شهرت رسید. تیم سازنده متشکل از پژوهشگران دانشگاه برکلی بود و امروز این پروژه به یک شرکت مستقل (Arena Intelligence Inc) تبدیل شده است. هدف اصلی شکل‌گیری LMArena ایجاد امکان ارزیابی مدل‌های هوش مصنوعی در دنیای واقعی بود آن هم با معیار «ترجیحات انسان‌ها». این پلتفرم می‌کوشد به جای اتکا به بنچمارک‌های ایستا که خطر آلودگی داده یا عدم انطباق با کاربرد واقعی را دارند فاصله میان توسعه مدل و سنجش کیفیت را با یک سازوکار زنده و باز پر کند. از طریق این پلتفرم می‌توانید به یک ارزیابی نسبتا منصفانه و معتبر درباره کیفیت، توانایی و رتبه‌بندی مدل‌های مختلف هوش مصنوعی برسید.

ال‌ام‌آرنا چیست و چه بخش‌هایی دارد؟

ال‌ام‌آرنا یک هاب چندوجهی از ارزیابی‌هاست. در بخش Leaderboard، تب‌های متعددی برای حوزه‌های گوناگون می‌بینید: متن (Text)، توسعه وب (WebDev)، بینایی‌ رایانه‌ای (Vision)، تبدیل متن به تصویر (Text-to-Image)، ویرایش تصویر (Image Edit)، جست‌وجو (Search)، تبدیل متن به ویدیو (Text-to-Video)، تبدیل تصویر به ویدیو (Image-to-Video) و دستیار هوشمند (Copilot). این چیدمان نشان می‌دهد بنچمارک از «چت متنی» فراتر رفته و طیف وسیع‌تری را پوشش می‌دهد. LMArena سه «حالت» اصلی تعامل هم دارد: Battle (نبرد ناشناس دو مدل و رأی‌گیری)، Side-by-Side (انتخاب دستی مدل‌ها؛ رای‌ها در رتبه‌بندی رسمی لحاظ نمی‌شود) و Direct (تعامل مستقیم بدون رای).

۱. حالت نبرد (Battle)

دو مدل به‌صورت ناشناس روبه‌روی هم قرار می‌گیرند، شما پاسخ‌ها را می‌بینید و به برنده رأی می‌دهید. رأی شما مستقیماً امتیاز Elo هر مدل را تغییر می‌دهد و روی لیدربرد عمومی اثر می‌گذارد. نام مدل‌ها فقط پس از ثبت رأی آشکار می‌شود؛ تنها رأی‌هایی که در حالت ناشناس داده شده‌اند در رتبه‌بندی حساب می‌شوند. بعد از هر رأی، مدل‌ها دوباره به‌طور ناشناس نمونه‌گیری می‌شوند و ممکن است کانتکست گفت‌وگو همراه نیاید.

۲. حالت کنار هم (Side-by-Side)

شما مدل‌ها را انتخاب می‌کنید و مقایسه «غیرناشناس» است. رأی در این حالت صرفاً برای پژوهش جمع‌آوری می‌شود و در لیدربرد عمومی نقشی ندارد (یعنی امتیاز Elo را تغییر نمی‌دهد). بااین‌حال پرامپت‌ها و انتخاب‌های شما برای تحلیل‌های تحقیقاتی استفاده می‌شود.

۳. حالت تعامل مستقیم

با یک مدل مشخص «بدون رأی‌دادن» گفتگو می‌کنید؛ این حالت برای آزمون یا استفاده از یک مدل به‌صورت انفرادی است. مثل حالت SxS، پرامپت‌ها برای اهداف پژوهشی جمع‌آوری می‌شوند و اثری بر رتبه‌بندی ندارند.

ستون‌ها و اعداد ال‌ام‌آرنا چه می‌گویند؟

  • Rank (UB): رتبه‌‌بندی؛ فاصله اطمینان امتیازها در نظر گرفته شده تا جابه‌جایی‌های جزئی با رأی کم باعث رتبه‌های گمراه‌کننده نشود.
  • Model: نام مدل/نسخه‌ای که واقعا در آرنا مورد استفاده قرار می‌گیرد.
  • Score: امتیاز Elo مبتنی بر رأی‌های مقایسه‌ای انسان‌ها؛ بالاتر یعنی برتری بیشتر در نبردهای دونفره.
  • Votes: تعداد رأی‌های معتبر جمع‌آوری‌شده برای آن مدل. معمولا بعد از حدود ۳۰۰۰ رای یا وقتی فاصله اطمینان کافی شد، رتبه وارد جدول عمومی می‌شود.

جدول نهایی؛ کدام هوش مصنوعی رتبه‌ بالاتری دارد؟

صفحه Leaderboard در پلتفرم ال‌ام‌آرنا شامل یک نمای کلی (Overview) و بخش‌های مجزا برای هر حوزه ارزیابی است که شرح جزییات آن را پیشتر خواندید. برای هر بخش، زمان آخرین به روزرسانی هم به شکل شفاف نمایش داده می‌شود.

در قسمت پایین هر تب، جدولی چندستونه وجود دارد که علاوه بر رتبه کلی (Overall)، عملکرد مدل‌ها را در سناریوهای مختلف نمایش می‌دهد. این سناریوهای از جمله پرامپت‌های دشوار (Hard Prompts)، کدنویسی (Coding)، ریاضیات (Math)، نوشتار خلاق (Creative Writing)، پیروی از دستورالعمل (Instruction Following)، پرسش‌های طولانی (Longer Query) و گفت‌وگوهای چندمرحله‌ای (Multi-Turn) را دربرمی‌گیرد. این تفکیک به کاربران کمک می‌کند تا نقاط قوت و ضعف هر مدل را بر اساس نوع کاربرد بررسی کنند.

در حال حاضر جی‌پی‌تی ۵ در مجموع رتبه نخست را به خود اختصاص داده و از نظر این پلتفرم به عنوان بهترین هوش مصنوعی در نظر گرفته می‌شود.

منبع: LMArena

source

توسط chehrenet.ir