پلتفرم الامآرنا (LMArena) در اصل همان Chatbot Arena سابق است که ماه می سال ۲۰۲۳ راهاندازی شد و با تکیه بر مقایسههای دونفره مبتنی بر رای کاربران به شهرت رسید. تیم سازنده متشکل از پژوهشگران دانشگاه برکلی بود و امروز این پروژه به یک شرکت مستقل (Arena Intelligence Inc) تبدیل شده است. هدف اصلی شکلگیری LMArena ایجاد امکان ارزیابی مدلهای هوش مصنوعی در دنیای واقعی بود آن هم با معیار «ترجیحات انسانها». این پلتفرم میکوشد به جای اتکا به بنچمارکهای ایستا که خطر آلودگی داده یا عدم انطباق با کاربرد واقعی را دارند فاصله میان توسعه مدل و سنجش کیفیت را با یک سازوکار زنده و باز پر کند. از طریق این پلتفرم میتوانید به یک ارزیابی نسبتا منصفانه و معتبر درباره کیفیت، توانایی و رتبهبندی مدلهای مختلف هوش مصنوعی برسید.
الامآرنا چیست و چه بخشهایی دارد؟
الامآرنا یک هاب چندوجهی از ارزیابیهاست. در بخش Leaderboard، تبهای متعددی برای حوزههای گوناگون میبینید: متن (Text)، توسعه وب (WebDev)، بینایی رایانهای (Vision)، تبدیل متن به تصویر (Text-to-Image)، ویرایش تصویر (Image Edit)، جستوجو (Search)، تبدیل متن به ویدیو (Text-to-Video)، تبدیل تصویر به ویدیو (Image-to-Video) و دستیار هوشمند (Copilot). این چیدمان نشان میدهد بنچمارک از «چت متنی» فراتر رفته و طیف وسیعتری را پوشش میدهد. LMArena سه «حالت» اصلی تعامل هم دارد: Battle (نبرد ناشناس دو مدل و رأیگیری)، Side-by-Side (انتخاب دستی مدلها؛ رایها در رتبهبندی رسمی لحاظ نمیشود) و Direct (تعامل مستقیم بدون رای).
۱. حالت نبرد (Battle)
دو مدل بهصورت ناشناس روبهروی هم قرار میگیرند، شما پاسخها را میبینید و به برنده رأی میدهید. رأی شما مستقیماً امتیاز Elo هر مدل را تغییر میدهد و روی لیدربرد عمومی اثر میگذارد. نام مدلها فقط پس از ثبت رأی آشکار میشود؛ تنها رأیهایی که در حالت ناشناس داده شدهاند در رتبهبندی حساب میشوند. بعد از هر رأی، مدلها دوباره بهطور ناشناس نمونهگیری میشوند و ممکن است کانتکست گفتوگو همراه نیاید.
۲. حالت کنار هم (Side-by-Side)
شما مدلها را انتخاب میکنید و مقایسه «غیرناشناس» است. رأی در این حالت صرفاً برای پژوهش جمعآوری میشود و در لیدربرد عمومی نقشی ندارد (یعنی امتیاز Elo را تغییر نمیدهد). بااینحال پرامپتها و انتخابهای شما برای تحلیلهای تحقیقاتی استفاده میشود.
۳. حالت تعامل مستقیم
با یک مدل مشخص «بدون رأیدادن» گفتگو میکنید؛ این حالت برای آزمون یا استفاده از یک مدل بهصورت انفرادی است. مثل حالت SxS، پرامپتها برای اهداف پژوهشی جمعآوری میشوند و اثری بر رتبهبندی ندارند.
ستونها و اعداد الامآرنا چه میگویند؟
- Rank (UB): رتبهبندی؛ فاصله اطمینان امتیازها در نظر گرفته شده تا جابهجاییهای جزئی با رأی کم باعث رتبههای گمراهکننده نشود.
- Model: نام مدل/نسخهای که واقعا در آرنا مورد استفاده قرار میگیرد.
- Score: امتیاز Elo مبتنی بر رأیهای مقایسهای انسانها؛ بالاتر یعنی برتری بیشتر در نبردهای دونفره.
- Votes: تعداد رأیهای معتبر جمعآوریشده برای آن مدل. معمولا بعد از حدود ۳۰۰۰ رای یا وقتی فاصله اطمینان کافی شد، رتبه وارد جدول عمومی میشود.
جدول نهایی؛ کدام هوش مصنوعی رتبه بالاتری دارد؟
صفحه Leaderboard در پلتفرم الامآرنا شامل یک نمای کلی (Overview) و بخشهای مجزا برای هر حوزه ارزیابی است که شرح جزییات آن را پیشتر خواندید. برای هر بخش، زمان آخرین به روزرسانی هم به شکل شفاف نمایش داده میشود.
در قسمت پایین هر تب، جدولی چندستونه وجود دارد که علاوه بر رتبه کلی (Overall)، عملکرد مدلها را در سناریوهای مختلف نمایش میدهد. این سناریوهای از جمله پرامپتهای دشوار (Hard Prompts)، کدنویسی (Coding)، ریاضیات (Math)، نوشتار خلاق (Creative Writing)، پیروی از دستورالعمل (Instruction Following)، پرسشهای طولانی (Longer Query) و گفتوگوهای چندمرحلهای (Multi-Turn) را دربرمیگیرد. این تفکیک به کاربران کمک میکند تا نقاط قوت و ضعف هر مدل را بر اساس نوع کاربرد بررسی کنند.
در حال حاضر جیپیتی ۵ در مجموع رتبه نخست را به خود اختصاص داده و از نظر این پلتفرم به عنوان بهترین هوش مصنوعی در نظر گرفته میشود.
منبع: LMArena
source