شرکت OpenAI (خالق چت جی پی تی) چندی پیش از نسل جدید مدل‌های هوش مصنوعی خود با تمرکز بر قابلیت‌های استدلالی پرده‌برداری کرد. این مدل‌ها که با نام‌های o3 و o4-mini شناخته می‌شوند، طبق گفته‌ی سازندگانشان پیشرفت‌های قابل توجهی نسبت به نسخه‌های پیشین داشته‌اند. با این حال، گزارش‌های تازه‌ای که منتشر شده، نگرانی‌هایی را در مورد میزان صحت اطلاعات تولیدی توسط این مدل‌های جدید برانگیخته است. به نظر می‌رسد پدیده‌ی «توهم» یا ارائه اطلاعات نادرست به عنوان واقعیت، در این مدل‌های تازه نفس همچنان یک مسئله‌ی جدی به شمار می‌رود و حتی شاید پررنگ‌تر از قبل شده باشد.

بر اساس اطلاعات منتشر شده توسط تک‌کرانچ، به نظر می‌رسد مدل‌های o3 و o4-mini بیش از آنچه انتظار می‌رفت، مستعد تولید محتوای غیرواقعی هستند. تست‌های داخلی خود شرکت OpenAI نیز این موضوع را تایید می‌کند. نتایج این آزمایش‌ها نشان می‌دهد که میزان بروز توهم در o3 و o4-mini نه تنها از مدل‌های استدلالی قدیمی‌تر مانند o1، o1-mini و o3-mini بیشتر است، بلکه حتی از مدل‌های استاندارد و پرکاربرد OpenAI مثل GPT-4o نیز فراتر می‌رود. این یافته‌ها تا حدی غافلگیرکننده محسوب می‌شود، چرا که معمولا انتظار می‌رود با پیشرفت مدل‌های هوش مصنوعی، از میزان خطاهای این‌چنینی کاسته شود.

OpenAI

پدیده‌ی توهم در هوش مصنوعی یکی از موانع اصلی بر سر راه توسعه‌ی این فناوری به شمار می‌رود. غلبه بر این مشکل کار ساده‌ای نیست و نیازمند رویکردهای پیچیده‌ای است. اگرچه در بسیاری از موارد، نسل‌های جدیدتر مدل‌ها موفق می‌شوند تا حدی بر این مشکل غلبه کنند و دقت بیشتری نسبت به نسخه‌های قبلی خود نشان دهند، اما به نظر می‌رسد این روند در مورد o3 و o4-mini معکوس بوده است. این مسئله سوالات مهمی را در مورد مسیر توسعه‌ی این مدل‌ها و چالش‌های پیش رو مطرح می‌کند.

نکته‌ای که نگرانی‌ها را دوچندان می‌کند، این است که خود OpenAI نیز دلیل روشنی برای این افزایش توهم در مدل‌های جدیدش ندارد. این شرکت در گزارش فنی مربوط به o3 و o4-mini به صراحت اعلام کرده که برای درک چرایی افزایش توهم همزمان با بهبود قابلیت‌های استدلالی، به تحقیقات بیشتری نیاز است. این عدم قطعیت نشان می‌دهد که درک کامل سازوکارهای درونی این مدل‌های پیچیده همچنان یک چالش اساسی برای محققان این حوزه است.

البته نباید از پیشرفت‌های این مدل‌ها چشم‌پوشی کرد. گزارش‌ها حاکی از آن است که o3 و o4-mini در برخی حوزه‌ها، به خصوص وظایف مرتبط با برنامه‌نویسی و حل مسائل ریاضی، عملکرد بهتری نسبت به قبل از خود نشان می‌دهند. با این حال، به نظر می‌رسد این بهبود عملکرد با یک هزینه همراه بوده است. طبق تحلیل OpenAI، این مدل‌ها به طور کلی «ادعاهای بیشتری مطرح می‌کنند». این افزایش در تعداد ادعاها، هم شامل اطلاعات دقیق‌تر می‌شود و هم متاسفانه، موارد نادرست و متوهمانه را افزایش می‌دهد.

OpenAI

برای درک بهتر مقیاس این مشکل، OpenAI به نتایج بنچمارک داخلی خود به نام PersonQA اشاره می‌کند. این بنچمارک برای سنجش دقت مدل در ارائه اطلاعات مربوط به افراد طراحی شده است. نتایج نشان می‌دهد که مدل o3 در 33 درصد موارد هنگام پاسخ به سوالات این بنچمارک، دچار توهم شده و اطلاعات نادرست ارائه داده است. این رقم تقریبا دو برابر میزان توهم در مدل‌های استدلالی پیشین یعنی o1 (با امتیاز 16 درصد) و o3-mini (با امتیاز 14.8 درصد) است. وضعیت برای مدل o4-mini حتی نگران‌کننده‌تر به نظر می‌رسد، چرا که این مدل در 48 درصد موارد در بنچمارک PersonQA دچار توهم شده است.

شاید بتوان گفت توهم گاهی به مدل‌های هوش مصنوعی کمک می‌کند تا به ایده‌های جدید و خلاقانه برسند، اما این ویژگی برای کاربردهای تجاری و موقعیت‌هایی که دقت اطلاعات در اولویت اصلی قرار دارد، یک نقطه‌ضعف بزرگ محسوب می‌شود. کسب‌وکارها و کاربرانی که به خروجی‌های قابل اعتماد و دقیق از هوش مصنوعی نیاز دارند، نمی‌توانند به سادگی از کنار این میزان خطا عبور کنند. یکی از راهکارهای امیدوارکننده برای کاهش توهم و افزایش دقت، تجهیز مدل‌ها به قابلیت جستجو در وب است. این قابلیت به مدل اجازه می‌دهد تا اطلاعات خود را با منابع خارجی راستی‌آزمایی کند. به عنوان مثال، مدل GPT-4o که از قابلیت جستجوی وب بهره می‌برد، توانسته در بنچمارک SimpleQA (که یکی دیگر از معیارهای سنجش دقت است) به امتیاز قابل توجه 90 درصد دست یابد. این نشان می‌دهد که دسترسی به اطلاعات به‌روز و قابل تایید، می‌تواند نقش مهمی در کاهش توهم ایفا کند. با این حال، چالش اصلی برای مدل‌های جدید o3 و o4-mini همچنان پابرجاست و نیازمند بررسی و تحقیقات بیشتر از سوی OpenAI خواهد بود.

منبع: TechCrunch

source

توسط chehrenet.ir