شرکت OpenAI (خالق چت جی پی تی) چندی پیش از نسل جدید مدلهای هوش مصنوعی خود با تمرکز بر قابلیتهای استدلالی پردهبرداری کرد. این مدلها که با نامهای o3 و o4-mini شناخته میشوند، طبق گفتهی سازندگانشان پیشرفتهای قابل توجهی نسبت به نسخههای پیشین داشتهاند. با این حال، گزارشهای تازهای که منتشر شده، نگرانیهایی را در مورد میزان صحت اطلاعات تولیدی توسط این مدلهای جدید برانگیخته است. به نظر میرسد پدیدهی «توهم» یا ارائه اطلاعات نادرست به عنوان واقعیت، در این مدلهای تازه نفس همچنان یک مسئلهی جدی به شمار میرود و حتی شاید پررنگتر از قبل شده باشد.
بر اساس اطلاعات منتشر شده توسط تککرانچ، به نظر میرسد مدلهای o3 و o4-mini بیش از آنچه انتظار میرفت، مستعد تولید محتوای غیرواقعی هستند. تستهای داخلی خود شرکت OpenAI نیز این موضوع را تایید میکند. نتایج این آزمایشها نشان میدهد که میزان بروز توهم در o3 و o4-mini نه تنها از مدلهای استدلالی قدیمیتر مانند o1، o1-mini و o3-mini بیشتر است، بلکه حتی از مدلهای استاندارد و پرکاربرد OpenAI مثل GPT-4o نیز فراتر میرود. این یافتهها تا حدی غافلگیرکننده محسوب میشود، چرا که معمولا انتظار میرود با پیشرفت مدلهای هوش مصنوعی، از میزان خطاهای اینچنینی کاسته شود.
پدیدهی توهم در هوش مصنوعی یکی از موانع اصلی بر سر راه توسعهی این فناوری به شمار میرود. غلبه بر این مشکل کار سادهای نیست و نیازمند رویکردهای پیچیدهای است. اگرچه در بسیاری از موارد، نسلهای جدیدتر مدلها موفق میشوند تا حدی بر این مشکل غلبه کنند و دقت بیشتری نسبت به نسخههای قبلی خود نشان دهند، اما به نظر میرسد این روند در مورد o3 و o4-mini معکوس بوده است. این مسئله سوالات مهمی را در مورد مسیر توسعهی این مدلها و چالشهای پیش رو مطرح میکند.
نکتهای که نگرانیها را دوچندان میکند، این است که خود OpenAI نیز دلیل روشنی برای این افزایش توهم در مدلهای جدیدش ندارد. این شرکت در گزارش فنی مربوط به o3 و o4-mini به صراحت اعلام کرده که برای درک چرایی افزایش توهم همزمان با بهبود قابلیتهای استدلالی، به تحقیقات بیشتری نیاز است. این عدم قطعیت نشان میدهد که درک کامل سازوکارهای درونی این مدلهای پیچیده همچنان یک چالش اساسی برای محققان این حوزه است.
البته نباید از پیشرفتهای این مدلها چشمپوشی کرد. گزارشها حاکی از آن است که o3 و o4-mini در برخی حوزهها، به خصوص وظایف مرتبط با برنامهنویسی و حل مسائل ریاضی، عملکرد بهتری نسبت به قبل از خود نشان میدهند. با این حال، به نظر میرسد این بهبود عملکرد با یک هزینه همراه بوده است. طبق تحلیل OpenAI، این مدلها به طور کلی «ادعاهای بیشتری مطرح میکنند». این افزایش در تعداد ادعاها، هم شامل اطلاعات دقیقتر میشود و هم متاسفانه، موارد نادرست و متوهمانه را افزایش میدهد.
برای درک بهتر مقیاس این مشکل، OpenAI به نتایج بنچمارک داخلی خود به نام PersonQA اشاره میکند. این بنچمارک برای سنجش دقت مدل در ارائه اطلاعات مربوط به افراد طراحی شده است. نتایج نشان میدهد که مدل o3 در 33 درصد موارد هنگام پاسخ به سوالات این بنچمارک، دچار توهم شده و اطلاعات نادرست ارائه داده است. این رقم تقریبا دو برابر میزان توهم در مدلهای استدلالی پیشین یعنی o1 (با امتیاز 16 درصد) و o3-mini (با امتیاز 14.8 درصد) است. وضعیت برای مدل o4-mini حتی نگرانکنندهتر به نظر میرسد، چرا که این مدل در 48 درصد موارد در بنچمارک PersonQA دچار توهم شده است.
شاید بتوان گفت توهم گاهی به مدلهای هوش مصنوعی کمک میکند تا به ایدههای جدید و خلاقانه برسند، اما این ویژگی برای کاربردهای تجاری و موقعیتهایی که دقت اطلاعات در اولویت اصلی قرار دارد، یک نقطهضعف بزرگ محسوب میشود. کسبوکارها و کاربرانی که به خروجیهای قابل اعتماد و دقیق از هوش مصنوعی نیاز دارند، نمیتوانند به سادگی از کنار این میزان خطا عبور کنند. یکی از راهکارهای امیدوارکننده برای کاهش توهم و افزایش دقت، تجهیز مدلها به قابلیت جستجو در وب است. این قابلیت به مدل اجازه میدهد تا اطلاعات خود را با منابع خارجی راستیآزمایی کند. به عنوان مثال، مدل GPT-4o که از قابلیت جستجوی وب بهره میبرد، توانسته در بنچمارک SimpleQA (که یکی دیگر از معیارهای سنجش دقت است) به امتیاز قابل توجه 90 درصد دست یابد. این نشان میدهد که دسترسی به اطلاعات بهروز و قابل تایید، میتواند نقش مهمی در کاهش توهم ایفا کند. با این حال، چالش اصلی برای مدلهای جدید o3 و o4-mini همچنان پابرجاست و نیازمند بررسی و تحقیقات بیشتر از سوی OpenAI خواهد بود.
منبع: TechCrunch
source