سه شنبه, ۱۴ اسفند ۱۴۰۳ /
80317
۱۴ اسفند ۱۴۰۳ - ۱۸:۱۰
1 بازدید
۰

خبر سبک زندگی : بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد

۰ (۰) خبر سبک زندگی : بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد به گزارش خبرگزاری خبرآنلاین و براساس گزارش دیجیاتو، محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازی‌های کلاسیک کردند و مدل‌های هوش مصنوعی مطرح را در نسخه‌ای خاص از «Super […]



۰
(۰)

خبر سبک زندگی : بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد

به گزارش خبرگزاری خبرآنلاین و براساس گزارش دیجیاتو، محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازی‌های کلاسیک کردند و مدل‌های هوش مصنوعی مطرح را در نسخه‌ای خاص از «Super Mario Bros» به چالش کشیدند. این نسخه از بازی که در شبیه‌ساز اجرا می‌شد، به کمک فریم‌ورک داخلی «GamingAgent» به هوش مصنوعی امکان کنترل مستقیم ماریو را می‌داد.

عملکرد ضعیف مدل‌های گوگل و OpenAI

در این رقابت بین هوش مصنوعی‌های شناخته‌شده، مدل Claude 3.7 از شرکت آنتروپیک بهترین عملکرد را داشت و پس از آن نسخه Claude 3.5 قرار گرفت. مدل‌های معروفی مانند جمینای ۱.۵ پرو از گوگل و GPT-4o از OpenAI نتوانستند چندان خوب عمل کنند.

نکته جالب اینکه مدل‌ها برای هدایت ماریو باید دستورات را به‌صورت کدهای پایتون تولید می‌کردند. GamingAgent به مدل‌ها اطلاعات اولیه‌ای مثل اینکه مانع یا دشمن نزدیک است، به چپ بپر و اسکرین‌شات‌هایی از محیط بازی ارائه می‌کرد. سپس مدل‌ها باید با تحلیل این داده‌ها، استراتژی‌هایی برای عبور از موانع، جمع‌آوری سکه‌ها و پیشرفت در مراحل طراحی می‌کردند.

یکی از نکات جالب عملکرد ضعیف‌تر مدل‌های مبتنی‌بر استدلال گام‌به‌گام مانند نسخه GPT-4o reasoning نسبت به مدل‌های معمولی بود. برخلاف انتظار، مدل‌های استدلالگر که در حل مسائل پیچیده‌تر و تفکر منطقی عملکرد بهتری دارند، در محیط‌های بلادرنگ (real-time)، مثل بازی سوپر ماریو، با مشکل مواجه شدند. علت اصلی این ضعف زمان‌بر بودن تصمیم‌گیری است که گاهی چند ثانیه طول می‌کشد و در بازی‌هایی مثل ماریو تفاوت پرش موفق یا سقوط را رقم می‌زند.

استفاده از بازی برای مقایسه عملکرد مدل‌های هوش مصنوعی

استفاده از بازی‌ها برای بنچمارک‌کردن هوش مصنوعی کار جدیدی نیست و از دهه‌ها پیش وجود داشته اما برخی کارشناسان معتقدند مقایسه عملکرد AI در بازی‌ها با پیشرفت واقعی در هوش مصنوعی عمومی گمراه‌کننده است. بازی‌ها نسبت به دنیای واقعی انتزاعی‌تر و ساده‌ترند و حجم داده‌های در دسترس برای تمرین نیز تقریباً بی‌نهایت است.

این آزمایش‌های نمایشی و رقابت‌های گیمینگ به بخشی از آن چیزی تبدیل شده‌اند که «آندری کارپاتی»، پژوهشگر ارشد و هم‌بنیان‌گذار OpenAI، آن را بحران ارزیابی توصیف می‌کند. کارپاتی در پستی در شبکه اجتماعی ایکس نوشت:«راستش را بخواهید، دیگر نمی‌دانم باید به کدام معیارها نگاه کنم. خلاصه اینکه اصلاً نمی‌دانم این مدل‌ها دقیقاً چقدر خوب‌اند.»

این آزمایش در شرایطی انجام شده که شرکت‌ها به‌دنبال روش‌های جدیدی برای ارزیابی هوش مصنوعی فراتر از معیارهای سنتی مثل MMLU یا BIG-bench هستند. بازی‌های بلادرنگ شاید معیار کاملی نباشند اما نشان می‌دهند مدل‌های زبانی هنوز در تلفیق سرعت تصمیم‌گیری و استدلال منطقی، چالش‌های اساسی دارند.

۲۲۷۲۲۷


منبع

چقدر این پست مفید بود؟

روی یک ستاره کلیک کنید تا به آن امتیاز دهید!

Average rating ۰ / ۵. تعداد آرا: ۰

تا الان رای نیامده! اولین نفری باشید که به این پست امتیاز می دهید.

6 ماه پيش [ 4095 بازدید ]
11 ماه پيش [ 453 بازدید ]
11 ماه پيش [ 392 بازدید ]
11 ماه پيش [ 333 بازدید ]
10 ماه پيش [ 326 بازدید ]
9 ماه پيش [ 297 بازدید ]
14 روز پيش [ 290 بازدید ]
23 روز پيش [ 279 بازدید ]
8 ماه پيش [ 265 بازدید ]
23 روز پيش [ 263 بازدید ]
21 روز پيش [ 251 بازدید ]
20 روز پيش [ 244 بازدید ]
20 روز پيش [ 239 بازدید ]
20 روز پيش [ 227 بازدید ]
11 ماه پيش [ 218 بازدید ]
8 ماه پيش [ 213 بازدید ]
7 ماه پيش [ 195 بازدید ]
8 ماه پيش [ 189 بازدید ]
11 ماه پيش [ 187 بازدید ]
10 ماه پيش [ 182 بازدید ]
newstimes 45 دقيقه پيش [ 1 بازدید ]
newstimes 47 دقيقه پيش [ 1 بازدید ]
newstimes 49 دقيقه پيش [ 0 بازدید ]
newstimes 52 دقيقه پيش [ 0 بازدید ]
newstimes 1 ساعت پيش [ 1 بازدید ]
newstimes 2 ساعت پيش [ 2 بازدید ]
newstimes 2 ساعت پيش [ 1 بازدید ]
newstimes 2 ساعت پيش [ 1 بازدید ]
newstimes 3 ساعت پيش [ 0 بازدید ]
newstimes 3 ساعت پيش [ 1 بازدید ]
newstimes 3 ساعت پيش [ 1 بازدید ]
newstimes 3 ساعت پيش [ 0 بازدید ]
newstimes 3 ساعت پيش [ 1 بازدید ]
newstimes 3 ساعت پيش [ 2 بازدید ]
newstimes 4 ساعت پيش [ 2 بازدید ]
newstimes 4 ساعت پيش [ 1 بازدید ]
newstimes 4 ساعت پيش [ 0 بازدید ]
newstimes 4 ساعت پيش [ 2 بازدید ]
newstimes 5 ساعت پيش [ 1 بازدید ]
newstimes 5 ساعت پيش [ 2 بازدید ]
newstimes 8 ماه پيش [ 20 بازدید ]
newstimes 11 ماه پيش [ 41 بازدید ]
newstimes 1 ماه پيش [ 1 بازدید ]
newstimes 8 ماه پيش [ 24 بازدید ]
newstimes 3 ماه پيش [ 10 بازدید ]
newstimes 11 ماه پيش [ 28 بازدید ]
newstimes 2 ماه پيش [ 9 بازدید ]
newstimes 7 ماه پيش [ 24 بازدید ]
newstimes 2 ماه پيش [ 4 بازدید ]
newstimes 6 ماه پيش [ 13 بازدید ]
newstimes 19 روز پيش [ 2 بازدید ]
newstimes 6 ماه پيش [ 11 بازدید ]
newstimes 17 روز پيش [ 5 بازدید ]
newstimes 11 ماه پيش [ 65 بازدید ]
newstimes 6 ماه پيش [ 12 بازدید ]
newstimes 8 ماه پيش [ 32 بازدید ]
newstimes 10 ماه پيش [ 29 بازدید ]
newstimes 5 ماه پيش [ 19 بازدید ]
newstimes 8 ماه پيش [ 27 بازدید ]
newstimes 2 ماه پيش [ 1 بازدید ]

نظرات و تجربیات شما

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

نظرتان را بیان کنید