باشگاه خبرنگاران جوان؛ جواد فراهانی - توسعهدهندگان ادعا میکنند که تنها در عرض چند ماه، سیستمهای هوش مصنوعی قادر خواهند بود در یکی از سختترین آزمونهای شناختی جهان، که با نام «آزمون نهایی برای بشریت» (HLE) شناخته میشود، نمره کامل کسب کنند.
HLE که توسط رهبران فناوری برای سنجش هوش سیستمهایشان طراحی شده است، شامل ۲۵۰۰ سوال با دقت انتخاب شده است که تقریباً ۱۰۰ موضوع مختلف، از علوم موشکی و اسطورهشناسی گرفته تا فیزیولوژی را پوشش میدهد.
هر سوال به سطحی از درک معادل حداقل یک دکترا نیاز دارد و هر کسی که نمره نزدیک به ۱۰۰٪ کسب کند، یک «متخصص در سطح جهانی» محسوب میشود.
تنها دو سال پیش، سیستم ChatGPT OpenAI تنها ۳٪ در این آزمون نمره گرفت و سیستمهای گوگل و آنتروپیک نیز عملکرد بهتری نداشتند. در آن زمان، این نتایج به کاهش ترس از تسلط هوش مصنوعی کمک کرد و شکاف قابل توجهی را بین مدلهای زبانی بزرگ و دانشگاهیان برتر جهان نشان داد.
اما این آزمون به ظاهر غیرممکن، ممکن است نقطه عطف دیگری در پیشرفت سریع هوش مصنوعی باشد. همین ماه گذشته، سیستم Gemini گوگل امتیاز ۴۵.۹٪ را کسب کرد که نسبت به ۱۸.۸٪ چند ماه پس از تلاش اولیهاش، افزایش یافته است.
کالوین چانگ، رئیس تحقیقات Scale (شرکت مسئول این آزمون)، میگوید: «ما میخواستیم یک آزمون آکادمیک در سطح متخصصان انسانی ایجاد کنیم، آزمونی که تنها تعداد انگشتشماری از مردم روی زمین بتوانند آن را حل کنند.» «اما ما در چند سال گذشته شاهد پیشرفت باورنکردنی در مدلهای زبانی بودهایم و توسعهدهندگان در بهبود تواناییهای استدلال خود کار فوقالعادهای انجام میدهند.»
کیت اولچفسکا، مدیر محصول Google DeepMind، میافزاید: «اگر این تنها هدف ما در زندگی باشد، فکر میکنم خیلی سریع به آن خواهیم رسید.» Anthropic (سازنده سیستم هوش مصنوعی ابری) به ۳۴.۲٪ دست یافت و به سرعت در حال بهبود نتایج خود است.
دستیابی به امتیاز ۱۰۰٪ در این آزمون، پیشرفت قابل توجهی خواهد بود، زیرا سازندگان آن میگویند که این آزمون «به گونهای طراحی شده است که آخرین آزمون آکادمیک بسته از نوع خود باشد». این بدان معناست که اگر هوش مصنوعی بتواند این آزمون را حل کند، در آینده باید آن را با سوالاتی که هیچ انسانی پاسخ آنها را نمیداند، آزمایش کنیم.
این آزمون با همکاری مرکز یکپارچگی هوش مصنوعی، یک سازمان غیرانتفاعی، برای سنجش دانش و عمق استدلال هوش مصنوعی ایجاد شد.
در سپتامبر ۲۰۲۴، سازندگان این آزمون یک فراخوان جهانی برای سوالات راهاندازی کردند و جایزهای ۵۰۰۰۰۰ دلاری ارائه دادند. متخصصانی از نزدیک به ۵۰ کشور به این فراخوان پاسخ دادند و ۷۰۰۰۰ سوال ارسال کردند و تصریح کردند که پاسخها کوتاه، واضح و به راحتی آنلاین در دسترس نباشند.
سوالاتی که مدلهای هوش مصنوعی موجود میتوانستند به آنها پاسخ دهند، حذف شدند و لیست به ۱۳۰۰۰ سوال کاهش یافت. سپس ۲۵۰۰ سوال نهایی انتخاب شد و بعداً بر اساس بازخورد کاربران، برخی تنظیمات انجام شد. بسیاری از این سوالات محرمانه باقی میمانند تا از سوءاستفاده سیستمها از پاسخهای منتشر شده در اینترنت جلوگیری شود.
موفقیت در این آزمون یادآور شکست گری کاسپاروف، قهرمان شطرنج جهان توسط ابررایانه دیپ بلو شرکت IBM در سال ۱۹۹۷ است، شاهکاری که اکثر متخصصان را شگفتزده کرد. از آن زمان، چندین آزمون بزرگ هوش مصنوعی نادیده گرفته شدهاند، مانند آزمون درک زبان چندوظیفگی گسترده (MMLU) در سال ۲۰۲۰ که بعداً پس از آسان شدن بیش از حد برای سیستمها و کسب امتیاز بیش از ۹۰٪، متوقف شد.
اولشوزسکا میافزاید که با نزدیک شدن هوش مصنوعی به سطح مهارت انسان در آزمایش، تمرکز اصلی توسعهدهندگان به گسترش مرزهای دانش فعلی بشر تبدیل شده است. با این حال، ژانگ استدلال میکند که همیشه جایی برای تخصص انسانی وجود خواهد داشت، زیرا هوش مصنوعی برای تسلط بر حوزههای عملی مانند جراحی و همچنین مهارتهای تصمیمگیری مانند قضاوت صحیح و خلاقیت تلاش میکند.
منبع: دیلی میل