فاصله زیاد هوش مصنوعی با کسب نمره کامل در «آزمون نهایی» انسانی

نظر دادن

دانلود PDF

۲۱:۳۷ - ۱۱ فروردين ۱۴۰۵

۹۰۷۰۸۶۱

۲۱:۳۷ - ۱۱ فروردين ۱۴۰۵

۹۰۷۰۸۶۱

نظر دادن

دانلود PDF

باشگاه خبرنگاران جوان علمی پزشکی فناوری

فاصله زیاد هوش مصنوعی با کسب نمره کامل در «آزمون نهایی» انسانی

نظر دادن

دانلود PDF

هوش مصنوعی ماه‌ها تا کسب نمره کامل در «آزمون نهایی» انسانی فاصله دارد.

باشگاه خبرنگاران جوان؛ جواد فراهانی - توسعه‌دهندگان ادعا می‌کنند که تنها در عرض چند ماه، سیستم‌های هوش مصنوعی قادر خواهند بود در یکی از سخت‌ترین آزمون‌های شناختی جهان، که با نام «آزمون نهایی برای بشریت» (HLE) شناخته می‌شود، نمره کامل کسب کنند.

HLE که توسط رهبران فناوری برای سنجش هوش سیستم‌هایشان طراحی شده است، شامل ۲۵۰۰ سوال با دقت انتخاب شده است که تقریباً ۱۰۰ موضوع مختلف، از علوم موشکی و اسطوره‌شناسی گرفته تا فیزیولوژی را پوشش می‌دهد.

هر سوال به سطحی از درک معادل حداقل یک دکترا نیاز دارد و هر کسی که نمره نزدیک به ۱۰۰٪ کسب کند، یک «متخصص در سطح جهانی» محسوب می‌شود.

تنها دو سال پیش، سیستم ChatGPT OpenAI تنها ۳٪ در این آزمون نمره گرفت و سیستم‌های گوگل و آنتروپیک نیز عملکرد بهتری نداشتند. در آن زمان، این نتایج به کاهش ترس از تسلط هوش مصنوعی کمک کرد و شکاف قابل توجهی را بین مدل‌های زبانی بزرگ و دانشگاهیان برتر جهان نشان داد.

اما این آزمون به ظاهر غیرممکن، ممکن است نقطه عطف دیگری در پیشرفت سریع هوش مصنوعی باشد. همین ماه گذشته، سیستم Gemini گوگل امتیاز ۴۵.۹٪ را کسب کرد که نسبت به ۱۸.۸٪ چند ماه پس از تلاش اولیه‌اش، افزایش یافته است.

کالوین چانگ، رئیس تحقیقات Scale (شرکت مسئول این آزمون)، می‌گوید: «ما می‌خواستیم یک آزمون آکادمیک در سطح متخصصان انسانی ایجاد کنیم، آزمونی که تنها تعداد انگشت‌شماری از مردم روی زمین بتوانند آن را حل کنند.» «اما ما در چند سال گذشته شاهد پیشرفت باورنکردنی در مدل‌های زبانی بوده‌ایم و توسعه‌دهندگان در بهبود توانایی‌های استدلال خود کار فوق‌العاده‌ای انجام می‌دهند.»

کیت اولچفسکا، مدیر محصول Google DeepMind، می‌افزاید: «اگر این تنها هدف ما در زندگی باشد، فکر می‌کنم خیلی سریع به آن خواهیم رسید.» Anthropic (سازنده سیستم هوش مصنوعی ابری) به ۳۴.۲٪ دست یافت و به سرعت در حال بهبود نتایج خود است.

دستیابی به امتیاز ۱۰۰٪ در این آزمون، پیشرفت قابل توجهی خواهد بود، زیرا سازندگان آن می‌گویند که این آزمون «به گونه‌ای طراحی شده است که آخرین آزمون آکادمیک بسته از نوع خود باشد». این بدان معناست که اگر هوش مصنوعی بتواند این آزمون را حل کند، در آینده باید آن را با سوالاتی که هیچ انسانی پاسخ آنها را نمی‌داند، آزمایش کنیم.

این آزمون با همکاری مرکز یکپارچگی هوش مصنوعی، یک سازمان غیرانتفاعی، برای سنجش دانش و عمق استدلال هوش مصنوعی ایجاد شد.

در سپتامبر ۲۰۲۴، سازندگان این آزمون یک فراخوان جهانی برای سوالات راه‌اندازی کردند و جایزه‌ای ۵۰۰۰۰۰ دلاری ارائه دادند. متخصصانی از نزدیک به ۵۰ کشور به این فراخوان پاسخ دادند و ۷۰۰۰۰ سوال ارسال کردند و تصریح کردند که پاسخ‌ها کوتاه، واضح و به راحتی آنلاین در دسترس نباشند.

سوالاتی که مدل‌های هوش مصنوعی موجود می‌توانستند به آنها پاسخ دهند، حذف شدند و لیست به ۱۳۰۰۰ سوال کاهش یافت. سپس ۲۵۰۰ سوال نهایی انتخاب شد و بعداً بر اساس بازخورد کاربران، برخی تنظیمات انجام شد. بسیاری از این سوالات محرمانه باقی می‌مانند تا از سوءاستفاده سیستم‌ها از پاسخ‌های منتشر شده در اینترنت جلوگیری شود.

موفقیت در این آزمون یادآور شکست گری کاسپاروف، قهرمان شطرنج جهان توسط ابررایانه دیپ بلو شرکت IBM در سال ۱۹۹۷ است، شاهکاری که اکثر متخصصان را شگفت‌زده کرد. از آن زمان، چندین آزمون بزرگ هوش مصنوعی نادیده گرفته شده‌اند، مانند آزمون درک زبان چندوظیفگی گسترده (MMLU) در سال ۲۰۲۰ که بعداً پس از آسان شدن بیش از حد برای سیستم‌ها و کسب امتیاز بیش از ۹۰٪، متوقف شد.

اولشوزسکا می‌افزاید که با نزدیک شدن هوش مصنوعی به سطح مهارت انسان در آزمایش، تمرکز اصلی توسعه‌دهندگان به گسترش مرز‌های دانش فعلی بشر تبدیل شده است. با این حال، ژانگ استدلال می‌کند که همیشه جایی برای تخصص انسانی وجود خواهد داشت، زیرا هوش مصنوعی برای تسلط بر حوزه‌های عملی مانند جراحی و همچنین مهارت‌های تصمیم‌گیری مانند قضاوت صحیح و خلاقیت تلاش می‌کند.

منبع: دیلی میل