غزال زیاری: Scale AI متخصص درزمینهٔ تهیه حجم وسیعی از دادههایی که LLM ها در آن آموزش میبینند، با همکاری مرکز ایمنی هوش مصنوعی (CAIS) در ابتکار عملی متفاوت و خاص، طرحی به نام آخرین آزمون انسانیت (Humanity’s Last Exam) را راهاندازی کرده است.
Scale و CAIS جایزهای ۵ هزار دلاری را برای کسانی که ۵۰ سؤال برتر منتخب این آزمون را طراحی کنند، تعیین کردند و دراینباره اعلام نمودند که هدف از این کار، آزمایش این موضوع است که ببینیم که چقدر به سیستمهای هوش مصنوعی در سطح متخصص، با استفاده از بزرگترین و گستردهترین ائتلاف کارشناسان در تاریخ نزدیک هستیم.
اما لزوم انجام این کار چیست؟ در حال حاضر، LLM های پیشرو، آزمایشهای زیادی را درزمینهٔ هوش، ریاضیات و حقوق انجام دادهاند، اما نمیتوان مطمئن بود که اینها تا چه حد معنادار هستند. در بسیاری از مواقع، ممکن است به دلیل وجود حجم عظیمی از دادههایی که با آنها آموزشدیدهاند و همچنین اطلاعات بیپایان موجود در اینترنت، آنها پاسخها را از قبل یاد گرفته باشند.
دادهها برای کل این حوزه، کلیدی و اساسی هستند. این در پس تغییر از محاسبات معمولی به هوش مصنوعی و یا بهعبارتیدیگر از “گفتن” به “نشان دادن” به این ماشینهاست که چهکاری باید انجام دهند. این امر مستلزم مجموعه دادههای آموزشی خوب و همچنین آزمایشهای مناسبی است. توسعهدهندگان معمولاً این کار را با استفاده از دادههایی به نام “مجموعه دادههای آزمایشی” انجام میدهند که قبلاً برای آموزش مورداستفاده قرار نگرفته بودند.
اگر LLM ها در حال حاضر نمیتوانند از قبل، پاسخ تستهای تعیینشدهای مثل آزمونهای وکالت را بیاموزند، اما احتمالاً بهزودی این کار را خواهند کرد. سایت تجزیهوتحلیل هوش مصنوعی Epoch تخمین زده که در سال ۲۰۲۸ هوشمصنوعی به شکل مؤثری هر آنچه تا امروز توسط انسان نوشتهشده را خواهد خواند؛ اما چالش مهم این است که چگونه میتوان پسازاین مرحله، به ارزیابی هوشمصنوعی ادامه داد.
از آنجاکه اینترنت همیشه در حال گسترش است و روزانه میلیونها آیتم جدید اضافه میشود، حالا سؤال مطرحشده اینجاست که آیا این موضوع، میتواند این مشکلات را برطرف کند؟
همین ماجرا منجر به مشکل موذی دیگری به نام “فروپاشی مدل” شده است؛ از آنجاکه اینترنت مرتباً با دیتاهای تولیدی توسط هوشمصنوعی پر میشود، همین ممکن است باعث عملکرد ضعیف هوشمصنوعی گردد و برای غلبه بر این مشکل، در حال حاضر بسیاری از توسعهدهندگان، مشغول جمعآوری دادهها از تعاملات انسانی هوشمصنوعی و افزودن دادههای تازه برای آموزش و آزمایش هستند.
برخی از متخصصان استدلال میکنند که هوش مصنوعی هم باید تجسم شود: به معنی حرکت در دنیای واقعی و کسب تجربه، دقیقاً همان کاری که انسانها انجامش میدهند. این شاید دور از ذهن به نظر برسد؛ اما باید بدانید که تسلا سالهاست این کار را با خودروهایش انجام داده است. مورد دیگر، ابزارهای پوشیدنی انسانی مثل عینک هوشمند متا و Ray-Ban است که به دوربین و میکروفون مجهز شده و میتوان از آنها برای جمعآوری مقادیر زیادی از دادههای صوتی و تصویری انسانمحور استفاده کرد.
تستهای ظریف
حتی اگر چنین محصولاتی، دادههای آموزشی کافی در آینده را تضمین کنند، هنوز معمای چگونگی تعریف و اندازهگیری هوش، بهویژه هوش مصنوعی عمومی (AGI) یعنی هوش مصنوعی که برابر یا فراتر از هوش انسان است، پابرجاست.
تستهای سنتی IQ انسان، مدتهاست که به دلیل ناکامی در درک ماهیت چندوجهی هوش (که شامل همهچیز از زبان و ریاضیات گرفته تا همدلی میشود)، بحثبرانگیز بوده است.
مشکل مشابهی هم در آزمایشهای مورداستفاده در هوش مصنوعی وجود دارد. تستهای ثابت زیادی وجود دارد که وظایفی مثل خلاصه کردن متن، درک آن، استنتاج صحیح از اطلاعات، تشخیص ژستهای انسان و بینایی ماشین را پوشش میدهند.
هوش های مصنوعی تخصصی
برخی از آزمایشها معمولاً به این دلیل که هوش مصنوعی در آنها بسیار خوب عمل میکند، کنار گذاشته میشوند؛ اما آنها آنقدر مختص انجام یک کار ویژه طراحیشدهاند که معیارهای بسیار محدودی از هوش را ارائه میدهند؛ مثلاً شطرنجباز هوش مصنوعی Stockfish از مگنوس کارلسن، بهترین شطرنجباز انسانی تاریخ در سیستم رتبهبندی Elo پیشی گرفته است. بااینوجود ولی Stockfish در مسائل دیگری مثل درک زبان، توانایی خاصی ندارد و اشتباه است که تواناییهای شطرنج هوشمصنوعی آن را با هوش گستردهتر ترکیب کنیم.
اما از آنجاکه حالا هوش مصنوعی رفتار هوشمندانهتری نشان میدهد، چالش اینجاست که معیارهای جدیدی برای مقایسه و اندازهگیری پیشرفت آن ایجاد شود. فرانسوا شوله، مهندس فرانسوی گوگل، دراینباره رویکرد جالبی را ارائه داده. او استدلال میکند که هوش واقعی در توانایی انطباق و تعمیم یادگیری به موقعیتهای جدید و نادیده، نهفته است. او در سال ۲۰۱۹، با “جریان انتزاعی و استدلال” (ARC)، وارد عمل شد که درواقع مجموعهای از پازلها در قالب شبکههای بصری سادهای بود که برای آزمایش توانایی هوشمصنوعی در استنتاج و اعمال قوانین انتزاعی طراحیشده بودند.
در معیارهای قبلی، تشخیص بصری اشیاء با آموزش یک هوشمصنوعی روی میلیونها تصویری که هرکدام اطلاعاتی درباره اشیاء موجود داشتند، آزمایش میشد؛ اما این بار به ARC، از قبل حداقل نمونههای ممکن ارائه شد. این هوش مصنوعی میبایست منطق پازل را دریافته و نمیتوانست تمام پاسخهای ممکن را بیاموزد.
گرچه حل آزمایشهای ARC برای انسان آنقدرها سخت نیست، اما برای اولین سیستم هوشمصنوعی که به امتیاز ۸۵ درصد برسد، جایزه ۶۰۰ هزار دلاری تعیین شد که در حال حاضر، با آن نقطه فاصله زیادی داریم. دو LLM پیشرو اخیر، یعنی پیشنمایش o۱ OpenAI و Sonnet ۳.۵ Anthropic، هر دو امتیاز ۲۱% را در جدول امتیازات عمومی ARC کسب کردند.
سیستم OpenAI’s GPT-۴o امتیاز ۵۰٪ را به دست آورد که البته تا حدودی بحثبرانگیز بود؛ چرا که این رویکرد هزاران راهحل ممکن را قبل از انتخاب راهحلی که بهترین پاسخ را برای آزمایش میداد ایجاد کرد که حتی این هم با امتیاز تعیینشده برای جایزه یا با عملکرد انسانی (بیش از ۹۰ درصد)، فاصله زیادی داشت.
در شرایط فعلی، ARC بهعنوان یکی از معتبرترین تلاشها برای آزمایش هوشواقعی در هوشمصنوعی به شمار میرود ولی ابتکار Scale/CAIS نشان میدهد که جستجو برای معرفی جایگزینهای قانعکننده ادامه دارد.
ما باید بدانیم که ماشینها چه زمانی با تمام سؤالات ایمنی و اخلاقیای که این موضوع ایجاد میکند، به استدلال در سطح انسانی نزدیک میشوند. در آن مرحله، احتمالاً با یک سؤال امتحانی حتی سختتر مواجه خواهیم شد: چگونه برای یک هوش فوقالعاده آزمایش طراحی کنیم. این کار خیلی سختی خواهد بود که باید آن را کشف کنیم.
منبع: theconversation
۵۸۳۲۱