Разработчики утверждают, что искусственный интеллект будет готов набрать максимальный балл на одном из самых сложных в мире тестов на знания, получившем название «Последний экзамен человечества» (Humanity’s Last Exam, HLE), уже через несколько месяцев.
HLE был создан технологическими лидерами, чтобы оценить истинный интеллект их систем. Он состоит из 2500 тщательно отобранных вопросов, охватывающих около сотни тем — от ракетной науки и мифологии до физиологии. Каждый вопрос требует понимания как минимум на уровне докторской степени, а достижение результата, близкого к 100 процентам, позволило бы претендовать на звание «универсального эксперта».
Всего два года назад широко разрекламированная система ChatGPT от OpenAI набрала жалкие 3 процента на этом экзамене, а ее конкуренты из Google и Anthropic показали ненамного лучшие результаты. Тогда тест помог усмирить опасения по поводу растущего доминирования ИИ: исследователи заявили, что он доказал наличие «ощутимого разрыва» между большими языковыми моделями и лучшими академическими умами мира.
Но, похоже, казавшийся недостижимым HLE может стать очередной вехой в неостановимом восхождении ИИ. В прошлом месяце Google Gemini набрал впечатляющие 45,9 процента, взлетев с 18,8 процента всего через несколько месяцев после первой попытки. И, по словам Кэлвина Чжана, руководителя исследований в Scale — компании, стоящей за HLE, — полный результат уже на горизонте.
«Мы хотели создать этот академический эталон с закрытыми вопросами, ориентированный на уровень экспертов, который действительно могут решить лишь несколько человек на Земле», — сказал он. «За последние несколько лет мы наблюдаем безумный прогресс в развитии языковых моделей. Это впечатляет, разработчики моделей проделали отличную работу по улучшению их способности к рассуждению».
Кейт Ольшевска, менеджер продукта в Google DeepMind, добавила: «Если бы мы действительно заботились об этом как о единственной цели в жизни, думаю, мы бы достигли ее довольно быстро».
Anthropic — компания, стоящая за системой Claude, — достигла результата в 34,2 процента на HLE и улучшает свои показатели стремительными темпами.
Возвращение ИИ результата в 100 процентов на этом экзамене станет значительным событием, учитывая, что тест, по словам его авторов, «задуман как последний академический эталон с закрытыми вопросами в своем роде». Это означает, что если технология сможет взломать HLE, в будущем ее придется проверять на вопросах, ответы на которые неизвестны ни одному человеку.
Тест был создан исследователями из Scale и Центра безопасности ИИ — некоммерческой организации, — чтобы проверить как широту знаний ИИ, так и глубину его рассуждений. Эксперты из примерно 50 стран прислали 70 000 вопросов для рассмотрения в ответ на глобальный призыв в сентябре 2024 года, предлагавший призовой фонд в 500 000 долларов. Вопросы должны были требовать короткого однозначного ответа и быть сложными для поиска в интернете.
Список был сокращен до 13 000 после того, как вопросы, на которые могла ответить любая существующая модель, были исключены из рассмотрения. Некоторые из 2500 отобранных вопросов впоследствии были удалены или отредактированы на основе отзывов пользователей. Они требуют широкого спектра знаний — от биологии до владения языками, — и большое их количество остается в секрете, чтобы системы не могли извлечь выгоду из публичного обсуждения ответов в интернете.
Успех на HLE вызвал бы в памяти воспоминания о том, как суперкомпьютер IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова в 1997 году, опровергнув прогнозы большинства экспертов. С тех пор был пройден целый ряд важных эталонных тестов для ИИ, включая междисциплинарный Massive Multitask Language Understanding, выпущенный в 2020 году и отставленный после того, как системы стали находить его слишком легким, часто набирая более 90 процентов.
По словам Ольшевски, поскольку ИИ приближается к этапу, когда он может осваивать созданные человеком тесты, выход за пределы существующих границ человеческого знания становится все более важным направлением для разработчиков. Однако, по мнению Чжана, всегда будет место для человеческой специализации: физические области, такие как хирургия, а также основанные на принятии решений навыки, включая умение выносить суждения и креативность, даются ИИ сложнее.
Стремительный прогресс больших языковых моделей в решении эталонных тестов ставит перед научным сообществом фундаментальные вопросы о самой природе интеллекта и о том, что значит «понимать» материал. Способность ИИ набирать 45 процентов на экзамене, предназначенном для лучших умов человечества, уже сама по себе является беспрецедентным достижением. Однако многие исследователи отмечают, что высокие результаты в подобных тестах не всегда свидетельствуют о подлинном понимании. Зачастую модели демонстрируют впечатляющие способности к распознаванию паттернов и извлечению информации из огромных массивов данных, на которых они обучались, но испытывают трудности с задачами, требующими настоящего логического вывода в нестандартных ситуациях.
Создатели HLE осознавали эту проблему с самого начала, поэтому процесс отбора вопросов был намеренно построен так, чтобы исключить задачи, которые можно решить простым поиском в интернете или стандартными рассуждениями. Требование однозначного, короткого ответа также призвано исключить возможность «размытых» формулировок, которые могли бы маскировать пробелы в понимании. Однако по мере того, как модели приближаются к 100-процентному порогу, возникает неизбежный вопрос: что будет дальше?
Следующим логическим шагом, который уже обсуждается в академических кругах и исследовательских лабораториях, является переход к принципиально иному типу проверки. Если ИИ сможет отвечать на любые вопросы, на которые уже есть ответы у человечества, то единственным способом измерить его истинный интеллект станет способность находить ответы на вопросы, которые человечество еще не сформулировало или не может решить. Это смещает фокус с «знания» на «открытие» — свойство, которое долгое время считалось исключительно человеческим.
Не менее важным является и этическое измерение этого прогресса. Создание ИИ, который может быть признан «универсальным экспертом», неизбежно изменит рынок труда в сферах, связанных с анализом, консультированием и образованием. Если машина способна сдать экзамен, который не может сдать ни один человек, что это означает для нашей системы оценки компетенций, для университетских дипломов и для самого понятия экспертизы? Разработчики, стоящие за HLE, подчеркивают, что их целью было не создание очередного теста для побития рекордов, а установление реалистичного ориентира — момента, когда мы сможем с уверенностью сказать, что ИИ превзошел человеческие возможности в области фактологического знания и рассуждения.
И этот момент, судя по прогнозам, наступит уже в ближайшие месяцы. Останется ли тогда место для «человеческой исключительности» в интеллектуальной сфере, покажет время. Однако одно можно сказать с уверенностью: история о том, как ИИ сдал «Последний экзамен человечества», скорее всего, станет не финалом, а прологом к новой эре, где вопросы будут не проверять наши знания, а расширять их пределы.
Поделитесь в вашей соцсети👇
Ваш комментарий