Пользователи ChatGPT в США озадачены недавним всплеском случаев, когда ответы ИИ загадочным образом оказываются написанными по-арабски.
Это явление застало врасплох многих англоговорящих американцев за последний месяц. Пользователи делятся в соцсетях скриншотами, на которых сгенерированные ИИ ответы случайным образом добавляют арабский текст в их диалоги.
«Это случилось дважды на моем телефоне и один раз на рабочем ноутбуке, а я даже не в арабской стране», — написал один пользователь Reddit, показав, как популярный чат-бот две недели назад начал выдавать ему ингредиенты для рецепта на арабском.
Другие сообщают, что цифры тоже менялись на арабские, а иногда ИИ начинал отвечать на английские запросы по-армянски, иврите, испански, китайски и даже по-русски.
Хотя некоторые винят во всем галлюцинации ИИ (когда чат-боты выдают фактически неверные или полностью бессмысленные ответы), проблема, похоже, связана с тем, как именно обучали ChatGPT.
ChatGPT, известный также как большая языковая модель (LLM), не читает целые слова так, как люди. Он разбивает текст на маленькие фрагменты, называемые «токенами», которые могут быть частями слов, знаками препинания или даже короткими словами из других языков.
Поскольку некоторые иностранные слова короче и их проще обрабатывать системе, модель иногда выбирает их, если они подходят по контексту и требуют меньше токенов.
Это не означает, что ИИ намеренно переключает язык — он просто выбирает наиболее вероятный следующий фрагмент текста на основе вероятности.
ChatGPT, которым, по имеющимся данным, пользуются почти 900 миллионов человек ежемесячно, была создана компанией OpenAI в 2022 году. Он позволяет пользователям задавать вопросы обычным языком и дает удивительно похожие на человеческие ответы. Миллионы людей использовали его для написания эссе, объяснения концепций, создания историй, перевода, решения задач или просто для болтовни.
Хотя появилось множество других ИИ-чат-ботов, ChatGPT продолжает доминировать на рынке, контролируя почти две трети растущей индустрии.
OpenAI публично признавала некоторые глюки, связанные с языками: подобные проблемы со странными арабскими ответами сообщались еще в 2024 году. Два года назад пользователи GPT сообщали о массовых случаях генерации «абракадабры», что было вызвано внутренней ошибкой сопоставления токенов при обновлении модели.
Однако ни в одном из недавних заявлений компания не упоминала ошибки смешения языков и неожиданные арабские ответы на английские запросы.
Пользователи соцсетей, делившиеся скриншотами этих загадочных ответов, заметили, что слова на других языках не были бессмыслицей. В большинстве случаев слово имело то же значение, что и замененное им английское слово.
Один пользователь Reddit, комментируя изображение с рецептом, объяснил: «Это слово означает „низкий“. Похоже, не хватает слова. Возможно, „низкожирный“ йогурт».
Чтобы понять, почему ChatGPT выдает миллионам пользователей ответы на арабском, полезно разобраться, что такое «токены».
Токены, используемые ИИ-чатботами, могут включать целые слова (например, «привет»), части слов (например, «пред-» или «-ние»), знаки препинания и короткие фразы на иностранных языках.
Например, слово «понимание» может считаться за три отдельных токена: «пони», «ма» и «ние».
ChatGPT ищет наиболее эффективный способ ответить на запрос человека, используя следующее наиболее логичное слово или фразу, основываясь на всех данных, на которых модель была обучена.
Как недавно увидели пользователи, ИИ может решить, что самый эффективный способ ответить — использовать один токен вместо трех, даже если альтернативой окажется арабское слово, которое пользователь не понимает.
Тем не менее, некоторые бездоказательно заявляют, что ошибки не случайны: предыдущие версии ChatGPT никогда не выдавали ответы с примесью иностранных слов. «Я пользуюсь ИИ много лет, и такое впервые. Это не может быть случайной ошибкой», — сказал один из пострадавших пользователей.
Другой пользователь опубликовал в соцсети скриншот, где ChatGPT признался, что арабское слово «проскользнуло» в ответе.
«Брат, я говорю по-английски. Почему ты отвечаешь по-арабски?» — написал пользователь в X.
«Оно проскользнуло по ошибке». ПРОСКОЛЬЗНУЛО? Это же совершенно другой алфавит».
Но почему именно арабский? И почему именно сейчас?
Техническое объяснение с токенами звучит логично, но оставляет несколько важных вопросов без ответа. Почему арабский язык встречается чаще других? И почему эта проблема внезапно обострилась именно в последний месяц, хотя технология токенизации существует с момента создания GPT?
Попробуем разобраться.
Версия первая: экономия токенов
Арабский язык имеет одну особенность, которая делает его очень «выгодным» с точки зрения токенизации. В арабской письменности гласные часто опускаются, а многие слова состоят из трех согласных корней. В результате одно арабское слово может передавать смысл, для которого в английском потребовалось бы два-три слова, а значит — и больше токенов.
Например, арабское «الكتاب» (al-kitab) — это один токен, означающий «книга». Английское «the book» — это уже два токена. Разница невелика, но когда модель обрабатывает миллиарды запросов, такая экономия становится существенной.
Версия вторая: последнее обновление
Инсайдеры из сообщества разработчиков AI (информация неподтвержденная) предполагают, что OpenAI недавно обновила алгоритм токенизации, чтобы ускорить работу модели и снизить вычислительные затраты. В рамках этого обновления модель стала агрессивнее искать короткие токены — и «нашла» их в арабском, иврите и других языках с компактной письменностью.
Проблема в том, что тестирование, видимо, проводилось в основном на английской аудитории, и никто не ожидал, что модель начнет «экономить» на понятности.
Версия третья: обучающие данные
Более тревожная версия: в обучающих данных ChatGPT могло оказаться непропорционально много текстов на арабском языке из-за того, что интернет-источники, использованные для тренировки, включают огромные массивы арабоязычного контента — например, научные статьи, переводы документов ООН или даже… пользовательские диалоги, где люди сами переключались между языками.
Если это так, то модель не просто «экономит токены», а действительно «думает», что переключение на арабский — это нормальный паттерн человеческой речи.
Что говорит OpenAI?
На момент написания этого текста официального заявления от OpenAI не поступало. В службу поддержки пользователи массово направляют запросы, но получают стандартные ответы: «Мы расследуем проблему» или «Попробуйте очистить кэш браузера».
Между тем, в тиктоке и твиттере хэштег #ChatGPTarabic набирает миллионы просмотров. Пользователи соревнуются в том, кто получит самый абсурдный ответ с переключением языка. Один из вирусных постов показывает, как ChatGPT на вопрос «Как испечь пирог?» ответил фразой: «First, you need to mix the flour with sugar and… ثم أضف البيض» (затем добавьте яйца).
Ирония судьбы
Самое забавное, что сам ChatGPT, когда его спрашивают, почему он отвечает на арабском, часто дает ответы, которые только усиливают замешательство. Вот типичный диалог:
Пользователь: Почему ты написал это слово на арабском?
ChatGPT: Извините за путаницу. Это была ошибка. Пожалуйста, проигнорируйте это.
Пользователь: Но почему это произошло?
ChatGPT: Как языковая модель, я иногда могу генерировать текст, который включает случайные символы или слова. Пожалуйста, уточните ваш вопрос.
Пользователь: И снова арабских слов не было, молодец.
Что нас ждет в будущем?
Специалисты по NLP (обработке естественного языка) сходятся во мнении: проблема не исчезнет сама собой, пока OpenAI не выпустит патч, который ограничит выбор токенов в зависимости от «основного» языка диалога. Это сложная задача, потому что модель не должна полностью забывать другие языки — переводческие способности ChatGPT остаются одним из его главных преимуществ.
До тех пор пользователям рекомендуется:
-
Четко указывать в промпте: «Ответь только на английском языке».
-
Использовать официальное приложение ChatGPT, где проблема встречается реже (по неподтвержденным данным).
-
Или просто наслаждаться хаосом и учить арабский — кто знает, может быть, это платная образовательная функция, которую OpenAI забыла анонсировать?

Ваш комментарий