Недавно представленная нейронная сеть DALL-E 2 уже успела впечатлить программистов и обычных людей по всему миру: она генерирует изображения очень высокого качества по любому текстовому запросу, даже если указаны несуществующие в реальности вещи. Однако у него есть ограничение: нейросеть не умеет работать с текстом, поэтому при вводе запроса на генерацию диалога или реплики вместо слов рисует тарабарщину. Однако исследователи обнаружили, что это вовсе не бессмысленный набор букв, как казалось раньше, — это полноценный язык, который понимает DALL-E 2.
Например, на запрос «Два фермера говорят об овощах, с субтитрами» нейросеть формирует следующую картинку:
Если вы возьмете текст с этого изображения («Vicootes») и введете его как запрос на создание нового изображения, DALL-E 2 сгенерирует изображения овощей:
Это не случайно: например, при генерации изображений на запрос «Два кита говорят о еде, с субтитрами» нейросеть генерирует совсем другую фразу — если ввести их как запрос, будут созданы изображения с морепродуктами.
Кроме того, DALL-E 2 понимает комбинированные запросы с английского и ее родного языка. Например, исследователи обнаружили, что «Apoploe vesrreaitais» — это птицы, а «Contarra ccetnxniams luryca tanniounons» — насекомые. На запрос «Apoploe vesrreaitais, поедающий Contarra ccetnxniams luryca tanniounons» нейросеть создала изображения птиц, поедающих насекомых.