Skip to main content

Пока весь мир поражался способности искусственного интеллекта DALL-E 2 рисовать картинки абсолютно на любую тему, оказалось, что в этом направлении работает не только команда OpenAI, но и подразделение Google Research. Более того, команда разработчиков уже представила свой продукт и результаты своих творческих порывов, которые, судя по всему, оказались даже лучше, чем у потенциального конкурента. Дело в том, что команда Google, отвечающая за экспериментальные проекты, создала очень универсальный текстовый генератор изображений под названием Imagen, который благодаря механизму диффузии способен создавать очень реалистичные полотна.

Главная особенность от прямого конкурента заключается именно в диффузии — изначально при подаче текста генератору он формирует изображение небольшого разрешения, постепенно увеличивая как разрешение, так и детализацию конечного «рисунка». В результате искусственный интеллект умудряется нарисовать, например, собаку на велосипеде настолько реалистично, насколько это возможно. И этот метод оказался более точным по сравнению с генератором изображений, формирующим итоговый кадр сверху вниз — алгоритм часто промахивался, создавая довольно странные полотна.

Теоретически механизм диффузии очень прост — генератор изображений Imagen начинает создавать картинку с небольшого полотна с разрешением 64×64 пикселя. Далее, исходя из технического задания, искусственный интеллект определяет, что для собачьего глаза следует выбрать ширину 3 пикселя — этого, конечно, недостаточно для детального самовыражения, но генератор использует в качестве основы первый холст. Далее, когда холст увеличивается в разрешении, на глаз питомца выделяется уже 12 пикселей, поэтому система берет свои знания, полученные в результате машинного обучения, и дорисовывает определенные детали, заполняя пространство.

DALL-E 2 от Google: ИИ рисует собак на велосипеде и кошек в очках

После этого генератор еще раз увеличивает разрешение полотна (в итоге разрешение изображения будет 1024×1024 пикселя), выделяя 48 пикселов для газа собаки — система переоценивает ситуацию, заполняя пиксели, у которых есть появился с дополнительной информацией, основанной на его базе данных. В результате получаются действительно реалистичные и хорошо проработанные изображения практически любой тематики с участием животных.

Оставить комментарий