Нейросеть DALL-E рисует ЛЮБУЮ картинку из текста за секунду. Пишешь «кожаное кресло в виде авокадо» и видишь его

Рустам Багримов avatar | 9
FavoriteLoading В закладки
Нейросеть DALL-E рисует ЛЮБУЮ картинку из текста за секунду. Пишешь «кожаное кресло в виде авокадо» и видишь его

Искусственный интеллект все ближе. Одни ждут его с надеждой на избавление от тяжелого монотонного труда, а другие в страхе перед «восстанием машин». Пока никто не может сказать, каким именно он будет и чего позволит достичь.

Машина способна освободить людей от рутинной работы, но никогда не заменит их там, где нужно мыслить нестандартно, творчески. И уж тем более не сможет писать картины, музыку или стихи. Но текущие тенденции в развитии нейросетей опережают даже самые смелые ожидания.

DALL-E является уникальной нейросетью, которая переводит текстовое описание в картинки. То есть, ей можно написать всё, что угодно, вроде «перламутровый стул в форме авокадо», или «копибара в кожаной куртке играет на гитаре». А через несколько секунд система сгенерирует изображение, максимально точно подходящее под написанный вами текст.

Но, прежде чем узнать, как электронный разум может вытворять такие штуки, давайте разберемся в истории нейросетей и что это вообще такое:

Что такое «нейросеть»


Зачастую нейросеть иллюстрируют именно так. И в этом есть доля правды, ведь данные передаются от одного нейрона к другому по цепочке.

Если не углубляться в математические дебри, нейросеть – это система связанных между собой простых элементов, которые называются искусственные нейроны.

Каждый нейрон преобразует несколько входных фактов в один выходной. К примеру:

1. Есть два факта, один из которых важнее второго.
2. Нейрон получает эти два факта, сравнивает и в случае приоритетности одного выдаёт определённый результат.
3. Этот результат, в свою очередь, является одним из входных данных для следующего нейрона.

Такой процесс происходит до выдачи окончательного результата обработки данных на выходе системы. Конкретная структура нейросети и ее возможности определяются количеством этих элементов и характером связей между ними.


Наглядная схема обучения нейросети. Взято отсюда.

Сами по себе эти элементы довольно просты, но объединяясь в большие массивы, они способны выполнять достаточно сложные задачи. Именно поэтому нейросети получили такое распространение лишь в последнее время. Раньше для них просто не хватало вычислительной мощности.

Главная особенность нейронных сетей заключается в возможности обучения. По известному набору входных и соответствующих им выходных данных настраиваются параметры – коэффициенты связей между нейронами.

В процессе сеть может определять зависимости между этими данными, а также обобщать их. Поэтому по завершении обучения нейросеть сможет выдавать новые верные результаты для входных данных, которых не было в обучающем наборе, в том числе неполных и искаженных.


Работа нейросети похожа на работу мозга, когда человек приходит к определённому выводу на основании полученной извне информации.

Области применения нейросетей

▪️ анализ информации: на основании введённых данных, система автоматически строит определённые выводы
▪️ прогнозирование: например, погоды или биржевых котировок
▪️ принятие решений: управление техническими системами или финансовые задачи типа одобрения заявки на кредит исходя из данных о клиенте
▪️ распознавание образов: от узнающих хозяина домашних гаджетов до анализирующих изображения с городских камер полицейских систем

Именно развитие нейросетей, как многие считают, позволит решить задачу создания искусственного интеллекта – машины, способной мыслить самостоятельно, а не по заданной программе. И не только обрабатывать имеющиеся данные, но и создавать нечто новое.

Как вы увидите ниже, вполне возможно, что мы от этого уже не так далеки.

Развитие нейросетей

В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.

Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.

В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.

Но кто сказал, что нейросети могут работать только с текстовой информацией?

Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.


Пример работы нейросети Image GPT.

Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.

Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.

Эту нейросеть назвали DALL-E.

Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»

В чем фишка DALL-E?

В текущем состоянии эта нейросеть создает изображения по текстовому описанию. И глядя на примеры работы, просто невозможно осознать, насколько это фундаментальная, сложная, и поразительная задача.

Сеть была названа в честь Сальвадора Дали и робота Валл-И из знаменитого мультика Pixar. Это версия GPT-3 с 12 миллиардами параметров, обученная создавать изображения по текстовым описаниям на основе базы данных сочетаний изображений и текстов.

DALL-E получила кучу возможностей: она может визуально представлять текст, создавать антропоморфные версии животных и предметов, обоснованно связывать не имеющие друг к другу отношения предметы, а также трансформировать уже существующие изображения.


Пример работы DALL-E. Запрос – создание неоновой вывески с надписью SkyNet.

Конечно, результаты не идеальны. На картинке выше можно заметить, что на одной картинке вместо SkyNet написано SKJNET.

Но просто взгляните и задумайтесь – самые разнообразные вывески, витрины, двумерные и трехмерные, в разных ракурсах и все достаточно вменяемо выглядит. Поразительно.

Помимо вывесок можно создавать автомобильные номера, пакеты чипсов, сумки, и многое другое – на сайте OpenAI вы легко можете попробовать это сами.

Что еще умеет DALL-E?

Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.

Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.

Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:


Текстовый запрос: капибара на закате.


Текстовый запрос: капибара ночью


Текстовый запрос: капибара в кожаной куртке играет на гитаре

Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.

Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.

Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.

Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.

Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.


Гостиная с картиной, на которой изображен Сиднейский оперный театр


Текстовый запрос: кожаное кресло в виде пончика


Текстовый запрос: манекен в джинсах и красном поло

Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.

Будущее рядом?

Выражаясь языком романа Виктора Пелевина «Generation ‘П’», мы уже вплотную подошли к моменту, когда нейросеть может стать если не творцом, то уж точно криэйтором. Картинки по тексту – лишь один из первых шагов и одно из направлений.

Например, Facebook использует похожие технологии для создания по данным профилей людей в соцсети их виртуальных аватаров. Почти Джонни Сильверхэнд. Так что вполне возможно, что «то самое будущее» наступит совсем скоро. А вы как думаете? На что будут способны нейросети?

1 Звезд2 Звезды3 Звезды4 Звезды5 Звезд (25 голосов, общий рейтинг: 4.60 из 5)
🤓 Хочешь больше? Подпишись на наш Telegram.
FavoriteLoading В закладки
undefined
iPhones.ru
На шаг ближе к искусственному интеллекту
Прокомментировать

🙈 Комментарии 9

  1. Andrew avatar
    Andrew2 февраля 2021
    11

    Ну и где можно попробовать самому? По линку в статье это сделать нельзя, можно только на примеры картинок посмотреть

    No Name avatar
    No Name2 февраля 2021
    1

    @Andrew, к Артемию Лебедеву. 😊

    Джон Фёдор и прочее получите 😊

    Рустам Багримов avatar
    Рустам Багримов4 февраля 2021
    0

    @Andrew, если кликнуть на текст над примером картинок, откроется страничка, где этот пример можно редактировать.

  2. Pavel Volobuev avatar
    Pavel Volobuev2 февраля 2021
    14

    Пробовать самому нельзя, расходимся.

    Рустам Багримов avatar
    Рустам Багримов4 февраля 2021
    0

    @Pavel Volobuev, иногда нейросеть даже превосходит людей…

  3. potatoonair avatar
    potatoonair2 февраля 2021
    0

    Артемийка, спасибо тебе! Такое чудо !😁

  4. Shniperson avatar
    Shniperson2 февраля 2021
    0

    Ну что, обкатаем возможности этого вычислительного чуда фразой из классики Лукьяненко “Сороктысячобезьянвжопусунулибанан” ?

    ProtcessusVitelius avatar
    ProtcessusVitelius2 февраля 2021
    0

    @Shniperson, не обкатаем пока, сетка на уровне дистрибутива линукс образца 2000-го года, чисто для фриков

    Рустам Багримов avatar
    Рустам Багримов4 февраля 2021
    0

    @Shniperson, там пока только из фиксированного набора фразы выбирать можно и на английском :(

Вы должны авторизоваться или зарегистрироваться для комментирования.

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.

Как установить аватар в комментариях?

Ответ вот здесь