Нейросеть DALL-E рисует ЛЮБУЮ картинку из текста за секунду. Пишешь «кожаное кресло в виде авокадо» и видишь его

Рустам Багримов avatar | 9
FavoriteLoading В закладки
Нейросеть DALL-E рисует ЛЮБУЮ картинку из текста за секунду. Пишешь «кожаное кресло в виде авокадо» и видишь его

Искусственный интеллект все ближе. Одни ждут его с надеждой на избавление от тяжелого монотонного труда, а другие в страхе перед «восстанием машин». Пока никто не может сказать, каким именно он будет и чего позволит достичь.

Машина способна освободить людей от рутинной работы, но никогда не заменит их там, где нужно мыслить нестандартно, творчески. И уж тем более не сможет писать картины, музыку или стихи. Но текущие тенденции в развитии нейросетей опережают даже самые смелые ожидания.

DALL-E является уникальной нейросетью, которая переводит текстовое описание в картинки. То есть, ей можно написать всё, что угодно, вроде «перламутровый стул в форме авокадо», или «копибара в кожаной куртке играет на гитаре». А через несколько секунд система сгенерирует изображение, максимально точно подходящее под написанный вами текст.

Но, прежде чем узнать, как электронный разум может вытворять такие штуки, давайте разберемся в истории нейросетей и что это вообще такое:

Что такое «нейросеть»


Зачастую нейросеть иллюстрируют именно так. И в этом есть доля правды, ведь данные передаются от одного нейрона к другому по цепочке.

Если не углубляться в математические дебри, нейросеть – это система связанных между собой простых элементов, которые называются искусственные нейроны.

Каждый нейрон преобразует несколько входных фактов в один выходной. К примеру:

1. Есть два факта, один из которых важнее второго.
2. Нейрон получает эти два факта, сравнивает и в случае приоритетности одного выдаёт определённый результат.
3. Этот результат, в свою очередь, является одним из входных данных для следующего нейрона.

Такой процесс происходит до выдачи окончательного результата обработки данных на выходе системы. Конкретная структура нейросети и ее возможности определяются количеством этих элементов и характером связей между ними.


Наглядная схема обучения нейросети. Взято отсюда.

Сами по себе эти элементы довольно просты, но объединяясь в большие массивы, они способны выполнять достаточно сложные задачи. Именно поэтому нейросети получили такое распространение лишь в последнее время. Раньше для них просто не хватало вычислительной мощности.

Главная особенность нейронных сетей заключается в возможности обучения. По известному набору входных и соответствующих им выходных данных настраиваются параметры – коэффициенты связей между нейронами.

В процессе сеть может определять зависимости между этими данными, а также обобщать их. Поэтому по завершении обучения нейросеть сможет выдавать новые верные результаты для входных данных, которых не было в обучающем наборе, в том числе неполных и искаженных.


Работа нейросети похожа на работу мозга, когда человек приходит к определённому выводу на основании полученной извне информации.

Области применения нейросетей

▪️ анализ информации: на основании введённых данных, система автоматически строит определённые выводы
▪️ прогнозирование: например, погоды или биржевых котировок
▪️ принятие решений: управление техническими системами или финансовые задачи типа одобрения заявки на кредит исходя из данных о клиенте
▪️ распознавание образов: от узнающих хозяина домашних гаджетов до анализирующих изображения с городских камер полицейских систем

Именно развитие нейросетей, как многие считают, позволит решить задачу создания искусственного интеллекта – машины, способной мыслить самостоятельно, а не по заданной программе. И не только обрабатывать имеющиеся данные, но и создавать нечто новое.

Как вы увидите ниже, вполне возможно, что мы от этого уже не так далеки.

Развитие нейросетей

В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.

Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.

В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.

Но кто сказал, что нейросети могут работать только с текстовой информацией?

Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.


Пример работы нейросети Image GPT.

Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.

Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.

Эту нейросеть назвали DALL-E.

Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»

В чем фишка DALL-E?

В текущем состоянии эта нейросеть создает изображения по текстовому описанию. И глядя на примеры работы, просто невозможно осознать, насколько это фундаментальная, сложная, и поразительная задача.

Сеть была названа в честь Сальвадора Дали и робота Валл-И из знаменитого мультика Pixar. Это версия GPT-3 с 12 миллиардами параметров, обученная создавать изображения по текстовым описаниям на основе базы данных сочетаний изображений и текстов.

DALL-E получила кучу возможностей: она может визуально представлять текст, создавать антропоморфные версии животных и предметов, обоснованно связывать не имеющие друг к другу отношения предметы, а также трансформировать уже существующие изображения.


Пример работы DALL-E. Запрос – создание неоновой вывески с надписью SkyNet.

Конечно, результаты не идеальны. На картинке выше можно заметить, что на одной картинке вместо SkyNet написано SKJNET.

Но просто взгляните и задумайтесь – самые разнообразные вывески, витрины, двумерные и трехмерные, в разных ракурсах и все достаточно вменяемо выглядит. Поразительно.

Помимо вывесок можно создавать автомобильные номера, пакеты чипсов, сумки, и многое другое – на сайте OpenAI вы легко можете попробовать это сами.

Что еще умеет DALL-E?

Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.

Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.

Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:


Текстовый запрос: капибара на закате.


Текстовый запрос: капибара ночью


Текстовый запрос: капибара в кожаной куртке играет на гитаре

Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.

Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.

Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.

Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.

Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.


Гостиная с картиной, на которой изображен Сиднейский оперный театр


Текстовый запрос: кожаное кресло в виде пончика


Текстовый запрос: манекен в джинсах и красном поло

Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.

Будущее рядом?

Выражаясь языком романа Виктора Пелевина «Generation ‘П’», мы уже вплотную подошли к моменту, когда нейросеть может стать если не творцом, то уж точно криэйтором. Картинки по тексту – лишь один из первых шагов и одно из направлений.

Например, Facebook использует похожие технологии для создания по данным профилей людей в соцсети их виртуальных аватаров. Почти Джонни Сильверхэнд. Так что вполне возможно, что «то самое будущее» наступит совсем скоро. А вы как думаете? На что будут способны нейросети?

1 Звезд2 Звезды3 Звезды4 Звезды5 Звезд (22 голосов, общий рейтинг: 4.64 из 5)
🤓 Хочешь больше? Подпишись на наш Telegram.
... и не забывай читать наш Facebook и Twitter 🍒
FavoriteLoading В закладки
undefined
iPhones.ru
На шаг ближе к искусственному интеллекту
Прокомментировать

🙈 Комментарии 9

  1. Andrew avatar
    Andrew2 февраля в 13:52
    11

    Ну и где можно попробовать самому? По линку в статье это сделать нельзя, можно только на примеры картинок посмотреть

    No Name avatar
    No Name2 февраля в 15:20
    1

    @Andrew, к Артемию Лебедеву. 😊

    Джон Фёдор и прочее получите 😊

    Рустам Багримов avatar
    Рустам Багримов4 февраля в 2:19
    0

    @Andrew, если кликнуть на текст над примером картинок, откроется страничка, где этот пример можно редактировать.

  2. Pavel Volobuev avatar
    Pavel Volobuev2 февраля в 15:20
    14

    Пробовать самому нельзя, расходимся.

    Рустам Багримов avatar
    Рустам Багримов4 февраля в 2:20
    0

    @Pavel Volobuev, иногда нейросеть даже превосходит людей…

  3. potatoonair avatar
    potatoonair2 февраля в 18:45
    0

    Артемийка, спасибо тебе! Такое чудо !😁

  4. Shniperson avatar
    Shniperson2 февраля в 19:05
    0

    Ну что, обкатаем возможности этого вычислительного чуда фразой из классики Лукьяненко “Сороктысячобезьянвжопусунулибанан” ?

    ProtcessusVitelius avatar
    ProtcessusVitelius2 февраля в 19:36
    0

    @Shniperson, не обкатаем пока, сетка на уровне дистрибутива линукс образца 2000-го года, чисто для фриков

    Рустам Багримов avatar
    Рустам Багримов4 февраля в 2:20
    0

    @Shniperson, там пока только из фиксированного набора фразы выбирать можно и на английском :(

Вы должны авторизоваться или зарегистрироваться для комментирования.

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.

Как установить аватар в комментариях?

Ответ вот здесь