Искусственный интеллект все ближе. Одни ждут его с надеждой на избавление от тяжелого монотонного труда, а другие в страхе перед «восстанием машин». Пока никто не может сказать, каким именно он будет и чего позволит достичь.
Машина способна освободить людей от рутинной работы, но никогда не заменит их там, где нужно мыслить нестандартно, творчески. И уж тем более не сможет писать картины, музыку или стихи. Но текущие тенденции в развитии нейросетей опережают даже самые смелые ожидания.
DALL-E является уникальной нейросетью, которая переводит текстовое описание в картинки. То есть, ей можно написать всё, что угодно, вроде «перламутровый стул в форме авокадо», или «копибара в кожаной куртке играет на гитаре». А через несколько секунд система сгенерирует изображение, максимально точно подходящее под написанный вами текст.
Но, прежде чем узнать, как электронный разум может вытворять такие штуки, давайте разберемся в истории нейросетей и что это вообще такое:
Что такое «нейросеть»
Зачастую нейросеть иллюстрируют именно так. И в этом есть доля правды, ведь данные передаются от одного нейрона к другому по цепочке.
Если не углубляться в математические дебри, нейросеть – это система связанных между собой простых элементов, которые называются искусственные нейроны.
Каждый нейрон преобразует несколько входных фактов в один выходной. К примеру:
1. Есть два факта, один из которых важнее второго.
2. Нейрон получает эти два факта, сравнивает и в случае приоритетности одного выдаёт определённый результат.
3. Этот результат, в свою очередь, является одним из входных данных для следующего нейрона.
Такой процесс происходит до выдачи окончательного результата обработки данных на выходе системы. Конкретная структура нейросети и ее возможности определяются количеством этих элементов и характером связей между ними.
Наглядная схема обучения нейросети. Взято отсюда.
Сами по себе эти элементы довольно просты, но объединяясь в большие массивы, они способны выполнять достаточно сложные задачи. Именно поэтому нейросети получили такое распространение лишь в последнее время. Раньше для них просто не хватало вычислительной мощности.
Главная особенность нейронных сетей заключается в возможности обучения. По известному набору входных и соответствующих им выходных данных настраиваются параметры – коэффициенты связей между нейронами.
В процессе сеть может определять зависимости между этими данными, а также обобщать их. Поэтому по завершении обучения нейросеть сможет выдавать новые верные результаты для входных данных, которых не было в обучающем наборе, в том числе неполных и искаженных.
Работа нейросети похожа на работу мозга, когда человек приходит к определённому выводу на основании полученной извне информации.
Области применения нейросетей
▪️ анализ информации: на основании введённых данных, система автоматически строит определённые выводы
▪️ прогнозирование: например, погоды или биржевых котировок
▪️ принятие решений: управление техническими системами или финансовые задачи типа одобрения заявки на кредит исходя из данных о клиенте
▪️ распознавание образов: от узнающих хозяина домашних гаджетов до анализирующих изображения с городских камер полицейских систем
Именно развитие нейросетей, как многие считают, позволит решить задачу создания искусственного интеллекта – машины, способной мыслить самостоятельно, а не по заданной программе. И не только обрабатывать имеющиеся данные, но и создавать нечто новое.
Как вы увидите ниже, вполне возможно, что мы от этого уже не так далеки.
Развитие нейросетей
В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.
Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.
В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.
Но кто сказал, что нейросети могут работать только с текстовой информацией?
Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.
Пример работы нейросети Image GPT.
Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.
Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.
Эту нейросеть назвали DALL-E.
Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»
В чем фишка DALL-E?
В текущем состоянии эта нейросеть создает изображения по текстовому описанию. И глядя на примеры работы, просто невозможно осознать, насколько это фундаментальная, сложная, и поразительная задача.
Сеть была названа в честь Сальвадора Дали и робота Валл-И из знаменитого мультика Pixar. Это версия GPT-3 с 12 миллиардами параметров, обученная создавать изображения по текстовым описаниям на основе базы данных сочетаний изображений и текстов.
DALL-E получила кучу возможностей: она может визуально представлять текст, создавать антропоморфные версии животных и предметов, обоснованно связывать не имеющие друг к другу отношения предметы, а также трансформировать уже существующие изображения.
Пример работы DALL-E. Запрос – создание неоновой вывески с надписью SkyNet.
Конечно, результаты не идеальны. На картинке выше можно заметить, что на одной картинке вместо SkyNet написано SKJNET.
Но просто взгляните и задумайтесь – самые разнообразные вывески, витрины, двумерные и трехмерные, в разных ракурсах и все достаточно вменяемо выглядит. Поразительно.
Помимо вывесок можно создавать автомобильные номера, пакеты чипсов, сумки, и многое другое – на сайте OpenAI вы легко можете попробовать это сами.
Что еще умеет DALL-E?
Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.
Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.
Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:
Текстовый запрос: капибара на закате.
Текстовый запрос: капибара ночью
Текстовый запрос: капибара в кожаной куртке играет на гитаре
Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.
Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.
Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.
Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.
Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.
Гостиная с картиной, на которой изображен Сиднейский оперный театр
Текстовый запрос: кожаное кресло в виде пончика
Текстовый запрос: манекен в джинсах и красном поло
Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.
Будущее рядом?
Выражаясь языком романа Виктора Пелевина «Generation ‘П’», мы уже вплотную подошли к моменту, когда нейросеть может стать если не творцом, то уж точно криэйтором. Картинки по тексту – лишь один из первых шагов и одно из направлений.
Например, Facebook использует похожие технологии для создания по данным профилей людей в соцсети их виртуальных аватаров. Почти Джонни Сильверхэнд. Так что вполне возможно, что «то самое будущее» наступит совсем скоро. А вы как думаете? На что будут способны нейросети?
9 комментариев
Форум →Ну и где можно попробовать самому? По линку в статье это сделать нельзя, можно только на примеры картинок посмотреть
@Andrew, к Артемию Лебедеву. 😊
Джон Фёдор и прочее получите 😊
@Andrew, если кликнуть на текст над примером картинок, откроется страничка, где этот пример можно редактировать.
Пробовать самому нельзя, расходимся.
@Pavel Volobuev, иногда нейросеть даже превосходит людей…
Артемийка, спасибо тебе! Такое чудо !😁
Ну что, обкатаем возможности этого вычислительного чуда фразой из классики Лукьяненко “Сороктысячобезьянвжопусунулибанан” ?
@Shniperson, не обкатаем пока, сетка на уровне дистрибутива линукс образца 2000-го года, чисто для фриков
@Shniperson, там пока только из фиксированного набора фразы выбирать можно и на английском :(
Нашли орфографическую ошибку в новости?
Выделите ее мышью и нажмите Ctrl+Enter.Как на iPhone открывать окно ввода пароля вместо авторизации Face ID без ожидания
Пропадает интернет на iPhone, что делать?
Почему приложения на iPhone потребляют заряд батареи в фоновом режиме?
Чем отличается адаптер питания Apple мощностью 20 Вт и и адаптер мощностью 18 Вт
Как настроить приоритет сетевых подключений в macOS
Выключаем микрофон Mac во время печати на клавиатуре
Как на Apple Watch включить тактильную передачу времени
Что делать, если разговорный динамик iPhone стал звучать тише