Это новая революция, которая станет важнее iPhone. Скоро вы увидите её сами

Никита Горяинов | 25 октября 2023

Это новая революция, которая станет важнее iPhone. Скоро вы увидите её сами

Думаю, все помнят сумасшедший вихрь новостей и прорывов вокруг искусственного интеллекта и машинного обучения, произошедших в конце 2021 и начале 2022 года. ChatGPT, Midjorney, Stable Diffusion и масса других технологий и сервисов, ранее казавшихся невозможными, ворвались в реальность и стали её неотъемлемой частью.

Однако с начала лета этот хайп как будто бы затих. Новые «нейронки» и необычные примеры сервисов на их основе появляются чуть ли не каждую неделю, но максимум внимания, который они удостаиваются — пара дней упоминаний в СМИ, пачка смешных да удивительных видосов и… как будто на этом всё заканчивается.

Многие с тех пор неоднократно заявляли, в том числе у нас в комментариях, что бум ML-технологий прошёл. Или то, что это было лишь глупым помешательством.

Но на самом деле в крупнейших, а также малоизвестных компаниях по всему миру одновременно готовится новая революция в мире техники. Я считаю, что мы с вами находимся на пороге появления потенциально нового устройства, которого по сей день ни у кого не существовало.

Это персональный, уникальный, переносной ML-ассистент с зачатками настоящего искусственного интеллекта.

Стоп, вообще-то ассистентов полным-полно!

Забудьте на немного то понятие «ассистента», к которому мы привыкли за последние 12 лет. Siri, Google Assistant, Алиса и прочие им подобные — это технологии, выстроенные на основе уже изрядно устаревших понятий об «искусственном интеллекте». Исключив тонкости отдельных сценариев и моделей распознавания намерений и речи, эти «ассистенты» работают ровно так, как их запрограммировали. Вы задаете вопрос, на который кто-то уже продумал и вписал ответ.

Проще говоря, это лишь алгоритмы, которые умеют выполнять задачу только потому, что процесс её выполнения от начала и до конца был кем-то продуман заранее.

Современные технологии распознавания речи и её синтеза, прогресс развития моделей машинного обучения, возможности мобильных процеcсоров и растущая скорость доступа в интернет позволяют в перспективе ближайших пяти лет реализовать персональных ассистентов совершенно нового типа.

Из чего они будут состоять – и чем отличаться от современных?

Вот возможности персонального ассистента ближайшего будущего

◈ Компьютерное зрение. Под ним я подразумеваю обработку и принятие во внимание визуальной информации, а затем контекстуализацию ответов и действий на её основе. Сегодняшние «ассистенты» при формировании ответа могут полагаться лишь на готовые алгоритмы и данные из интернета или датчиков систем IoT. Причём последнее используется исключительно в целях управления «умным домом».

Ассистент, который может видеть пространство, обстановку вокруг, узнавать людей и предметы, по умолчанию будет способен принести намного больше пользы человеку – от рекомендаций по внешнему виду до уместных ответов на медицинские вопросы.

◈ Мультизадачность. Здесь имею в виду способность ассистента ответить сразу на несколько вопросов подряд. Если вы спросите у Siri, какая сейчас погода, она без проблем озвучит вам данные из интернета. Но спросите у неё разом это, своё расписание на день, свежие новости и какое-нибудь мнение по поводу непростого личного вопроса — и получите либо ответ лишь на один вопрос, либо ошибку.

Ассистент образца, скажем, 2025 года сможет не только давать несколько ответов на несколько вопросов подряд, но и держать «в уме» контекст нескольких или вообще всех предыдущих запросов при формировании ответов в дальнейшем.

◈ Свободное общение. В комнате жарко, говорите вы Siri. На это она ответит вам… да ничего не ответит, потому что на такую фразу полезного ответа у неё нет.

Ассистент нового поколения предложил бы включить кондиционер, поддержал бы эмоционально или предложил в ответ другие уместные варианты помощи. Он распознает, что вы на самом деле хотите, даже если не будете соблюдать фиксированную структуру запроса. Более того, он сделает не одно, а сразу несколько действий, если это необходимо.

Вам не придется что-то заранее настраивать, чтобы это случилось — ведь такой ассистент понимает контекст, запрос и цель, даже если те не лежат на поверхности. Почти как живой человек. К слову, это распространится и на его ответы благодаря прогрессу синтеза реалистичной речи.

Чат-боты уже сейчас способны не только воспроизводить «характеры», но и менять их после продолжительного общения с пользователем.

◈ Персонификация. Ассистент сможет иметь уникальный «характер», выражающийся в тональности речи, самих речевых конструкциях, смысловой и практической наполненности ответов. Сегодня ассистенты не имеют ничего, что можно было бы объективно назвать характером. По традиции, заложенной 15 лет назад, они должны быть одинаковыми для всех людей, соблюдать установки и ценности какой-нибудь гигантской суперкорпорации и мягко насаждать её морали владельцу – ведь ассистента настраивают именно они.

Ассистент ближайшего будущего будет развиваться в локализованном виде на отдельно взятом устройстве или аккаунте, что позволит компаниям публично «отпустить», отвязать его ответы от своего бренда, и благодаря этому разрешить моделям машинного обучения и синтеза речи вести себя так, как хочет или заслуживает пользователь.

◈ Персонализация. Постоянно обучаясь на ваших запросах, изучая обстановку и окружение, распорядок дня и массу других данных, ассистент следующего поколения сможет стать действительно вашим, подобно настоящему личному дворецкому или персональному менеджеру.

Огромный объём данных и локализация их обработки наделит его возможностью давать не только актуальные и уместные ответы на запросы, но и предлагать, даже советовать «в кассу» то, до чего любой современный ассистент никогда бы не «додумался». Он будет знать личные границы, ожидания своего владельца, а не только вычислять и предлагать повторить частые действия, заранее запрограммированные в него производителем.

Всё необходимое для ассистентов нового поколения уже существует

Если вышеперечисленные пункты вам кажутся невыполнимыми и нереализуемыми в реальности, то у меня хорошие новости. Абсолютно каждый из них, многие по-отдельности, УЖЕ реализованы сегодня как минимум наполовину – в сотнях различных проектов, продуктов и даже устройств.

Компьютерное зрение в базовом виде встроено в iOS и Android. Оно распознаёт ситуации, предметы и контекст снимка в вашей медиатеке фотографий. Даже у Яндекса в приложении есть режим камеры, которая распознаёт объёкты и ищет их в интернете. Про прогресс распознавания в сфере видеонаблюдения всего на свете даже говорить не вижу смысла, тут Китай впереди планеты всей.

Мультизадачность – решённая проблема для ChatGPT от OpenAI. Он помнит контекст предыдущих запросов, и они соответствующим образом влияют на последующие ответы в рамках одного «чата». Туда же можно отнести пункт про свободное общение. А естественный синтез речи вы видели уже сотню раз на примере роликов с голосами знаменитых людей, а в последнее время – ещё и перевод этой речи на другой язык с сохранением всех голосовых и речевых особенностей отдельно взятой личности.

Персонификацией можно удивить разве что далёкого от интернета человека. Продвинутые чат-боты уже полтора-два года могут реалистично имитировать других людей и даже вымышленных персонажей, сохраняя их особенности характера. А некоторые сервисы, вроде Replika, позволяют таким ботам постепенно подстраиваться под каждого конкретного пользователя, в итоге убедительно имитируя формирование определённого характера.

Персонализация тоже с нами уже много лет. Siri уже сегодня знает, когда вы чаще всего заказываете такси, открываете определённые приложения, проверяете погоду. Еще больше про это знает Google Assistant.

Продолжать можно долго, примеров тысячи, но надеюсь, что вы уже поняли суть. Всё необходимое для рождения нового поколения ассистентов и устройств с ними существует не завтра, а сегодня. Остаётся только превратить это в цельный продукт.

В итоге два главных вопроса: кто будет первым и кто станет лучшим

Брошь-ассистент с ChatGPT от Humane. Пока не анонсирована официально

Множество компаний уже заявили публично о планах создания продукта, в центре которого будет лежать именно такой суперсовременный AI- и ML-ассистент.

Humane делает брошь с проектором, которая завязана на их собственных разработках и способностях ChatGPT. Джони Айв вместе с OpenAI включились в эту гонку, объявив о начале работы над аналогичным продуктом. В Купертино в авральном режиме спешат модернизировать Siri и внедрить зачатки подобной системы в iOS, macOS, сервисы и приложения компании к осени следующего года. Презентация последней версии Android была на 90% посвящена практическим применениям переплетений вышеупомянутых идей и технологий.

Так что теперь мы ждём, кто станет первым, а затем будем смотреть, кто останется лучшим. Удивительно, но всё это поле на данный момент максимально свободное, на нём нет игрока с готовым продуктом – а значит, шансы у всех компаний более-менее равные. Именно тут теперь запланирована следующая настоящая революция в мире технологий, чьё влияние впоследствии может быть смело приравнено к релизу iPhone.

Ждём.