Что такое генератор изображений AI и как он работает?

Генераторы изображений ИИ в последнее время вызывают большой интерес, но их может быть сложно понять. Вот все, что вам нужно знать

Поскольку в 2022 году генеративный искусственный интеллект фактически открыл двери для множества невероятных сценариев, после генерации текста новым рубежом стала генерация текста в изображениях и видео. В этой статье мы увидим, как работает генератор изображений AI.

Первым, кто выпустил большую волну, был Dall-E 2, а вскоре за ним последовала Stable Diffusion. С тех пор мы увидели появление и других инструментов, в том числе Midjourney, Craiyon и даже в некоторой степени TikTok. Растут опасения, когда речь идет об инструментах создания изображений на основе искусственного интеллекта, в основном по поводу этики таких инструментов, поскольку они могут генерировать изображения реальных людей в местах или ситуациях, в которых они на самом деле не были.

Однако следует учитывать не только этику. Генераторы изображений ИИ обучены на миллионах и миллионах фотографий и научились идентифицировать объекты по существующим фотографиям, созданным реальными людьми. Когда это становится нарушением авторских прав?

Если ваш ИИ случайно создаст изображение, очень похожее на другой рисунок, и создатель этого изображения поделится им в коммерческих целях, несет ли кто-нибудь ответственность за какой-либо ущерб? Если да, то кто? Кто в данном случае «художник»?

Существует множество причин опасаться генераторов изображений ИИ, и эти проблемы этики и безопасности — это лишь поверхностное понятие. Эти инструменты можно использовать для создания фейковых изображений, которые можно использовать для продвижения чего-то реального.

Лучшие генераторы изображений AI

Учитывая невероятные возможности этих инструментов генерации изображений, страшно подумать, что они смогут делать очень скоро. Однако, если вы хотите создавать красивые изображения и получать от этого удовольствие, в этом использовании нет абсолютно ничего плохого. Вот лучшие доступные инструменты.

Стабильная диффузия

Stable Diffusion послужил источником вдохновения для создания этой статьи и инструментом, с которым я в последнее время много экспериментировал. Он запускается локально на вашем компьютере (поэтому вам не придется бороться за ресурсы с другими пользователями какого-либо онлайн-инструмента) и является одним из самых мощных, которые вы можете использовать в настоящее время.

Он не только позволяет вам точно настраивать массу параметров, но и контролировать весь процесс генерации. Stable Diffusion страдает теми же недостатками, что и AI, с дополнительной «опасностью» доступности, даже если вам нужен достаточно мощный компьютер, чтобы генерировать изображения за несколько десятков минут.

Самое лучшее в Stable Diffusion — это то, что у него полностью открытый исходный код. Если хотите, вы можете реализовать его поддержку в любом из своих проектов уже сегодня, и уже существуют плагины, такие как Alpaca, которые вы можете использовать для интеграции его с Photoshop.

Он еще не идеален, но разработка этих программ все еще находится на очень ранней стадии. Вы можете использовать Студия мечты если хотите, хотя это стоит денег и немного ограничительно по сравнению с локальной установкой. Кроме того, если вы установите Stable Diffusion локально, появятся такие вилки, как Веб-интерфейс Stable Diffusion от AUTOMATIC1111 которые поставляются со встроенным высококлассным инструментом, который может увеличить разрешение до четырех раз.

Хотя можно создавать изображения с более высоким разрешением, зачастую гораздо быстрее создать изображение с более низким разрешением, а затем улучшить его. Обучение Stable Diffusion проводилось на кластере из 4000 графических процессоров Nvidia A100, работающих на AWS, и продолжалось в течение месяца.

Он имеет возможность генерировать изображения знаменитостей, а также имеет встроенный фильтр NSFW. Вы можете отключить этот фильтр NSFW при локальных установках, поскольку он экономит ресурсы за счет уменьшения использования видеопамяти, которая всегда высока.

Что касается значения слова «Диффузия», то это процесс, который начинается с чистого шума и совершенствуется с течением времени. Со временем изображение становится все ближе и ближе к деталям текста, пока шум не исчезнет. По такому же принципу работает Dall-E 2.

Наконец, еще одна интересная функция Stable Diffusion — «img2img». При этом вы даете ему изображение в качестве подсказки, описываете, каким вы хотите, чтобы изображение было, а затем позволяете ему дать вам подходящий рисунок, оставляя полную генерацию на усмотрение интеллекта..

Короче говоря, Stable Diffusion бесплатен, его легко настроить, и самая большая проблема заключается в том, насколько он доступен. Если у вас недостаточно мощный компьютер, вам придется заплатить за его использование через Dream Studio, что является лишь экономическим препятствием.

ОТ-Е 3

DALL-E 3 — это продукт исследовательской лаборатории OpenAI и самый известный генератор изображений искусственного интеллекта, о котором думают люди. Его предшественник когда-то был закрыт с ограниченным доступом, но сегодня к нему можно получить доступ через Microsoft Copilot и ChatGPT Plus.

Для тех, кто имеет к нему доступ, некоторые результаты, которых он может достичь, просто невероятны. Первоначально он был закрыт из-за опасений по поводу этики и безопасности такого инструмента, хотя со временем он постепенно расширялся.

Одним из самых больших преимуществ DALL-E 3 является способность создавать фотореалистичные изображения, которые на первый взгляд неотличимы от реальных фотографий и могут включать в себя текст, с чем модели исторически боролись.

Он может создавать картины, изображения, которые кажутся снятыми реальными камерами, и полностью вымышленные сценарии. Когда о нем было впервые объявлено, это представляло собой огромный скачок в возможностях искусственного интеллекта, как в его способности создавать изображения, так и в обработке естественного языка, известной как НЛП.

Это благодаря реализации GPT-4, одной из самых продвинутых доступных языковых моделей, также созданной OpenAI. Как и в случае со Stable Diffusion, DALL-E 3 также имеет возможность брать существующие изображения и редактировать их по запросу.

Через него можно редактировать фотографии, попросив его добавить что-то к изображению или даже попросить что-то удалить или изменить освещение. ОТ-Е 3 Его может попробовать каждый, воспользовавшись бесплатной версией Microsoft Copilot или платной подпиской ChatGPT Plus.

Середина пути

Середина пути это интересно тем, что это общедоступная платформа, которая может генерировать изображения, даже если вы делаете это через сервер Discord. Хотя раньше это было бесплатно, из-за злоупотреблений платформой теперь даже самый низкий уровень использования платный, начиная с 10 долларов в месяц.

Это довольно высокий барьер, если есть другие бесплатные варианты, такие как Stable Diffusion для локального использования или использование Microsoft Copilot. Чтобы дать вам представление о том, насколько мощным является Midjourney, один из пользователей сервиса, Джейсон Аллен, создал произведение, которое он назвал «Théâtre D’opéra Spatial». Он принял участие в художественном конкурсе ярмарки штата Колорадо… и победил.

В отличие от других проектов, Midjourney — это собственная программа искусственного интеллекта. У вас нет исходного кода, на который вы могли бы посмотреть, и вся его цель на данный момент ограничена использованием на сервере Discord.

Однако с тех пор компания работает над обновлением и доработкой Midjourney. Модель Midjourney версии 6 — это последняя версия модели, основанная на моделях Midjourney, реализованных с целью отойти от внешнего вида «по умолчанию». Сегодня Midjourney значительно лучше, чем тогда, как и все эти модели.

Мелок

Ранее Craiyon был известен как DALL-E Mini, хотя, несмотря на название, он не имеет никакого отношения к DALL-E 2. Он был создан для воспроизведения результатов модели преобразования текста в изображение DALL-E OpenAI.

Craiyon доступен для общественности и может использоваться для создания удивительно приличных изображений, хотя изображения не столь точны и не столь высокого качества. Максимальное разрешение изображения составляет 256×256, и нет даже никаких инструментов для масштабирования.

Craiyon полностью бесплатен и доступен через его веб-сайт. Вы можете создать любое изображение с помощью любой подсказки, и единственная проблема заключается в том, что изображения имеют более низкое качество, и вам придется ждать около двух минут для создания каждой партии изображений.

Craiyon начинался как модель с открытым исходным кодом, направленная на воспроизведение результатов первоначальной модели DALL·E. Используемая в настоящее время модель известна как DALL·E Mega и имеет множество улучшений, но официально еще не доступна.

Craiyon, в отличие от других вариантов, поддерживается доходами от рекламы. В результате вы увидите платное спонсорство и другую рекламу при посещении сайта. Веб-сайт. Также есть приложение для Android-смартфонов. Он не самый сложный, но интересный, простой в использовании и доступный.

Опасности и этика искусства, порожденного искусственным интеллектом

Искусство, созданное ИИ, хотя и интересно, но таит в себе ряд опасностей для общества в целом. В эпоху, когда трудно определить, когда новость вырвана из контекста или просто выдумана, существует опасность, когда за считанные минуты можно создать изображения, которые выглядят реальными.

Хотя созданное изображение является поддельным, похоже, что оно может быть реальным и распространяться незаконно. Любые артефакты можно объяснить очень хорошо, настолько, что ложный образ приправляется таким же количеством ложных слов.

Еще более неясно то, что вы действительно можете указать художника, у которого вы хотите, чтобы алгоритм черпал вдохновение. Распространенным художником является Грег Рутковски, который выступал против использования своего имени в искусстве, созданном искусственным интеллектом.

Его название является одним из наиболее распространенных предложений, используемых при создании изображений. «ИИ должен исключить ныне живущих художников из своей базы данных— рассказал Рутковски в интервью Artnet, —сосредоточение внимания на произведениях, являющихся общественным достоянием».

Поиск по имени Рутковски часто возвращает изображения ИИ, которые были созданы так, чтобы выглядеть как его работы, но на самом деле им не являются. Еще хуже то, что искусство, созданное искусственным интеллектом, часто может подчеркнуть предубеждения человечества.

Craiyon также имеет предупреждение внизу своей домашней страницы в разделе часто задаваемых вопросов, в котором говорится, что «Поскольку модель обучалась на нефильтрованных данных из Интернета, она может генерировать изображения, содержащие вредные стереотипы.«.

В результате ввод таких сообщений, как «менеджер компании», очень часто возвращает изображения белых мужчин в костюмах. Аналогичным образом, если вставить слово «учитель» в качестве подсказки, почти всегда на занятия ходят женщины.

Будущее искусства, созданное искусственным интеллектом

Учитывая, что отрасль не замедляется, а регулирование не догоняет ее, мы ожидаем увидеть дальнейший прогресс в этих областях. Тот факт, что всего за год мы перешли от возможностей стабильной диффузии DALL-E 2 к способности DALL-E 3 генерировать текст, показывает, насколько велика эта отрасль и насколько большой потенциально опасной отраслью она может быть.

Изображения, которые раньше можно было поручить команде художников, теперь можно создавать за считанные секунды, при этом в процессе исправления участвует один художник. Однако экономия значительной рабочей силы.

Мы уже видели, как Midjourney может помочь вам, например, выиграть художественный конкурс, хотя в настоящее время Бюро регистрации авторских прав США заявляет, что вы не можете защитить даже изображения, созданные искусственным интеллектом.

Изображения также стоят денег, поскольку они генерируются на невероятно мощных серверах, особенно когда огромное количество пользователей создают свои собственные изображения. Это будет чрезвычайно дорого для любых новых производителей, выходящих на этот рынок, что, в свою очередь, может также отпугнуть некоторые компании.

Тем не менее, первоначальные усилия, такие как Stable Diffusion, как с открытым исходным кодом, предвещают хорошие результаты, и пользователи могут запускать модели на своих компьютерах. Демократизация создания изображений таким образом, как это произошло с LLM и LM Studio, несколько уравнивает правила игры.

Конечно, с тех пор мы также стали свидетелями запуска Sora, модели преобразования текста в видео OpenAI, которая может генерировать 60-секундные видеоролики с помощью простого текстового сценария. Это страшно и значительно более эффективно, чем генерация изображений, и с недавним запуском Stable Video Diffusion мы, вероятно, сможем создавать сложные и длинные видеоролики в будущем.

В результате мы с нетерпением будем ждать, чтобы увидеть будущее визуализации с помощью искусственного интеллекта. За последний год ситуация изменилась так быстро, что кажется, что новые достижения появляются каждый день. Однако с появлением на наших смартфонах манипуляций с изображениями на основе искусственного интеллекта многое может произойти в ближайшие год или два.