Нейросети

Нейросеть Midjourney. Обзор и подробный гайд пользования нейросетью

Midjourney совсем недавно перешла в стадию бета-теста: любой может присоединиться к каналу разработчиков в Discord и протестировать алгоритм прямо в чате. Для этого достаточно ознакомиться с правилами сообщества, затем ввести команду /imagen, после чего сформулировать запрос на английском языке. Сервис сгенерирует четыре варианта: у каждого можно увеличить разрешение или попросить нейросеть переделать в том же духе.

Картинки получаются достаточно качественными и узнаваемыми, хоть и не без промахов. Бесконечно генерировать изображения не выйдет: есть лимит на каждого человека. Когда он будет исчерпан, можно остаться в сообществе и смотреть, что генерируют другие пользователи.

Midjourney (в народе «пол пути») — это ИИ, которое преобразует текст в изображения. На данный момент запущен бета-тест с помощью бота Discord. Благодаря ему можно создать что вашему и его воображению угодно. До недавнего времени бот был доступен только в Discord сообществе Midjourney, но теперь его можно добавить к себе на сервер с количеством участников менее 5,000.

Инструкция 

Всего для нового пользователя Discord бесплатно доступно 25 GPU-минут или как я называю круток, которые тратятся на примерно 25 действий (в том числе альтернативные варианты, улучшение разрешения и собственно создание новой серии картинок). Команда Midjourney объясняет это тем, что их детище популярно и эта популярность выходит боком для веб-серверов. Очевидный обход ограничений и цены на полноценной использование ниже.

Работа с Discord

Для использования нужна регистрация на сайте Discord. Если не зарегистрированы, то это можно сделать по ссылке.
Далее мы заходим на сервер Midjourney. У нас есть два варианта работы с ботом.
Вариант а. Через Discord сервер Midjourney. При попадании на сервер вам присваивается рандомная группа с определенными открытыми каналами для новичков. Не волнуйтесь, если они не отображаются. Подождите немного. Тыкаем на каналы для новичков.
+ можно вдохновиться и попытать удачу с другими работами; чуть проще.
— вам мешают сосредоточиться другие новички; вы стесняетесь показывать что получилось; ваши картинки могут затеряться в море сообщений (когда это случится, то нужно заглянуть в почту>упоминания).
Вариант б. Добавить на собственный сервер. В таком случае нам не нужны публичные каналы для новичков (но даже так всё равно результаты публичны на сайте-галерее, о том как сделать, чтобы они такими не были всё также ниже). Чтобы добавить на свой сервер нужно нажать на бота в списке пользователей справа и нажать на большую кнопку «добавить на сервер». Затем выбираем сервер и у нас на сервере теперь есть бот Midjourney.
+ всё, что в минусах у варианта а.
— всё, что в плюсах у варианта б.

03. Базовые команды

Команды вводятся в сообщениях. Начинайте писать / и увидите список команд. Ниже все важные команды, которые нужно узнать прежде, чем о команде генерации.
Команда /info показывает информацию. Для неподписанных количество оставшихся круток, для подписанных примерно то же что и на картинке. Можно узнать сколько осталось GPU-минут.
Команда /settings показывает параметры, которые можно отрегулировать. Некоторые параметры недоступны тем у кого бесплатная версия.
  1. Версия движка. Можно выбрать старые если вам нужно.
  2. Насыщенность стилизации. По моим наблюдениям чем выше тем дальше от запроса и больше похоже на красивый пейзаж. Технически добавляется в конце запроса.
  3. Качество изображения. Влияет на длительность генерации, стоимость в GPU-минутах и результат генерации. Технически добавляется в конце запроса.
  4. Приоритетность генерации. Быстрый режим тратит драгоценные GPU-минуты, но зато ты быстрее получаешь результат, т. к. первее в очереди. Медленный режим же наоборот не тратит быстрые GPU-минуты. Настройка доступна только тем у кого подписка за 30$ рекомендую медленный режим, чтобы не тратить 15 GPU-часов попусту на все ваши генерации. Команды /fast и /relax переключают режимы через команды.
  5. Степень увеличения разрешения.
  6. Режим приватности. Приватность доступна за отдельный прайс. Команды /private и /public переключают режимы через команды.
Команда /show при вводе id работы показывает её. ID работы можно найти на сайте Midjourney при входе через Discord.
Эти команды позволяют задавать и смотреть кастомные параметры генерации. Например вы можете ввести —ar.
Например, я обновил уже существующий кастомный параметр. Чтобы удалить какой-то параметр, нужно оставить второй аргумент пустым. Максимально собственных параметров можно задать 20.

04. Команда «сделать шедевр»

Теперь самая используемая команда
/imagine. Prompt
является необходимой частью команды. Если вы стерли его, то введите команду заново. В prompt вписываем что угодно (кроме запрещенных слов).
Через какое-то время вы получите результат. Процесс генерации будет отображаться в том же канале, в иных случаях бот оповестит, что не может показать процесс. Получаем серию картинок из 4. Под картинками находятся кнопки. Напомню все кнопки кроме web будут стоить как минимум 1 крутку.
Меню после генерации
  • U — апскейлинг или увеличение разрешения. 1 — верхнее лево, 2 — верхнее право, 3 — нижнее лево, 4 — нижнее право.
  • Кнопка на уровне с апскейлингом генерация новых изображений по тому же запросу.
  • V — вариации или сделать ещё 4 похожие. 1 — верхнее лево, 2 — верхнее право, 3 — нижнее лево, 4 — нижнее право.
Меню после апскейлинга
  • Make Variations создает новые 4 изображения похожие на апскейлнутое
  • Upscale to Max и Light Upscale Redo — вариации апскейла. Исходя из названия один сильный, другой послабее.
  • Web открывает ссылку на изображение на сайте-галерее
  • Эмодзи позволяют оценить работу, свою или чужую. Ведь никто не оценит лучше чем ты сам.

05. Параметры

Казалось бы всё, можно начинать, но у всего есть нюансы. Самое главное, что вы должны понимать, так это то, что Midjourney — это ИИ и ему непонятны некоторые фразы или слова, он может неправильно понять. Он не сгенерирует «Агент взял свой любимый коктейль и поднял свои брови думая отравлен ли он» как вы бы хотели, он поймёт запрос по-своему. Чтобы запрос получится больше похож на ваши ожидания нужно написать «мужчина, смокинг, в руке бокал с коктейлем, задумчивое лицо». Однако вы всегда можете экспериментировать, разнообразные результаты того как понимает ИИ эфемерные фразы и слова интригуют.
Лучше всего бот работает с командами на английском, но вы можете ввести команду и на другом языке. Результаты конечно же будут расплывчатые, но зато непредсказуемые. Например, я сгенерировал 5 запросов на разных языках «Девушка смотрит на закат».
Якутский показал только пейзаж с закатом. Русский показал только девушек с закатными цветами. Корейский и китайский показали одну девушку смотрящую на закат. И только английский запрос полностью удовлетворил запрос.
Для разграничения запроса используются » :: « (с пробелами), то есть допустим «girls on beach :: steven universe style, hd, octane render —ar 16:9 —no rocks». Сначала текстовой запрос, потом технические параметры, например соотношение сторон и то, что должно отсутствовать. Стиль можно в обоих вариантах, я предпочитаю после разделения. Можно и через «,», как делают все новички, но мы профи, поэтому через » :: «
Дальше мы сосредоточимся на параметрах после «::». Сюда включаются в основном технические параметры.
Вес (::x, где x число). Также используются для регулирования соотношения каких-либо элементов на изображении, но использовать их нужно без пробелов, то есть «car::80, road::20». Минимальное число — -10000, максимальное — 10000. Ниже примеры.
Стилизация (—s x, где x число). Один из параметров, который в настройках можно поставить по умолчанию на каком-то значении. Не путать со стилями художника, фильма и сериала, это другое. Чем больше число, тем абстрактнее и похоже на красивый пейзаж. Советую ставить в настройках (/settings) либо по умолчанию (2000) или чуть выше (5000) значение. Минимальное число — 625, максимальное — 60000. Ниже примеры.
Качество (—q x, где x число). Второй из параметров, который в настройках можно поставить по умолчанию на каком-то значении. Чем больше, тем больше деталей и красивее в целом, но также больше тратится GPU-минут и времени на создание. По умолчанию — 1, минимальное число — 0.25, максимальное — 2 (некогда было 5). Ниже примеры.
Высокое разрешение (—hd ). Потенциально лучше для больших изображений, т.к. использует другую композицию, но меньше деталей. К тому же разрешение сгенерированных изображений будет больше. Неплохой вариант не тратя действие на апскейлинг получить картинку побольше. По тестам, просто делает уже апскейлнутую серию из 4 картинок. Ниже примеры.
Соотношение сторон можно задать двумя путями: первый через (—ar x:y, где x ширина, y высота). К сожалению при сильной разнице высоты и ширины соотношение «сглаживается», лучше использовать второй вариант. Ниже примеры.
Также соотношение сторон можно задать (—w x, где x ширина) и/или (—h y, где y это высота). Лучше сработает, если число кратно 64 (или 128 в случае с —hd). Ниже пример с соотношением 1:10, которое я не смог сделать с помощью —ar.
Landscape, Clouds, River, Mountain, Ocean :: Wakfu style —h 2560 —w 256
Без (—no x, где x слово). Если ИИ внезапно добавляет на изображение какой-то элемент, то его можно убрать с помощью этого параметра. Я уже добавлял изображение с таким параметром, оно находится после объяснения про » :: «, а вот так выглядело бы изображение без «без». Это происходит т.к. стиль Steven Universe связан с камнями, поэтому на пляже их огромное количество.
Сид (—seed x, где x цифра). Каждому изображению присваивается своё семя, поэтому изображение можно повторить, хотя и только в начальных этапах генерации. Чтобы узнать его нужно будет поставить эмодзи письма или :envelope: на сгенерированное изображение
Например у всех этих изображений один сид, только у 2 картинки тот же запрос что у 1, а 3 картинка с запросом «пустыня».
Референс-изображение (через ссылку на изображение). Изображения берутся как стили, а не как содержание, поэтому так вы не сможете обойти запретные слова. Можно добавить несколько иллюстраций, но отрегулировать вес каждого нельзя.
Регуляция веса (—iw x, где х это число)
позволяет усилить влияние на конечное изображение референса. По-умолчанию 0.25, максимально — 5.
Видео (—video).
Вам будет отправлен процесс генерации в виде видео через сообщение лс, но нужно будет поставить эмодзи письма или :envelope: на сгенерированное изображение. Подробнее об эмодзи ниже (08).

06. Прочие параметры

В эту категорию я отмел рендеры, камеры, сами стили и прочее. Чтобы узнать о них вы можете посмотреть на вот этот гитхаб, где собрано множество изображений, которые помогут выбрать какой-то стиль. В остальном я помочь не смогу.

07. Помощник для составления запросов

Также может помочь выбрать стиль, камеры, рендеры помощник. Есть несколько разных веб-сервисов, которые помогают с составлением запросов. Вот некоторые.
Использовал автопереводчик Яндекса

08. Эмодзи

Также на сообщения бота со сгенерированными изображениями можно добавлять эмодзи. Они функциональные. Удобно писать название эмодзи, и уже при частом использование оно будет на заметном месте.
✉:envelope: Бот отправляет вам в личные сообщения сгенерированное изображение вместе с сидом и ссылкой на изображение. Если вы прописали «—video», будет видео генерации. Если сообщение с сеткой изображений, то они отправятся по отдельности.
⭐:star: Добавляет в избранную категорию изображений в галерее веб-сайта.
❌:x: Удаляет полностью, что сообщение, что из веб-сайта.

09. Веб-сайт

Веб-сайт является галереей с работами других пользователей и вашими. Можно скачать ваши изображения. Можно вдохновиться или попытать удачу с тем же запросом.

10. Что запрещено генерировать

По правилам ИИ все запросы должны быть PG13, поэтому расписную обнаженную тяночку-вайфочку-сосочку сделать нельзя, как и какое-нибудь кровь-кишки-располовинило. Есть гугл таблица, где каждый может добавить забаненное слово. Ваш слуга даже добавил категории и отсортировал по синонимам, поэтому дерзайте. Однако скажу, что излишнее использование запрещенных слов по сообщению может привести вашему бану.

11. Подписки и цена

Вот и закончились 25 круток, теперь пришло время платить (или нет). У нас есть три пути:
Триальный.
Вы можете создать новый аккаунт, хотя это карается администрацией. 0 долларов в месяц, много забот и возможность быть забаненным;
Базовый.
Вы можете подписаться на 10 долларов в месяц, так сказать на полшишечки влиться в ИИ генерирование изображений, т.к. у вас ограниченные 200 GPU-минут, за остальные платить по ужасному коэффициенту;
Стандартный.
Вы можете подписаться на 30 долларов в месяц, получите 15 GPU-часов и возможность поставить релакс режим, что рекомендую, иначе ресурс быстро истощится и бот самостоятельно поставит релакс режим.
Способ работы напрямую взаимодействуя с ботом открывается за подписку. Удобно, даже не нужен собственный сервер.
Отмеряемый режим. За каждый GPU-час вы тратите 4 доллара. Весьма дорого, лучше выбрать стандартный режим, и установить режим relax в настройках. Но вы сами решаете что вам и как.
Приватный режим. Ваши изображения не будут показываться на веб-сайте, однако они всё также модерируются администрацией. Весьма дорого для мнимой приватности (+20 долларов сверху). Повторюсь, возможно вам это подходит.
Оплатить из РФии можно с помощью купленной на площадке plati карточке visa. Не реклама, выбирайте тщательно, чтобы и возвратов не было и отзывы все были положительные.
P.S. Важно!

Структура запроса

Главное, что вы должны понимать Midjourney — это ИИ. Ему непонятны некоторые фразы и предложения, он может вас неправильно понять. Поэтому для наиболее предсказуемого результата, запрос после /imagine prompt: условно делится на три части: X + Y + Z
Где:
X — описывает то, что вы хотите (и его характеристики)
Y — обеспечивает стиль изображения
Z — информация о размере, рендеринге и других параметрах
Saint Petersburg at night :: by Vincent van Gogh :: —ar 16:9
Для этого изображения Санкт-Петербурга я следовал формуле «XYZ»
Где:
X — «Saint Petersburg at night»
Y — «by Vincent van Gogh»
Z — «--ar 16:9»
Теперь давайте разберемся, что за двоеточия :: и команды --ar 16:9 я тут использовал и какие другие параметры мы можем задавать.

Параметры

Расположены в порядке полезности, по моему мнению.
  • Используйте запятую , для мягкого разделения и :: для жесткого (обязательно отделяйте двоеточия пробелами).
  • Например: /imagine prompt: Dalaran, flying city :: clouds :: pink color :: --ar 16:9
  • --w — Ширина изображения. Работает лучше, если число кратно 64.
  • --h — Высота изображения. Работает лучше, если число кратно 64.
  • --ar — Задает желаемое соотношение сторон вместо ручной настройки высоты и ширины с помощью --h и --w. Например, --ar 16:9, чтобы включить соотношение сторон 16:9.
  • --no — Исключение чего-либо. Например «--no house» будет пытаться нарисовать картинку без домов.
  • --hd — Использует другой алгоритм, который лучше всего подходит для абстрактных и пейзажных запросов. Он также генерирует изображения с более высоким разрешением без необходимости масштабирования.
  • --video Сохраняет видео прогресса генерации. Чтобы сохранить видео, вы должны отреагировать конвертом ✉️ на сообщение, чтобы получить ссылку на видео в личной переписке с ботом.
  • --uplight Использует «легкий апскейл» при выборе кнопок U. Результаты становятся ближе к исходному изображению с меньшим количеством деталей, добавляемых во время масштабирования. Идеально подходит для лица и гладких поверхностей.
  • ::<число> — Вы можете добавить суффикс от -1 до 2 к любой подсказке (без пробелов), чтобы присвоить этой части вес, то есть важность той или иной подсказки перед другими. По умолчанию он равен 1. А значение -0,5 равно команде --no.
  • Например, «/imagine prompt: hot dog::1.5 food::-1» попытается создать «горячую собаку» буквально, не еду.
  • Добавьте один или несколько URL-адресов изображений перед основным текстом, и он будет использовать эти изображения в качестве визуального вдохновения. Параметр --iw <число> устанавливает вес подсказки изображения относительно веса текста. Значение по умолчанию --iw 0.25.
  • Например:/imagine prompt: http://myimage.jpg A forest spirit at night --iw 0.2
  • --q <число> — «качество» изображения в плане генерации. Диапазон от 0.25 до 5. Базовое значение стоит на 1, а на 5 он будет прорабатывать каждую картинку минут 5.
  • --chaos <число> — Насколько более разнообразными и случайными будут ваши результаты. Диапазон значений от 0 до 100. Более высокие значения будут способствовать более интересным и необычным генерациям в обмен на более обособленные композиции.
  • --seed — Устанавливает начальное значение, которое может помочь сохранить стабильность и воспроизводимость при повторной попытке создать нечто подобное. Это должно быть число между 0 и 4294967295. Если он не используется, вместо него будет выбрано случайное начальное число. Вы можете реагировать конвертом ✉️ к сообщению задания, чтобы узнать, какое начальное значение было использовано.
  • --sameseed — Делает так, что бы начальное число одинаково влияло на все изображения результирующей сетки. Если он не используется, каждое изображение в сетке будет использовать разные «сиды», обеспечивая большее разнообразие.
  • --s <число> — Аргумент стилизации устанавливает, насколько сильна стилизация ваших изображений, чем выше вы установите его, тем более стилизованным оно будет. Значение по умолчанию — 2500. Примерный диапазон от 625 до 20000.
  • --stop — Остановить генерацию раньше. Значения от 10 до 100.

Другие команды

  • /settings — Открывает поле с упрощенными настройками генерации, качества, приватности и т.д.
  • /prefer option set <имя пресета> <параметры> — создание личной настройки, пресета.
  • Например «/prefer option set mine --hd --ar 16:9» создаст настройку
  • --mine с опциями «в высоком разрешении и соотношении сторон 16 на 9». Т.е. можно вбивать вместо кучи опций только название пресета.
  • /prefer option list— Здесь будут перечислены личные параметры, которые вы в настоящее время установили с помощью /prefer option setкоманды. Вы можете сохранить не более 20 личных опций.

Фишки для удобства работы

  • Вы можете пригласить бота на свой сервер Discord и работать с ним один на один, без скроллинга бесконечной ленты из работ других пользователей. (Ваши работы все равно будут отображаться в общем чате и на сайте)
Отреагируйте на любую работу смайлом конверта ✉️, чтобы переслать её в личную переписку с ботом.
Иконка в правом верхнем углу экрана покажет ваши работы и позволит перейти к нужному сообщению без скролла общей ленты.
Вы также можете пользоваться специальным сайтом promptomania для удобства создания своих prompt-ов. Не набирать параметры в ручную, а выбирать их из списка. Сайт удобен ещё тем, что параметры на нём проиллюстрированы, и например, можно посмотреть примеры стилей художников и другие параметры более наглядно.