Дообучение Stable Diffusion методом LoRA

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Дообучение Stable Diffusion методом LoRA
Средняя
~2-3 рабочих дня
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Fine-tuning Stable Diffusion через LoRA

LoRA (Low-Rank Adaptation) — эффективный метод дообучения SD с минимальным количеством параметров. LoRA-файл весит 10–150 MB против 6–7 GB полной модели, обучается за 30–120 минут на потребительском GPU, применяется поверх базовой модели с регулируемой силой.

Отличие LoRA от DreamBooth

Параметр DreamBooth LoRA
Изменяет Всю модель Только дельта-матрицы
Размер результата 6–7 GB 10–150 MB
Время обучения 30–60 мин 30–120 мин
Комбинирование Нет До 5 LoRA одновременно
Применение Одна модель Любая совместимая

Обучение LoRA для стиля

# kohya-ss/sd-scripts — стандарт обучения LoRA
git clone https://github.com/kohya-ss/sd-scripts
cd sd-scripts
pip install -r requirements.txt

python train_network.py \
    --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
    --dataset_config="dataset.toml" \
    --output_dir="./lora_output" \
    --output_name="my_style_v1" \
    --network_module="networks.lora" \
    --network_dim=32 \
    --network_alpha=16 \
    --learning_rate=1e-4 \
    --max_train_epochs=10 \
    --train_batch_size=2 \
    --save_every_n_epochs=2 \
    --mixed_precision="fp16" \
    --xformers

dataset.toml:

[general]
shuffle_caption = true
caption_dropout_rate = 0.05

[[datasets]]
resolution = 1024
batch_size = 2

  [[datasets.subsets]]
  image_dir = "./training_images"
  caption_extension = ".txt"
  num_repeats = 10

Автоматическая подпись изображений

from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image
import os

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
caption_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")

def auto_caption_dataset(
    images_dir: str,
    trigger_word: str = "mystyle",
    style_suffix: str = "in the style of mystyle"
) -> None:
    for img_file in os.listdir(images_dir):
        if not img_file.endswith((".jpg", ".png", ".webp")):
            continue

        img = Image.open(os.path.join(images_dir, img_file)).convert("RGB")
        inputs = processor(img, return_tensors="pt")
        caption = processor.decode(
            caption_model.generate(**inputs, max_new_tokens=50)[0],
            skip_special_tokens=True
        )

        # Добавляем триггерное слово к подписи
        full_caption = f"{trigger_word}, {caption}, {style_suffix}"

        txt_path = os.path.join(images_dir, img_file.rsplit(".", 1)[0] + ".txt")
        with open(txt_path, "w", encoding="utf-8") as f:
            f.write(full_caption)

Применение нескольких LoRA

from diffusers import StableDiffusionXLPipeline
import torch

pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16
).to("cuda")

# Загружаем несколько LoRA
pipe.load_lora_weights("style_lora.safetensors", adapter_name="style")
pipe.load_lora_weights("character_lora.safetensors", adapter_name="character")

# Комбинируем с весами
pipe.set_adapters(["style", "character"], adapter_weights=[0.7, 0.5])

image = pipe(
    "mystyle character, cinematic scene, detailed background",
    guidance_scale=7.5,
    num_inference_steps=30
).images[0]

Типичные задачи LoRA

Стиль художника: 50–200 изображений в целевом стиле → LoRA воспроизводит стиль на новых промптах.

Конкретный продукт: 20–50 фото товара с подписями → LoRA генерирует товар в разных сценах.

Персонаж (аниме/игра): 30–100 изображений персонажа → LoRA воспроизводит в разных позах.

Профессиональная фотография: 200+ фото определённого фотографа → LoRA переносит манеру съёмки.

Сроки: обучение LoRA (1000 шагов на RTX 3090) — 20–40 минут. Сервис с пользовательским обучением своей LoRA — 3–4 недели.