Помогу с промптами, анализом изображений и обучением — нажми чтобы попробовать

⌘K

Главная

/Глоссарий

Глоссарий

Справочник терминов и понятий, используемых в AI-генерации изображений и видео. Полезно для понимания параметров моделей и техник промптинга.

Найдено терминов: 46

3 A B C D E F H I K L N O P R S T U V W

3D VAE

Видео

Расширенная версия VAE, учитывающая временное измерение для обработки видео. Обеспечивает консистентность между кадрами и плавность движений.

Aspect Ratio

Параметры

Соотношение сторон изображения или видео. Например, 16:9 — широкоформатное горизонтальное, 9:16 — вертикальное для мобильных устройств, 1:1 — квадратное.

Batch Size

Параметры

Количество изображений, генерируемых за один запрос. Больший batch size экономит время при генерации нескольких вариантов, но требует больше ресурсов.

Camera Motion

Видео

Параметр движения камеры в видео: zoom in/out, pan left/right, tilt up/down. Позволяет задать динамику без движения объектов.

CFG Scale (Guidance Scale)

Параметры

Параметр, контролирующий насколько строго модель следует текстовому промпту. Низкие значения (1-5) дают более творческие результаты, высокие (7-15) — более точное следование описанию.

Checkpoint

Архитектура

Сохранённое состояние обученной нейросети. Разные checkpoint могут давать разные стили изображений, хотя основаны на одной архитектуре.

ControlNet

Архитектура

Дополнительная нейросеть для управления композицией генерации через скетчи, карты глубины, позы и другие направляющие изображения.

Denoising

Архитектура

Процесс удаления шума из изображения. В диффузионных моделях — ключевой этап генерации, когда модель постепенно превращает случайный шум в осмысленное изображение.

Diffusion Model

Архитектура

Тип генеративной модели, которая обучается создавать изображения путём обратного процесса диффузии — постепенного удаления шума из случайного изображения.

DiT (Diffusion Transformer)

Архитектура

Архитектура, объединяющая принципы диффузии с трансформерами. Используется в современных моделях типа FLUX и Kling для улучшенного качества генерации.

Duration

Видео

Длительность генерируемого видео в секундах. Типичные значения: 5-10 секунд для одного сегмента.

Embeddings

Архитектура

Числовое представление текста или изображения в виде вектора. Модели используют embeddings для понимания семантического значения промптов.

FLUX

Модели

Семейство моделей от Black Forest Labs на основе архитектуры Rectified Flow. Включает FLUX 2 Max, FLUX 2 Pro, FLUX Kontext. Отличается высоким качеством следования промптам.

FPS (Frames Per Second)

Видео

Частота кадров видео. Стандартные значения: 24 fps (кинематограф), 30 fps (телевидение), 60 fps (плавное движение).

Hailuo (MiniMax)

Модели

Видео-модели от MiniMax, также известные как MiniMax Video. Отличаются плавными движениями и способностью к длинным генерациям.

I2V (Image-to-Video)

Видео

Режим генерации видео, при котором входным данным является статичное изображение. Модель анимирует изображение, добавляя движение на основе промпта.

Image-to-Image (I2I)

Режимы

Режим генерации, при котором на вход подаётся исходное изображение, которое модель модифицирует согласно промпту. Используется для редактирования и стилизации.

Imagen

Модели

Семейство моделей от Google для генерации изображений. Imagen 4 отличается высокой детализацией и точностью следования промптам.

Inference

Архитектура

Процесс использования обученной модели для генерации новых изображений или видео. В отличие от обучения (training), не изменяет веса модели.

Inference Steps

Параметры

Количество шагов деноизинга при генерации. Больше шагов — выше качество и детализация, но дольше генерация. Типичные значения: 20-50.

Inpainting

Режимы

Техника редактирования, при которой часть изображения (обозначенная маской) заменяется новым содержимым согласно промпту. Остальные части сохраняются.

Keyframe

Видео

Ключевой кадр видео. В контексте генерации — режим создания видео по сегментам, где каждый сегмент имеет начальный и конечный кадр.

Kling

Модели

Семейство видео-моделей от Kuaishou. Kling 2.5 PRO, Kling 2.1 Master и другие версии известны реалистичной физикой движений и высоким качеством.

Kontext

Режимы

Технология редактирования изображений от Black Forest Labs. FLUX Kontext позволяет модифицировать существующие изображения по текстовому описанию.

Latent Space

Архитектура

Сжатое математическое представление данных. Модели работают в latent space для эффективности, а затем декодируют результат в полноразмерное изображение.

LoRA (Low-Rank Adaptation)

Архитектура

Метод тонкой настройки модели с минимальными вычислительными затратами. LoRA-адаптеры добавляют специфический стиль или персонажа без переобучения всей модели.

Negative Prompt

Промптинг

Описание того, что НЕ должно присутствовать в результате. Например: «blurry, low quality, distorted faces» помогает избежать типичных артефактов.

Outpainting

Режимы

Расширение границ существующего изображения. Модель дорисовывает контент за пределами оригинальных краёв, сохраняя стиль и контекст.

Prompt

Промптинг

Текстовое описание желаемого результата генерации. Качественный промпт — ключевой фактор успешной генерации. Включает описание объектов, стиля, освещения, композиции.

Prompt Engineering

Промптинг

Искусство составления эффективных промптов для получения желаемых результатов. Включает понимание того, как модель интерпретирует текст.

Recraft

Модели

Модели от Recraft AI для генерации изображений и векторной графики (SVG). Особенно хороши для дизайна и иллюстраций.

Rectified Flow

Архитектура

Архитектура генеративных моделей, используемая в FLUX. Обеспечивает более прямые траектории в latent space и лучшее качество при меньшем количестве шагов.

Reference Image

Режимы

Изображение-референс, используемое для сохранения стиля, персонажа или продукта в генерации. Модель учитывает визуальные характеристики референса.

Resolution

Параметры

Размер выходного изображения в пикселях (например, 1024x1024). Для видео часто указывается как 720p, 1080p, 4K.

Sampler

Параметры

Алгоритм, определяющий как модель шагает через latent space при генерации. Разные сэмплеры (Euler, DPM++, DDIM) дают разные результаты и скорость.

Seed

Параметры

Начальное число для генератора случайных чисел. Одинаковый seed с теми же параметрами даёт идентичный результат, что позволяет воспроизводить удачные генерации.

Stable Diffusion

Модели

Открытая диффузионная модель для генерации изображений, разработанная Stability AI. Основа для многих производных моделей и техник.

Style Transfer

Режимы

Применение визуального стиля одного изображения к содержимому другого. Модель сохраняет объекты, но меняет художественную манеру.

T2I (Text-to-Image)

Режимы

Базовый режим генерации изображений из текстового описания. Модель создаёт изображение «с нуля» на основе промпта.

T2V (Text-to-Video)

Видео

Режим генерации видео из текстового описания. Модель создаёт последовательность кадров, образующих связное видео.

Token

Промптинг

Единица текста, на которую разбивается промпт для обработки моделью. Одно слово может состоять из 1-3 токенов. Модели имеют лимит на количество токенов.

Upscaling

Режимы

Увеличение разрешения изображения с добавлением деталей. AI-upscalers восстанавливают детали, которые были бы потеряны при обычном масштабировании.

VAE (Variational Autoencoder)

Архитектура

Нейросеть, кодирующая изображения в латентное представление и декодирующая обратно. Используется в диффузионных моделях для сжатия данных.

Veo

Модели

Видео-модель от Google. Veo 3.1 поддерживает генерацию видео высокого качества с хорошим пониманием физики мира.

VRAM

Архитектура

Видеопамять GPU. Более сложные модели и высокие разрешения требуют больше VRAM. Облачные сервисы снимают это ограничение с пользователя.

Weights

Архитектура

Параметры нейросети, определяющие её поведение. Обученные weights содержат «знания» модели о том, как генерировать изображения.