Справочник терминов и понятий, используемых в AI-генерации изображений и видео. Полезно для понимания параметров моделей и техник промптинга.
Расширенная версия VAE, учитывающая временное измерение для обработки видео. Обеспечивает консистентность между кадрами и плавность движений.
Соотношение сторон изображения или видео. Например, 16:9 — широкоформатное горизонтальное, 9:16 — вертикальное для мобильных устройств, 1:1 — квадратное.
Количество изображений, генерируемых за один запрос. Больший batch size экономит время при генерации нескольких вариантов, но требует больше ресурсов.
Параметр движения камеры в видео: zoom in/out, pan left/right, tilt up/down. Позволяет задать динамику без движения объектов.
Параметр, контролирующий насколько строго модель следует текстовому промпту. Низкие значения (1-5) дают более творческие результаты, высокие (7-15) — более точное следование описанию.
Сохранённое состояние обученной нейросети. Разные checkpoint могут давать разные стили изображений, хотя основаны на одной архитектуре.
Дополнительная нейросеть для управления композицией генерации через скетчи, карты глубины, позы и другие направляющие изображения.
Процесс удаления шума из изображения. В диффузионных моделях — ключевой этап генерации, когда модель постепенно превращает случайный шум в осмысленное изображение.
Тип генеративной модели, которая обучается создавать изображения путём обратного процесса диффузии — постепенного удаления шума из случайного изображения.
Архитектура, объединяющая принципы диффузии с трансформерами. Используется в современных моделях типа FLUX и Kling для улучшенного качества генерации.
Длительность генерируемого видео в секундах. Типичные значения: 5-10 секунд для одного сегмента.
Числовое представление текста или изображения в виде вектора. Модели используют embeddings для понимания семантического значения промптов.
Семейство моделей от Black Forest Labs на основе архитектуры Rectified Flow. Включает FLUX 2 Max, FLUX 2 Pro, FLUX Kontext. Отличается высоким качеством следования промптам.
Частота кадров видео. Стандартные значения: 24 fps (кинематограф), 30 fps (телевидение), 60 fps (плавное движение).
Видео-модели от MiniMax, также известные как MiniMax Video. Отличаются плавными движениями и способностью к длинным генерациям.
Режим генерации видео, при котором входным данным является статичное изображение. Модель анимирует изображение, добавляя движение на основе промпта.
Режим генерации, при котором на вход подаётся исходное изображение, которое модель модифицирует согласно промпту. Используется для редактирования и стилизации.
Семейство моделей от Google для генерации изображений. Imagen 4 отличается высокой детализацией и точностью следования промптам.
Процесс использования обученной модели для генерации новых изображений или видео. В отличие от обучения (training), не изменяет веса модели.
Количество шагов деноизинга при генерации. Больше шагов — выше качество и детализация, но дольше генерация. Типичные значения: 20-50.
Техника редактирования, при которой часть изображения (обозначенная маской) заменяется новым содержимым согласно промпту. Остальные части сохраняются.
Ключевой кадр видео. В контексте генерации — режим создания видео по сегментам, где каждый сегмент имеет начальный и конечный кадр.
Семейство видео-моделей от Kuaishou. Kling 2.5 PRO, Kling 2.1 Master и другие версии известны реалистичной физикой движений и высоким качеством.
Технология редактирования изображений от Black Forest Labs. FLUX Kontext позволяет модифицировать существующие изображения по текстовому описанию.
Сжатое математическое представление данных. Модели работают в latent space для эффективности, а затем декодируют результат в полноразмерное изображение.
Метод тонкой настройки модели с минимальными вычислительными затратами. LoRA-адаптеры добавляют специфический стиль или персонажа без переобучения всей модели.
Описание того, что НЕ должно присутствовать в результате. Например: «blurry, low quality, distorted faces» помогает избежать типичных артефактов.
Расширение границ существующего изображения. Модель дорисовывает контент за пределами оригинальных краёв, сохраняя стиль и контекст.
Текстовое описание желаемого результата генерации. Качественный промпт — ключевой фактор успешной генерации. Включает описание объектов, стиля, освещения, композиции.
Искусство составления эффективных промптов для получения желаемых результатов. Включает понимание того, как модель интерпретирует текст.
Модели от Recraft AI для генерации изображений и векторной графики (SVG). Особенно хороши для дизайна и иллюстраций.
Архитектура генеративных моделей, используемая в FLUX. Обеспечивает более прямые траектории в latent space и лучшее качество при меньшем количестве шагов.
Изображение-референс, используемое для сохранения стиля, персонажа или продукта в генерации. Модель учитывает визуальные характеристики референса.
Размер выходного изображения в пикселях (например, 1024x1024). Для видео часто указывается как 720p, 1080p, 4K.
Алгоритм, определяющий как модель шагает через latent space при генерации. Разные сэмплеры (Euler, DPM++, DDIM) дают разные результаты и скорость.
Начальное число для генератора случайных чисел. Одинаковый seed с теми же параметрами даёт идентичный результат, что позволяет воспроизводить удачные генерации.
Открытая диффузионная модель для генерации изображений, разработанная Stability AI. Основа для многих производных моделей и техник.
Применение визуального стиля одного изображения к содержимому другого. Модель сохраняет объекты, но меняет художественную манеру.
Базовый режим генерации изображений из текстового описания. Модель создаёт изображение «с нуля» на основе промпта.
Режим генерации видео из текстового описания. Модель создаёт последовательность кадров, образующих связное видео.
Единица текста, на которую разбивается промпт для обработки моделью. Одно слово может состоять из 1-3 токенов. Модели имеют лимит на количество токенов.
Увеличение разрешения изображения с добавлением деталей. AI-upscalers восстанавливают детали, которые были бы потеряны при обычном масштабировании.
Нейросеть, кодирующая изображения в латентное представление и декодирующая обратно. Используется в диффузионных моделях для сжатия данных.
Видео-модель от Google. Veo 3.1 поддерживает генерацию видео высокого качества с хорошим пониманием физики мира.
Видеопамять GPU. Более сложные модели и высокие разрешения требуют больше VRAM. Облачные сервисы снимают это ограничение с пользователя.
Параметры нейросети, определяющие её поведение. Обученные weights содержат «знания» модели о том, как генерировать изображения.