Сосиска - самое быстрое генерирование изображений

Колбаса под названием Ворстьен - последняя модель в генерации изображений и лучше, чем средний путь. Создание изображений по текстовым описаниям является сложной задачей для искусственного интеллекта. Это похоже на просьбу компьютеру стать художником, но для этого требуется большая вычислительная мощность, и обучение ИИ для этого довольно дорогостоящее. Кроме того, мы хотим, чтобы эти ИИ-сгенерированные изображения выглядели действительно хорошо. Теперь вступает Ворстьен - решитель проблемы. Он не является обычной моделью ИИ; он особенный. То, что делает его уникальным, это его двухэтапный подход. На первом этапе он использует то, что называется VQGN, а на втором этапе - диффузионный автокодировщик. Вместе эти два этапа превращают высококомпрессированные изображения обратно в детализированные картинки. Проще говоря, мы называем их декодером, потому что они декодируют изображения.

Представьте, что у вас есть гигантское изображение, например, фотография размером 1024x1024 пикселя. Оно огромное и требует много вычислительной мощности для работы с ним. Теперь представьте, что вы уменьшаете его до размера всего 32x32 пикселя. Это сжатие значительно облегчает работу компьютеров. Большинство методов используют относительно небольшое сжатие, может быть в четыре или восемь раз меньше. Однако Ворстьен берет сжатие на себя совсем другого уровня. Вместо сжатия в четыре или восемь раз меньше, он уменьшает размер в 42 раза. Это похоже на уменьшение большой картинки до крошечной доли ее размера. Чтобы достичь такого экстремального сжатия, Ворстьен использует умный двухэтапный процесс. Сначала есть этап А, который выполняет начальное сжатие, а затем этап В, который дополнительно его уточняет. Вместе эти этапы работают как волшебники, заставляя большое изображение исчезнуть в очень маленькой коробке.

После всего этого сжатия есть третья модель, этап С, которая учится понимать это суперсжатое изображение. Это обучение происходит намного быстрее и дешевле, чем требуется другим лучшим моделям. Мы называем этап С предшествующим. Еще одна важная вещь, которую следует отметить, заключается в том, что Ворстьен не только быстрый, он молниеносный. Он может создавать изображения намного быстрее, чем модели, такие как стабильная диффузия XL. Он также является чемпионом по экономии памяти. Для тех, у кого нет мощных графических процессоров A100, это отличная новость.

Давайте объясним это простыми словами. Представьте, что вы печете печенье, и у вас есть две печи. Одна печь занимает часы, чтобы испечь партию печенья и требует огромной кухни. Другая печь печет печенье очень быстро, и вы можете использовать ее даже в обычной кухне. Вот Ворстьен. И лучшая часть в том, что его намного выгоднее обучать. Первая версия требовала всего 9000 часов работы графического процессора, что является долей от того, сколько требуется для обучения других моделей. Это упрощает возможность исследователям попробовать новые идеи и позволяет большему количеству организаций присоединиться к фонду обучения. Даже вторая версия, которая работает с гораздо большими изображениями, все равно в шесть раз дешевле, чем старая модель.

Теперь давайте посмотрим, как была создана эта колбаса. При создании Ворстьена было принято много важных решений, особенно когда дело дошло до настройки и обучения его различных этапов. Давайте рассмотрим некоторые из ключевых выборов.

Во-первых, выбор правильного кодировщика изображений был решающим. Он должен был соответствовать трем важным критериям. Во-первых, он должен был быть обучен с хорошим пониманием различных типов изображений. Во-вторых, он должен был быть небольшой и эффективной моделью, чтобы ускорить обучение на этапах В и С. Наконец, его размерность особенно важна, чтобы не быть слишком маленькой и не потерять детали изображения, и не быть слишком большой и не замедлить процесс.

Для этапов А и В Ворстьен использует архитектуру паэльи. Этот выбор был сделан, потому что она эффективно обрабатывает квантованные данные и не требует множества шагов вывода для создания изображений с разрешением 128x128. Однако в теории могла быть использована и модель диффузии.

Для этапа С была выбрана модель, способная работать с непрерывными данными, что отличается от этапа В. Поэтому была выбрана модель латентной диффузии. Модели диффузии требуют большего количества шагов вывода, особенно в контексте более плотного скрытого пространства. Эти решения были решающими в формировании того, как процессы sausage эффективно генерируют изображения. Однако, будучи новой моделью, у нее есть недостатки. В нескольких экспериментальных настройках возникли некоторые проблемы. Одна из основных проблем возникает, когда модель пытается генерировать изображения на более высоких разрешениях, чем на которых она обучалась. Это часто приводит к повторяющимся узорам на сгенерированных изображениях, возможно, потому что модели трудно точно интерпретировать более крупные изображения. Проблема, кажется, связана с тем, как работает механизм условного обучения, где эффективные вложения сети внедряются через кросс-внимание. Этот процесс выравнивает вложения и удаляет их двумерное позиционное смещение, что затрудняет модели обобщение на различные разрешения во время вывода. Кроме того, текущая конструкция sausage имеет общие ограничения с моделями, условные вложения которых основаны только на тексте клипа, такие как стабильная диффузия. Эти ограничения включают сложности в отображении текста и работе с комплексными сценами. Однако важно отметить, что относительно низкие вычислительные требования этой модели позволяют быстро итерироваться и экспериментировать с ее конструкцией. Несмотря на эти проблемы, разработчики непрерывно работают над их улучшением и решением.

Вместе передовые технологии sausage переформатируют мир генерации текста в изображение. Ее уникальный двухэтапный процесс сжатия, непревзойденные возможности пространственного сжатия и быстрая адаптация к различным разрешениям изображений объединяются, чтобы создать модель искусственного интеллекта, меняющую правила игры. Для тех, кто готов справиться с самыми сложными задачами искусственного интеллекта, эта технология открывает совершенно новые горизонты. Независимо от того, ведете ли вы технологический бизнес или просто увлечены искусственным интеллектом, sausage имеет потенциал поднять ваши проекты на совершенно новый уровень. Стоит исследовать, как это замечательное достижение может улучшить ваши исследования в области искусственного интеллекта.

Автор статьи Иван Сидоров

Новости

Сосиска - самое быстрое генерирование изображений

Еще по этой теме

Ideogram AI: умопомрачительный генератор AI-изображений, решающий проблемы с текстом

Будущее фармацевтики: Роль искусственного интеллекта в трансформации здравоохранения

Игровая платформа Apple (концепция)