Нова модель перетворення тексту у відео Sora: чи змінить вона цифровий світ

ТЕКСТ:

Головна редакторка «Куншт», журналістка

30 листопада 2022 року компанія OpenAI випустила ChatGPT, якому пророчать довге й успішне майбутнє. Трохи більше ніж через рік та сама компанія анонсувала Sora — модель, яка перетворює текст на відео за лічені хвилини, і робить це, за словами розробників, якісніше за інші. Наразі Sora доступна лише для невеликого кола обраних, однак з часом її зможе використовувати кожен. У чому особливості цього інструменту, як він працює і які проблеми може створити? «Куншт» розпитав про це Олександра Гончара — співзасновника й технічного директора Neurons Lab.

Sora — далеко не перша модель text-to-video. До того їх створювали багато компаній, зокрема відомих, на кшталт Google чи Meta. Які особливості саме в Sora? Чому вони? Чому саме вона «вистрелила»?

Я б ще додав іншу компанію, з продуктом якої можна «погратися». Це комерційний продукт, але його принаймні можна запустити і генерувати відео. Це компанія Runway, яка має продукти Gen-1 і Gen-2. Свого часу вони теж наробили шуму. Але в OpenAI завжди хороші піар-компанії.

Ми зараз не можемо «поклацати» Sora, але з доступної інформації вона справді видається кращою, ніж Gen-2. Але це також залежить від завдання. Можливо, для складних завдань вона працюватиме краще, а для повсякденних суттєвої різниці не буде.

Sora — це модель типу трансформер, як і ChatGPT. Трансформер бере шматочки тексту «на вхід» і вчиться генерувати наступні слова. Завдяки мільйонам, мільярдам цих шматочків мережа вивчає структуру тексту і генерує те, що нам здається штучним інтелектом. У Sora замість тексту — шматочки картинок: вона нарізає кожен кадр відео на маленькі «патчі», приблизно 20 на 20 пікселів. Нейронна мережа кодує зображення пікселів в певний вектор — просто набір цифр. Цей набір цифр «кидають» у трансформер, і він генерує потрібний текст чи зображення.

Однак Sora — це diffusion transformer. Ідея diffusion полягає у тому, що спочатку генерується дуже розмита картинка або відео, а потім технологія її «конкретизує». Тож перший крок — згенерувати незрозуміле зображення, а наступний — просто його покращувати, тобто зменшувати пікселізацію. Sora поєднує обидві ці технології.

Чи схожі технології Gen-1 і Gen-2 на Sora?

Gen-1 і Gen-2 — не трансформери, вони базуються лише на diffusion-моделях. Це Spatial Temporal Latent Diffusion, тобто вони генерують картинки покроково. Під час тренування ця модель «розділяє» структуру відео (тобто геометрію та динаміку між кадрами) і контент — які саме обʼєкти мають бути на відео. За структуру відповідає нейронна мережа MiDaS, а за контент — CLIP. На відміну від Sora, де за динаміку між кадрами відповідають трансформери, в Gen-1 та Gen-2 за цю динаміку відповідає спеціальний темпоральний шар всередині diffusion-моделі. Можна спекулювати, що саме цей вибір у дизайні нейронної мережі є одним із вирішальних у різниці у якості між моделями Runway та Sora.

Наскільки складніше зробити модель, яка перетворює текст на відео, якщо порівнювати з моделлю, яка перетворює текст на картинку?

Перетворення тексту на зображення — це генерування картинки, скажімо, 1000 на 1000 пікселів. Щоб зробити хвилинне відео з, наприклад, 60 FPS (частота кадрів на секунду — ред.), потрібно 3600 картинок розміром 1000 на 1000 пікселів. Тобто це, за своєю суттю, в 3600 разів складніше завдання. До того ж потрібно враховувати, що між кожним цим кадром потрібно мати плавний перехід, це теж додає складності у модель з точки зору кількості параметрів і складності задачі. В OpenAI не відкривають пейпер (наукову публікацію про продукт — ред.), тому ми не можемо почитати, яку формулу застосовують. Але зазвичай це формули, які описують близькість картинок. Також є формули, які описують динаміку груп пікселів, як вони перетікають з одного кадру в інший.

Які обмеження є у таких моделей?

Наприклад, в OpenAI написали претензійне твердження, що це вже симулятор світів. Як приклад показали: якщо на згенерованому відео хтось кусає гамбургер, а потім відводить руку, і кадр іде за гамбургером, то цей надкус залишається. Вони кажуть¹, що нейронка вивчила причинно-наслідкові зв’язки, бо бургер залишився надкушений. Що це симуляція фізики.

Але чи «розуміє» ChatGPT граматику й стиль, якщо порівнювати з текстом? Чи Sora «розуміє» причинно-наслідкові зв’язки й фізику гамбургера як об’єкта — наприклад, його щільність чи інші характеристики? І чи потрібно це розуміти?

Це залежить від того, які завдання ставити моделі. Для того, щоб генерувати відео для банерів на сайтах, цього розуміти не потрібно. Так, текстові моделі зараз не пишуть шедеврів: вони пишуть пости у твіттері й тексти для реклами у фейсбуці. Скоріш за все, так буде і з відеомоделями. Можливо, ми для відео про програмування не будемо записувати в студії, як хтось клацає по клавішах, а просто згенеруємо його.

Безліч матеріалів про моделі text-to-video застерігають, що вони будуть потужним інструментом для дезінформації. Чи є на сьогодні вже відомі особливості, за якими користувач може визначити, що відео згенероване?

Перший підхід — алгоритмічний. Кожна компанія, яка генерує якийсь контент, має вставляти digital marks, водяний знак і ставити їх на згенеровану картинку чи відео. Або потрібно робити інші нейронки, які вивчають, що це згенероване відео. Але в теорії це має бути плагін у браузері, який завжди буде про це писати.

Другий підхід — реалістичний. Зараз у реальності ми просто очима дивимося на контент. На мою думку, згенеровані картинки чи відео трохи схожі на комп’ютерну гру: ідеальний фон, ідеальне волосся тощо.

Наприклад, ми спілкуємося в зумі й бачимо одне одного через камери. Це не ідеальна картинка. Камери — це фізичні апарати, інформація проходить через оптоволокно, тобто певний фізичний канал. Усе це змінює інформацію. Згенероване відео не має цього фізичного впливу, тому воно трохи схоже на мультик. Так само, коли ми дивимось на обʼєкти реального світу нашими очима, то ми теж їх «обробляємо» через фізику нашої зорової системи.

Але є багато розумників, які роблять цікаві промпти (детальні описи команд для нейронних мереж, які допомагають отримати кращу відповідь), щоб згенерувати картинку. Наприклад, так, ніби це сфотографовано на мобільний телефон, на iPhone 5, до певного розширення і так далі. Тобто роблять це в стилі старого телефона. І ось це цікавий напрямок для фейків, тому що я бачив такі картинки, і їх визначити складніше, бо вони можуть виглядати «не мультяшно». Не знаю, як би я зреагував, якби побачив це просто десь в інтернеті.

Тому думаю, що простір для дезінформації є, якщо навчити модель на даних ось таких записів у зумі, як наш, чи в зображеннях, які імітують якість старих телефонів. І якщо у людини або групи низький рівень цифрової освіти (деякі країни або вікові категорії), це може подіяти.

Уже зараз OpenAI стикається із судовими позовами щодо використання даних, на яке не давали дозволу. За це з ними судиться, наприклад, New York Times, чиї статті використовували для навчання ChatGPT. Наскільки це сповільнює розвиток подібних технологій і чи вплине це на text-to-video моделі?

Тут є дві сторони. З точки зору хардкор-капіталізму, OpenAI вигідніше просто заплатити штраф і далі збирати дані, адже вони на цьому зароблять набагато більше, ніж віддадуть за штраф. З точки зору соціальної відповідальності, це проблема.

Найгучніший кейс зараз це позов від New York Times², причому в ньому немає конкретної бажаної суми компенсації, лише згадка про «незаконне копіювання безцінної роботи NYT» що «коштує мільярди доларів». Зі свого боку NYT пропонує від 1 до 5 мільйонів доларів за ліцензію і право використання їхніх робіт для тренування своїх моделей³, що повністю логічно з точки зору правил гри капіталізму. До того ж є новини про те, що нещодавно такі інтернет-гіганти як Tumblr та Wordpress погодились продавати свої дані для навчання ШІ-моделей⁴. Тому про сповільнення будь-якого розвитку говорити поки що зарано.

Але зараз можуть використовувати, в принципі, будь-які дані, і це саму технологію не зупиняє. У цьому і краса, і проблема інтернету. Тобто це всім доступно, це дуже егалітарна річ, всі можуть написати що завгодно.

Чому OpenAI не розкриває свої пейпери? Чи це тимчасове рішення?

Так, OpenAI — це цікавий оксюморон, вони нічого не відкривають. Є конспірологічна теорія, що штучний інтелект — це щось на зразок стратегічної зброї, тому що це чудовий інструмент для маніпуляції. Можливо, з часом кожна країна буде мати свою LLM (велика мовна модель — ред.), яка «говорить» правильні речі — скажімо, по-своєму трактує історію. Тож, думаю, держава може впливати на OpenAI.

Чи може це бути вигідно з точки зору конкуренції?

Насправді прогрес до моменту появи ChatGPT дуже сильно розвивався за рахунок open source (відкрите програмне забезпечення — ред.). І насправді open source зараз не дуже відстає від GPT-4. Наприклад, у нашій роботі ми часто використовуємо моделі Mistral і AdLamo. Справді для складних цікавих завдань вони не так добре працюють. Але, наприклад, якщо це просто чат-бот для відповіді на актуальні запитання, все чудово працює.

Я це бачу так, що, скоріш за все, будуть різні класи моделей: державні, комерційні і відкриті. І це насправді добре для конкуренції.

Посилання:

Статті, які можуть вас зацікавити

Стаття Технології — 05 червня

ШІ for She: інтерв'ю з Веронікою Юрчук

Стаття Погляд — 28 грудня

Штучний інтелект: у пошуках об’єктивності ‒ блог Марії Гур'євої

Стаття Технології — 23 лютого

Нова модель перетворення тексту у відео Sora: чи змінить вона цифровий світ

Посилання:

Статті, які можуть вас зацікавити

ШІ for She: інтерв'ю з Веронікою Юрчук

Штучний інтелект: у пошуках об’єктивності ‒ блог Марії Гур'євої

Як навчитися спілкуватися з ChatGPT й чи забере він вашу роботу: інтерв'ю з Олесем Петрівим

Популярні статті

Неандерталець у кожному з нас: інтервʼю з нобелівським лауреатом Сванте Паабо

Чому ми шукаємо в собі діагнози? Мирослава Дзісь про межі норми

Інформаційні операції минулого. Пост правди, сезон 5, епізод 5