Китайските AI видеогенератори отварят кутията на Пандора

Технологията има за цел да намали разликата със САЩ. Но напредъкът в Китай и свободният достъп трябва да тревожи целия свят

19:15 | 17 август 2024

Автор: Катрин Торбек

Снимка: Bloomberg

Китайските технологични компании се надпреварват с инструменти за изкуствен интелект, които могат да превърнат текст в кратки видеоклипове. Публичното пускане на шепа AI видеогенератори от големи компании и стартиращи предприятия има за цел да покаже как страната намалява изоставането със САЩ, когато става въпрос за технологията. Но те едновременно отварят кутията на Пандора, позволявайки на всеки да създава кратки клипове от почти всяка подкана, която може да си представи.

Пробвах някои. Не ми дадоха никакви видеоклипове как Си Дзинпин танцува брейк, но един направи клип от снимката на главата ми, като свали сакото и ризата ми, когато тествах за какво биха могли да бъдат използвани. Въпреки че видеоклиповете не винаги бяха с високо качество, в крайна сметка все пак съжалявам за едно поколение момичета и млади хора, които растат с тази толкова лесно достъпна технология.

През последните седмици интернет гигантът Kuaishou Technology пусна своя AI видео инструмент Kling; стартъп Zhipu AI стартира Ying; компанията майка на TikTok ByteDance Ltd. представи Jimeng; и стартиращата компания Shengshu AI, с помощта на университета Цинхуа, стартира Vidu. Съобщава се също, че Alibaba Group Holding Ltd. работи върху собствено приложение за генериране на видео с изкуствен интелект. Бързането да се предложат тези услуги на китайската общественост е в рязък контраст с фирмите в САЩ. OpenAI показа своя инструмент за генериране на видео, Sora, през февруари, но все още не го е пуснал публично. В момента Veo на Google е достъпен само за няколко избрани създатели и тестери чрез списък с чакащи.

Не успях да се добера до Ying на Zhipu AI или Jimeng от ByteDance извън Китай. Но прекарах известно време с предложенията на Kuaishou и Shengshu и резултатите показаха мимолетни моменти на умопомрачителни възможности. И все пак повечето видеоклипове, които генерирах, бяха много кратки клипове със странно съдържание, които имаха трудности с човешки лица, движение и основни принципи на физиката. Все още са в начален стадий, но тези клипове ми се сториха безполезни и просто повече храна за тезата за много шум без особена полза.

Любимото ми творение беше реалистична таби котка със сиви ивици, която яде купа рамен в космоса от Kling (моята подкана беше: „Можете ли да направите реалистично видео на сива раирана котка, която яде рамен в космоса?“), но той добави страховита човешка ръка, за да помогне на котето да ядр юфката с пръчици. Vidu ми даде невероятно реалистичен кадър на двама влюбени в кинематографичния стил на легендарния режисьор Уонг Кар-Вай, но също така премахна дрехите (от раменете нагоре) в моята собствена снимка, когато беше подканен. (Когато помолих инструмента Kling да премахне сакото и ризата ми от моя снимка, той не се подчини на командата).

Kuaishou каза, че ще използва Kling, за да направи фентъзи късометражен филм, но е трудно да си представя, че това ще е нещо, което да може да се гледа, тъй като технологията бе изключително капризна, когато я използвах. Един клип, който направих с жена, която танцува брейк, беше кошмарен. Анимирано видео, което генерирах, имаше красив фон, но неразбираема фигура, летяща над него. Освен това ми отне приблизително пет минути, за да генерирам петсекунден клип, така че си представете колко часа ще са необходими, за да направя по-дълъг видеоклип, без да включвам старателната постпродукция и редактиране.

Рядката сдържаност на американските технологични гиганти при пускането на тези инструменти е разумна (и им спестява много компютърни ресурси). Но също така е трудно да се прецени колко по-добри всъщност са техните продукти в сравнение с китайските колеги. От подбраните закачки, които видяхме от OpenAI и Google, те изглеждат много по-способни да създават реалистично видео съдържание.

Това може да се дължи отчасти на техния достъп до модерни чипове и компютърно оборудване. Обучението на AI видеомодели изисква огромни количества визуални данни и мощност за обработка. Публикуваното изследване на OpenAI за Sora установи, че качеството на видеото „се подобрява значително“ с увеличаване на изчислителните ресурси за обучение.

Понастоящем достъпът на Пекин до най-модерното оборудване от Nvidia Corp. и други е ограничен. Но китайските технологични фирми намират начини да получат тези продукти чрез сложните пътища на сивия пазар и се надпреварват да произвеждат сами усъвършенствани AI чипове. След пет до десет години се чудя колко по-мощни ще станат техните видеоуслуги и разклонения на AI.

Поддръжниците твърдят, че AI видеогенераторите ще демократизират креативността, давайки възможност на всеки с идея да прави свои собствени филми. Но непрозрачните данни за обучение повдигат въпроси относно правата върху интелектуалната собственост и как това може да повлияе на прехраната на професионалните творци. Съществуват и много основателни опасения относно злоупотребата, за да се създава всичко – от убедителна дезинформация до дийп-фейк порно.

Тази технология може все още да не е напълно надеждна, но публичното ѝ пускане в Китай бележи повратна точка. Междувременно настроенията в световен мащаб се влошават срещу генерираното от AI съдържание. Някои от първоначалните удивителни фактори, изпитани след пускането на ChatGPT преди почти две години, се превърнаха в умора и сега има въпроси как тази технология ще се превърне в нещо, което прави живота ни по-добър. Освен това има нарастващ контрол върху екологичния отпечатък на сектора, докато инвеститорите в световен мащаб преоценяват обещанията на AI.

Компаниите в САЩ и Китай трябва да подходят стратегически към този кръстопът, вместо да продължават с пълна пара напред в глобалната надпревара за тази технология. Китайските фирми трябва да вземат пример от американците и да се въздържат от пускането на тези инструменти на обществеността. И двете страни трябва да работят върху правила, за да възпират изкуственото съдържание от причиняване на вреди в реалния свят, както и да се справят с това откъде идват данните за обучението и кой има правата да ги използва.

Може да е твърде късно да върнем духа обратно в бутилката, но поколението, което трябва да съзрее под постоянна заплаха да бъде дълбоко фалшифицирано и измамено, заслужава повече.

Катрин Торбек е колумнист на Bloomberg Opinion, отразяващ технологиите в Азия. Преди това е била технологичен репортер за CNN и ABC News.