Nvidia Corp. съфинансира инвестиция в размер на 50 млн. долара в Twelve Labs Inc., залагайки на двойка инженери от корейски произход, които искат да помогнат на потребителите бързо да търсят и анализират множество видеоклипове.
Във финансирането участваха американската компания New Enterprise Associates и съществуващи спонсори, включително Radical Ventures, Index Ventures SA и Korea Investment Partners, се казва в изявление на стартъпа. Сделката поддържа трескавия темп на инвестиции в стартъпи за Nvidia, която от 2023 г. насам влива капитал в перспективни фирми за изкуствен интелект - от Hugging Face и Cohere до Mistral AI.
Twelve Labs има голям спонсор в лицето на Nvidia, чиито чипове са от основно значение за обучението и развитието на генеративния ИИ. Американският производител на чипове изгражда портфолио от инвестиции в ключови сфери на ИИ - от хардуер до модели и приложения. Последният му избор е стартъп със седалище в Сан Франциско, който предоставя основополагащи модели за изпълнение на различни задачи, като например изграждане на чатботове или превод на езици. Основната цел е да се направи видеото достъпно за търсене и разбираемо.
Twelve Labs е създадена през 2021 г., след като съоснователите Джае Лий и Ейдън Лий се запознават по време на основното военно обучение в родната им Корея. Клиентите на компанията включват влиятелни личности в социалните медии, спортни лиги в САЩ и Европа и холивудски филмови студия - някои от тях с архиви отпреди 75 години. Стартъпът има за цел да улесни търсенето, като извлича точни моменти в морето от онлайн съдържание - например, когато даден футболист отбелязва тъчдаун с предно салто или когато Гордън Рамзи се е ядосал на преварени яйца.
„Видеото е десетилетен проблем в областта на изкуствения интелект. То е информационно наситено и е предизвикателство за използване", казва Дже Лий, който е и главен изпълнителен директор, за Bloomberg News. „Близо 80% от световните данни са във видео. За нас видеото е първият език и ние изградихме технологията си от нулата.“
Twelve Labs има за цел да си сътрудничи с Nvidia, за да предостави своите платформи Marengo и Pegasus на повече потребители. За разлика от други модели, които работят предимно с текст, те започнаха да се обучават на видеоклипове, което от своя страна помага да се направи търсенето на визуална основа по-интуитивно, каза Лий. Моделът с изкуствен интелект работи с видео, текст, изображение и аудио, като позволява търсене в множество видове входящи данни, като например текст към видео, текст към аудио и изображение към видео.
„Започнахме, преди мултимодалността да стане нещо“, каза главният изпълнителен директор. „Започнахме работа, преди основополагащите модели да са готини.“
Twelve Labs заяви, че нейните модели се използват от над 30 000 разработчици в индустрии като медийна и развлекателна, рекламна, автомобилна и за сигурност. Те използват нейните модели за смислово търсене на видео и за генериране на резюмета. Стартъпът очаква броят на служителите му да се удвои и през 2024 г. да достигне около 80 души.
Най-новият модел на стартъпа Pegasus, който генерира текст от видео, е в процес на бета тестване. Той е предназначен за разбиране и търсене в сложно видеосъдържание, като помага за обобщаване, търсене и намиране на отговори и анализ. Twelve Labs обучава едновременно няколко компонента на основополагащия модел, като намалява размера му до около една пета от този при първоначалното му стартиране. Това от своя страна повишава изчислителната и енергийната ефективност.
Постиженията правят работата с видеоклипове толкова лесна, колкото и с текст, и „не струват твърде много“, казва Лий, главен изпълнителен директор.