Инструментът за подкасти на Google с AI е защеметяващ, но дали е полезен?

Бизнесът все още не успява да реализира истинска възвръщаемост на инвестициите от генеративния AI

18:08 | 19 октомври 2024
Автор: Парми Олсън
Снимка: Bloomberg L.P.
Снимка: Bloomberg L.P.

Google преживява своя собствен ChatGPT момент.

Технолози, учени и основателят на OpenAI Сам Алтман хвалят функцията, добавена през септември от NotebookLM - безплатен инструмент за онлайн проучвания, който основната компания на Alphabet Inc. пусна миналата година. Качването на документи на сайта позволява на потребителите да отговарят на въпроси относно съдържанието им или да го синтезират в резюмета, информационни бележки и др. Сега той може да превърне това съдържание и в подкаст, който стряскащо много наподобява човешки глас.

Генерираните от изкуствен интелект водещи от мъжки и женски пол не само имат звучни гласове като от FM-радио, но и прекъсват разговорите си с паразитни думи, като„ами“, паузи и закачливи фрази като „чуй това“. Закачките звучат толкова непринудено, че спокойно може да се заблудите, че разговорът е между хора.

Използвал съм инструмента, за да създам 15-минутен подкаст за презентация от 208 страници, чието прочитане би отнело час или повече, а други са го използвали, за да се потопят в научни статии или в собствените си дневници.

NotebookLM е вдъхновил изблик на експерименти, подобно на тези, направени след пускането на ChatGPT.

Системата работи с флагманския модел на Google за изкуствен интелект Gemini 1.5, който захранва и „AI прегледите“, които сега заместват първите резултати на много търсения в Google; но тя има и своя тайна съставка, за да звучат гласовете толкова човешки. „В него има някаква нова аудиотехнология, която, мисля, не е напълно публична“, казва ми Стивън Джонсън, редакционен директор на Google NotebookLM.

„Това е най-реалистичният разговор, който компютърът някога е генерирал.“ Той добави, че е имало „огромен скок“ в използването на NotebookLM, след като е добавил генератора на подкасти.

Коментаторите нарекоха функцията „умопомрачителна“, а Андрей Карпати, съосновател на OpenAI и бивш ръководител на отдела за изкуствен интелект в Tesla Inc., заяви, че това „вече е любимият ми подкаст“. Вероятно Карпати вече потребява по този начин голяма част от съдържанието си. Това наистина може да е мястото, където се крие истинският потенциал за революция в тази технология - не в замяната на създателите на подкасти, а в добавянето на нов начин за усвояване на информация. Според фирмата за пазарни проучвания Canalys доставките на безжични слушалки ще нараснат с 11% тази година и с 16% през 2025 г., което предполага, че все повече хора могат да се насочат и към този метод.

Апетит към

Апетът към аудио съдържание | Прогнозите са, че световните доставки на безжични слушалки ще продължат да нарастват през следващите няколко години

Моето собствено мнение: Гласовете са необикновени и показват ниво на реализъм, надхвърлящо всички други аудиоклипове, генерирани от изкуствен интелект, които съм чувал преди. Но потребителският интерфейс на NotebookLM е вбесяващо неудобен за навигация, а след като изслушах няколко от подкастите с изкуствен интелект, ми беше трудно да обърна внимание изцяло на някои от разговорите.

Може би има някаква неосезаема връзка, която хората имат чрез гласа и която по естествен начин ни кара да внимаваме. По време на ранните ми години в радиото един ветеран ми каза, че тайната на страхотното четене на новини не е в някаква гласова инфлексия, а просто да обръщаш внимание на това, което четеш.

Поради някаква причина слушателите се оказаха по-ангажирани. (Опитайте сами, когато четете нещо на глас.) Трудно можем да си представим, че компютърът би могъл да пресъздаде това явление.

По-големият въпрос пред Google е дали ще превърне магическата си функция в нещо полезно за бизнеса. В миналото невинаги е успявала да реализира успешно собствените си иновации. Нейните изследователи например са известни с това, че изобретиха ключов алгоритъм, наречен Transformer – от него идва буквата Т в ChatGPT - но OpenAI се възползва от технологията. Може би трябва да очакваме същото и от конгломерат, сглобен чрез придобивания като DeepMind, Android, YouTube и DoubleClick, който е затруднен от дилемата на иноватора: ако направи търсенето с изкуствен интелект твърде добро Google рискува да сама да навреди на доходоносния си бизнес с търсене.

„Уау-факторът“ в AI може да доведе и до вълнение и прекомерни разходи, което означава, че инвеститорите трябва да бъдат предпазливи по отношение на новите попадения. Уолстрийт вече започва да се опасява от разминаването между вдъхновяващите преживявания, които хората за първи път изпитаха с ChatGPT, и ползите от генеративния AI за бизнеса.

Google в крайна сметка ще добави други гласове към своя генератор на подкасти, а Джонсън разказва, че компанията в крайна сметка ще продава премиум версия, включително такава, насочена към бизнеса. В този смисъл аудиопрегледите могат да служат просто като елегантен маркетингов трик за NotebookLM, чиято полезност е много по-очевидна: прост инструмент за използване на модела на Google за изкуствен интелект върху собствените ви документи и данни.

Този процес на фина настройка, известен в индустрията като RAG (или Retrieval-Augmented Generation), обикновено е по-скъп и сложен, когато се извършва като част от официален абонамент за Gemini на Google или други модели с изкуствен интелект.

Ако реалистичните гласове на AI накарат повече хора да използват NotebookLM и Gemini, Google ще превърне магията си в приходи. Но бизнесът все още не успява да реализира истинска възвръщаемост на инвестициите от генеративния AI, а един от най-големите скептици в тази област, Дарон Аджемоглу, току-що спечели Нобелова награда за икономика, което придава достоверност на възникващите въпроси относно реалната полезност на AI. За Google това означава трудна битка.

Парми Олсън е колумнист на Bloomberg, която пише за технологиите. Бивш репортер на Wall Street Journal и Forbes, тя е автор на книгата We are Аnonymous.