Битката за данни на технологичните гиганти при обучение на AI

Събирането на данни е толкова дълбоко вкоренено в бизнес моделите на фирми като Google и Meta Platforms Inc., че етиката на използването на творческия труд на хората без съгласие или компенсация изглежда се пренебрегва

13:03 | 9 април 2024

Автор: Парми Олсън

Снимка: Bloomberg L.P.

Преди няколко седмици главният технологичен директор на OpenAI беше попитан дали компанията му е използвала видеоклипове в YouTube за обучение на своите системи за изкуствен интелект (ИИ). Първоначално тя погледна с празен поглед. След това направи гримаса. Накрая Мира Мурати даде отговор, който избягваше мръсния и прикрит свят, в който тя и други технологични компании работят: "Всъщност не съм сигурна в това."

Според доклада на New York Times OpenAI всъщност е обучила своя изкуствен интелект на "повече от един милион часа видеоклипове в YouTube", като е използвала инструмент за разпознаване на реч, наречен Whisper. Целият текст на разговорите от транскрипциите е бил използван за обучение на GPT-4 - водещия голям езиков модел, който е в основата на ChatGPT.

Големите технологични играчи, които се надпреварват да създават все по-способни модели на изкуствен интелект, са достигнали до момент, в който имат все по-малко места за търсене на данни в публичната мрежа, а вземането на текст от транскрипциите на видеоклипове в YouTube предполага, че OpenAI е ровила из приложението, дори с риск да наруши нечии правила. Има голяма вероятност да го е направила. Главният изпълнителен директор на YouTube Нийл Мохан заяви пред Bloomberg News миналата седмица, че ако OpenAI е използвала видеоклипове от YouTube, за да усъвършенства своя изкуствен интелект, това би било "явно нарушение" на условията за ползване на YouTube. OpenAI не отговори на искането за коментар.

Все пак е трудно да се види, че напрежението между OpenAI и Google ще се увеличи заради това. Google, от една страна, едва ли може да се оплаче от нарушение на данните, когато целият ѝ бизнес е изграден върху събирането на личните данни на милиарди потребители, често в поразителен и изненадващ мащаб. Google също така е иззела данни за транскрипция от някои видеоклипове в YouTube, за да обучи своите модели за изкуствен интелект, каза Мохан пред Bloomberg.

Събирането на данни е толкова дълбоко вкоренено в бизнес моделите на фирми като Google и Meta Platforms Inc., че етиката на използването на творческия труд на хората без съгласие или компенсация изглежда се е превърнала в слона в стаята, който просто не се обсъжда. Когато адвокат в Meta наскоро изтъкнал етичните проблеми, свързани с извличането на интелектуална собственост на творци, те били посрещнати с мълчание според Times, който добавя, че ръководителите на Meta са обмисляли закупуването на книгоиздателство като Simon & Schuster, за да получат достъп до по-качествени данни, но са решили, че осигуряването на лицензи ще отнеме твърде много време.

В крайна сметка един от ръководителите на Meta посочва, че "единственото нещо, което ни пречи да бъдем толкова добри, колкото ChatGPT, е буквално само обемът на данните", съобщава Times. Тъй като изглежда, че OpenAI използва материали, защитени с авторски права, Meta може просто да последва този "пазарен прецедент", добави той.

Разбира се, самата Meta създаде прецедента много преди OpenAI, като събираше огромни количества лични данни от потребителите и ги споделяше с мрежа от трети страни. Ето защо самият Марк Зукърбърг наскоро говори за планината от данни на Facebook и Instagram, върху която седи, като за предимство в надпреварата за ИИ. "Следващата ключова част от нашия наръчник е ученето от уникални данни", каза той пред инвеститорите през февруари. "Във Facebook и Instagram има стотици милиарди публично споделени изображения и десетки милиарди публични видеоклипове".

Meta и Google не са отговорили на запитванията за коментар.

Опитвала ли се е Google да вземе някои от данните на Meta по същия начин, по който OpenAI е иззела YouTube? Опитвала ли се е Meta да използва потребителски данни на Google, за да ги добави към планината за обучение на изкуствен интелект? Може би никога няма да разберем, но е вероятно събирането на данни в стил "вземи и плячкосай", което се случва в бизнеса с изкуствен интелект в момента, да надхвърля OpenAI и YouTube. В крайна сметка именно добивът на данни е начинът, по който тези фирми се превърнаха в бизнес за няколко трилиона долара.
Ето защо е трудно да се види, че Google или Meta ще вдигнат публичен шум около това, че техните потребителски данни са станали обект на експлоатация. Това не само би било пример за хвърляне на камъни в стъклени къщи, но и би напомнило на хората колко много техният личен живот, а сега и творческата им работа, се превръщат в чужд продукт.

Парми Олсън е колумнист на Bloomberg, който пише за технологиите. Бивш репортер на Wall Street Journal и Forbes, тя е автор на книгата "Ние сме анонимни".