По-малките и по-евтини AI модели започват да изместват по-големите

Базираната в Маями компания Arcee е една от нарастващия брой компании, които преосмислят общоприетото схващане в технологичната индустрия, че по-големият винаги е по-добър за изкуствения интелект

19:10 | 9 август 2024
Автор: Рейчъл Метз
Снимка: Bloomberg L.P.
Снимка: Bloomberg L.P.

От години технологични гиганти като Google и стартъпи като OpenAI се надпреварват да създават все по-големи и по-скъпи модели на изкуствен интелект, използвайки огромно количество онлайн данни. Тази технология, внедрена в чатботове като ChatGPT, може да се справи с широк спектър от сложни заявки - от писане на код и планиране на пътувания до съставяне на шекспирови сонети за сладолед.

Марк Маккуейд залага на различна стратегия. Arcee.AI, стартъпът, на който той е съосновател миналата година, помага на компаниите да обучават и внедряват все по-популярен - и много по-малък - подход към ИИ: малки езикови модели. Вместо да се опитва да прави всичко, което ChatGPT може, софтуерът на Arcee помага за изпълнението на по-ограничен набор от ежедневни корпоративни задачи - като например изграждането на услуга, която отговаря само на въпроси, свързани с данъците - без да изисква толкова много данни. "Казвам, че в 99% от случаите на бизнес употреба вероятно не е необходимо да знаете кой е спечелил златен олимпийски медал през 1968 г.", казва Маккуейд.

Базираната в Маями компания Arcee е една от нарастващия брой компании, които преосмислят общоприетото схващане в технологичната индустрия, че по-големият винаги е по-добър за изкуствения интелект. Подхранвани от милиарди рисков капитал, стартъпите се надпреварват да разработват по-мощни големи езикови модели за поддръжка на чатботове и други услуги с ИИ, като главният изпълнителен директор на Anthropic Дарио Амодей прогнозира, че в крайна сметка обучението на модели ще струва 100 млрд. долара в сравнение със 100 млн. долара днес.

Това мислене със сигурност все още съществува, но стартъпи като Arcee, Sakana AI и Hugging Face сега привличат инвеститори и клиенти, като възприемат по-малък - и по-достъпен - подход. Големите технологични компании също се учат да мислят в малки мащаби. Google на Alphabet Inc., Meta Platforms Inc., OpenAI и Anthropic наскоро пуснаха софтуер, който е по-компактен и пъргав от водещите им големи езикови модели или LLM.

Инерцията около малките модели се дължи на редица фактори, включително нови технологични подобрения, нарастващо осъзнаване на огромните енергийни нужди, свързани с големите езикови модели, и пазарна възможност да се предложи на бизнеса по-разнообразна гама от възможности за използване на ИИ за различни цели. Малките езикови модели са по-евтини не само за технологичните компании, но и за бизнес клиентите, като по този начин се понижава летвата за приемане. Като се има предвид, че инвеститорите все повече се притесняват от високите разходи и несигурната възвръщаемост на начинанията, свързани с ИИ, повече технологични компании може да изберат този път.

"Като цяло малките модели имат голям смисъл", казва Томас Улф, съосновател и главен научен директор на Hugging Face, която създава софтуер за ИИ и го хоства за други компании. "Просто дълго време не знаехме как да ги направим добре".

Hugging Face усъвършенства техники като използването на по-внимателно подбрани набори от данни и по-ефективното обучение на моделите на изкуствения интелект, казва Волф. През юли стартъпът пусна трио малки модели с отворен код и общо предназначение, наречени SmolLM, които са достатъчно компактни, за да се използват директно на смартфони и лаптопи. Това би могло да направи по-бързо, по-евтино и по-сигурно стартирането на софтуер за изкуствен интелект, отколкото свързването към отдалечена облачна услуга, както е необходимо за по-големите модели.

Съществува ясно изразено търсене на по-малки алтернативи. Компанията Arcee.AI, която миналия месец набра 24 млн. долара от серия А, обучи малък модел, който може да отговаря на данъчни въпроси за Thomson Reuters, и създаде чатбот за кариерно обучение за Guild, компания за повишаване на квалификацията. И двете компании управляват тези модели чрез собствените си акаунти в Amazon Web Services.

Гилдията, която работи със служители на Target и Disney, започна да обмисля използването на голям езиков модел като този, който захранва ChatGPT на OpenAI, преди повече от година, за да предоставя кариерни съвети на повече хора, отколкото би могла с екипа си от човешки треньори. Макар че ChatGPT се справи добре, според Мат Бишъп, ръководител на отдела за изкуствен интелект в Гилдията, той не е имал усещането, което компанията е търсила.

Малкият езиков модел от Arcee, който Guild тества в момента, е бил обучен на стотици хиляди анонимни разговори между нейните човешки треньори и потребители, казва Бишоп, което е много по-малко от общия обем данни, подавани на типичен LLM. Услугата "наистина олицетворява нашата марка, нашия тон, нашата етика", каза той, а отговорите са предпочитани от служителите на Гилдията в 93% от случаите в сравнение с ChatGPT.

"Можете да бъдете по-ограничени и фокусирани върху модела си, когато той е по-малък и наистина се съсредоточавате върху задачата и случая на употреба", казва Маккуейд, "за разлика от модела, който може да прави всичко, което трябва да направите."

OpenAI, подобно на други големи компании за изкуствен интелект, също разнообразява предложенията си и се опитва да се конкурира на всички фронтове. Миналия месец OpenAI представи "мини" версия на своя водещ модел GPT-4o като по-ефективен и достъпен вариант за клиентите. Оливие Годеман, ръководител на продуктовия отдел за API на OpenAI, заяви, че очаква разработчиците да използват GPT-4o mini за обобщаване, основно кодиране и извличане на данни. В същото време по-големите и по-скъпи модели на компанията ще продължат да се използват за по-сложни задачи.

"Разбира се, искаме да продължим да работим с гранични модели, да разширяваме възможностите си", каза преди това Годемент пред Bloomberg News. "Но също така искаме да имаме най-добрите малки модели."

Дори когато технологичната индустрия приема малките модели, не всички са съгласни как да ги определят. Маккуейд каза, че терминът е "субективен", но за него той се отнася до системите за изкуствен интелект, които имат 70 милиарда или по-малко параметри, което е препратка към общия брой променливи, уловени от модела по време на процеса на обучение. По този показател моделите SmolLM на Hugging Face, които варират от 135 милиона до 1,7 милиарда параметри, са практически микроскопични. (Ако тези цифри все още ви се струват големи, имайте предвид, че моделът Llama AI на Meta се предлага в три размера, вариращи от 8 милиарда до 400 милиарда параметъра.)

Както и в много други аспекти на бързо развиващата се област на ИИ, стандартите за малки модели вероятно ще продължат да се променят. Дейвид Ха, съосновател и главен изпълнителен директор на базирания в Токио стартъп за малки модели Sakana, заяви, че моделите на ИИ, които преди няколко години са изглеждали скандално големи, днес изглеждат "скромни".

"Размерът винаги е относителен", казва Ха.