Възходът на малките езикови модели за намаляване на разходите за изкуствен интелект

Рейчъл Метц, Bloomberg

17:30 | 13 август 2024
Преводач: Петя Кушева

Какво е малък езиков модел?

Малкият езиков модел е такова, каквото звучи. Голям езиков модел се обучава върху тон данни, често събрани от целия интернет и използвани за редица задачи. Хората могат да го използват, за да напишат Шекспирови сонети, сонети за сладолед или могат да го използват, за да обобщят бележки от заседания. Много разнообразен набор от задачи, които са свързани с човешкия език.

Малките модели се обучават с много по-малък, по-прецизен набор от данни. Идеята е, че на много компании ще им трябват за конкретни неща. Нека бъдем ясни, компаниите са клиентите на много от големите езикови модели. Те са тези с многото пари, а компаниите за ИИ искат да им плащат за това. Може би едно нещо, в което са наистина добри, нещо свързано с кодирането, може би бот за чат, който е много фокусиран върху въпроси за подготовка на данъци, например.

Надеждата на много от тези компании е, че тези модели ще бъдат по-енергийно ефективни и ще бъдат по-целенасочени и като цяло просто ще бъдат по-полезни.

Кой е водещ в малките езикови модели? Донякъде въпросът може да е странен, но всеки път, когато се появи много авангарден, голям езиков модел, го отразяваме като новина в програмата. Имаме ли представа кой е фокусиран върху тази област?

Доста голяма група компании участват в това. Има няколко стартапи, които са много фокусирани върху него. Говорих с една компания на име arcee.ai. Те са изцяло фокусирани върху персонализирането на малки модели с отворен код. Персонализират ги за клиенти, включително компания, наречена GILD, която ги използва, за да направи чатбот за кариерно обучение, така че да могат да се разраснат повече, отколкото биха могли с кариерните си обучители. Sacana.ai е компания в Япония, която работи върху това. Освен това големите технологични компании все по-често пускат малки версии на своите по-големи водещи модели като наскоро пуснатия от OpenAI модел GPT-4o mini.