Google на Alphabet Inc. изобрети технологията, която е в основата на експлозията на изкуствения интелект (ИИ), но нейните продукти не са толкова популярни. Гигантът в търсенето се надява да промени това с дългоочакваното пускане на Gemini - "най-големият и най-способният модел на изкуствен интелект", който компанията някога е създавала.
Миналогодишният изключителен успех на OpenAI със своя чатбот за разговори ChatGPT накара все повече компании да експериментират с генеративен ИИ - технология, която може да автоматизира задачи като писане на код, обобщаване на доклади или създаване на маркетингови кампании въз основа на това, което потребителите искат. На презентация преди пускането на продукта в сряда Google подчерта, че Gemini е най-гъвкавият модел, който е създавала, защото се предлага в различни размери, включително версия, която може да работи директно на смартфони.
Това отличава програмата от останалите конкуренти. Моделът за изкуствен интелект - система, която се използва в основата на всички видове генеративни приложения за изкуствен интелект, ще има три версии. Това са Gemini Ultra, Gemini Pro и Gemini Nano. Ели Колинс, вицепрезидент по продуктите в Google DeepMind, заяви, че разнообразието означава, че Gemini "може да работи на всичко - от мобилни устройства до мащабни центрове за данни".
"От дълго време искахме да създадем ново поколение модели на ИИ, вдъхновени от начина, по който хората разбират и взаимодействат със света - ИИ, който се прилича повече като полезен сътрудник и по-малко като интелигентен софтуер", каза Колинс в разговор с репортери. "Gemini ни доближава до тази визия."
Преди пускането на модела на пазара компанията изпробва Gemini с набор от стандартни индустриални бенчмаркове и заяви, че в шест от осемте теста Gemini Pro е надминал модела GPT-3.5 на OpenAI. Google заяви, че Gemini също така е надминал GPT-4, най-новата версия на модела с общо предназначение на OpenAI, в седем от осемте тествани бенчмарка за разбиране на общ език, разсъждение, математика и писане на код.
Междувременно изчисления на Google показват, че AlphaCode 2, най-новият продукт на компанията с генеративен изкуствен интелект, който може да обяснява и генерира код, е надминал 85% от съперниците в областта на състезателното програмиране. Компанията публикува технически доклад, в който се обясняват по-задълбочено архитектурата на модела Gemini, процесът на обучение и оценката.
От сряда разработчиците на Android, които искат да създават приложения за смартфони и таблети, задвижвани от Gemini, ще могат да се регистрират за "нано" версията на модела с ИИ, която може да работи директно на такива устройства. Google също така заяви, че незабавно дава възможност за използване на Gemini в Pixel 8 Pro, нейния флагмански телефон, където той ще захранва нови генеративни функции на ИИ, като например възможността за обобщаване на точки от записан телефонен разговор.
Следващата седмица Google ще направи Gemini Pro достъпна за клиенти в облака чрез платформите си Vertex AI и AI Studio, съобщи компанията. Gemini Ultra, най-голямата версия на модела за изкуствен интелект на Google, ще бъде достъпна първо в рамките на програма за ранен достъп за разработчици и корпоративни компании, като подробности за програмата ще бъдат представени следващата седмица. В началото на следващата година тя ще бъде пусната за по-широка публична употреба.
Gemini също така ще може да се интегрира с огромния набор от приложения и услуги на Google чрез Bard - разговорния чатбот на компанията и конкурент на ChatGPT на OpenAI. Досега Bard използваше модела PaLM 2 на Google - голям езиков модел, който компанията обяви на годишната си конференция за разработчици през май.
През изминалата година Google беше подложена на натиск да преоткрие основния си бизнес с търсене и да отговори на развитието на програмите с изкуствен интелект, които могат да генерират съдържание. Въпреки че компанията отдавна се смята за пионер в изследванията на изкуствения интелект, някои критикуват ръководството ѝ за бавното излизане на пазара на продукти с изкуствен интелект, особено след огромните успехи на продукти като ChatGPT и генератора на изображения Dall-E. След пускането на GPT-4 на OpenAI през март Google се опитва да затвърди лидерството си в областта, включително да вкара новата технология в зрелия си бизнес с търсене.
Gemini е отговорът на компанията на този пазарен натиск. Google заяви, че моделът на изкуствения интелект е мултимодален в своята същност, което означава, че от самото начало е бил предварително обучен да обработва както текстове, така и изображения от потребителите. Например във видеодемонстрация Google показа как родител може да помогне за домашното на детето си, като качи изображение на математическа задача заедно със снимка на опитите за решаването ѝ в работен лист.
"Gemini не само може да решава тези задачи - каза Тейлър Апълбаум, софтуерен инженер в Google, по време на демонстрацията, - но и да чете отговорите и да разбира кое е правилно и кое не, както и да обяснява понятията, които се нуждаят от повече разяснения." Компанията също така заяви, че нейният "генеративен опит за търсене" - експериментална версия на търсачката на Google, която използва нейната технология за генеративен изкуствен интелект - ще включва новите възможности на Gemini до следващата година.
Все пак представителите на компанията предупредиха, че Gemini продължава да бъде податлив на "халюцинации" - невярна или измислена информация, създавана от генеративния изкуствен интелект. Колинс нарече това явление "нерешен изследователски проблем". Демонстрациите, които компанията показа на репортерите, бяха предварително записани.
Колинс заяви, че Gemini "има най-изчерпателните оценки за безопасност от всички модели на Google с изкуствен интелект". По думите му, за да оцени безопасността на Gemini, Google е подложила модела на изкуствен интелект на противниково тестване, т.е. на подкани, които имитират лош играч, опитващ се да се възползва от програмата. Тестването включваше "реални токсични подкани" - тест, разработен от Института за изкуствен интелект "Алън", който съдържа над 100 000 подкани, взети от интернет, и който има за цел да помогне на изследователите на изкуствения интелект да проверяват големи езикови модели за реч на омразата и политически пристрастия.
Компанията също така подчерта, че инструментът ще бъде бърз. Gemini използва нова архитектура на суперкомпютъра с обновени чипове за обработка, които му позволяват да работи по-бързо от по-ранните по-малки модели, заявиха от компанията. Google използва нова версия на своите облачни чипове - Cloud Tensor Processing Units (TPU), които са разработени в компанията и могат да обучават съществуващите модели 2,8 пъти по-бързо от предшествениците. Амин Вахдат, вицепрезидент на Google по машинно обучение, заяви, че подобен подход дава на Google "нов поглед към бъдещата стандартна инфраструктура за изкуствен интелект". Компанията все още използва чипове за ИИ на трети страни, за да изпълнява моделите си Gemini, добави той.
Gemini ще бъде интегриран в Bard, генеративния чатбот с изкуствен интелект на Google, който стартира през март, което ще му позволи да се включи в най-популярните услуги на компанията, включително Gmail, Maps, Docs и YouTube. Внедряването ще се осъществи на два различни етапа: От сряда Bard ще се захранва от Gemini Pro, което ще даде възможност за усъвършенствани разсъждения, планиране, разбиране и други възможности.Той ще може да работи на английски език в 170 държави и територии - но най-вече не в Европа и Обединеното кралство, където компанията заяви, че работи с местните регулаторни органи.
В началото на следващата година компанията планира да пусне на пазара Bard Advanced, който ще се захранва от по-способния модел Gemini Ultra. Google заяви, че скоро ще стартира програма за доверени тестери, за да подобри Bard Advanced, преди да бъде пуснат по-широко за обществеността. Сиси Хсиао, вицепрезидент на Google за продуктите на Bard, заяви, че "с Gemini Bard получава най-големия и най-добър ъпгрейд досега и ще отключи нови начини за хората да създават, взаимодействат и да си сътрудничат."