Санкциите на САЩ стимулират китайските технологични компании да ускорят изследванията за разработване на авангарден изкуствен интелект (AI), без да разчитат на най-новите американски чипове.
Преглед на изследователски статии и интервюта със служители на The Wall Street Journal установи, че китайските компании изучават техники, които могат да им позволят да постигнат най-съвременна производителност на AI с по-малко или по-малко мощни полупроводници. Те също така проучват как да комбинират различни видове чипове, за да избегнат разчитането на един тип хардуер.
Китайски телекомуникационен доставчик Huawei Technologies, търсачката Baidu и гигантът за електронна търговия Alibaba Group са сред онези, които търсят начини да извлекат повече полезност от съществуващите компютърни чипове.
Използването на тези заобикалящи решения за настигане на американските лидери в AI остава значително предизвикателство, казаха изследователи и анализатори. Някои експерименти обаче са обещаващи и ако напреднат успешно, изследването може да позволи на китайските технологични фирми да издържат на американските санкции и да ги направят по-устойчиви на бъдещи ограничения, казаха те.
Докато надпреварата се разгаря за комерсиализиране на модели, подобни на ChatGPT, компаниите в световен мащаб се нуждаят от по-мощни чипове и търсят начини да извлекат повече от тях, за да намалят експлозивните разходи за разработване на AI.
За китайските компании проблемът е по-критичен: санкциите на САЩ ги отрязаха от най-модерните чипове, произведени от компании като Nvidia, и те бързо изконсумираха съществуващите запаси от чипове, за да създадат свои собствени еквиваленти на ChatGPT, казват служители, изследователи на AI и индустриални анализатори.
„Можете просто да кажете, като четете между редовете, че те се опитват да намерят каквато и да компютърна мощност под слънцето, за да компенсират липсата на хардуер от най-високо ниво“, каза Сюзън Джан, изследовател на AI в Meta Platforms, която е специализирана в AI инфраструктура и големи езикови модели.
Китайските компании са отрязани от чиповете A100 на Nvidia, най-популярните в индустрията за разработка на AI, и версията от следващо поколение, H100, пусната през март, която предлага повече изчислителна мощност.
Nvidia създаде понижени версии на своите чипове за китайския пазар, наречени съответно A800 и H800, за да изпълни изискванията за санкции. И двата модифицирани чипа намаляват капацитета на чипа да комуникира с другите.
Продуктите предоставят ефективна алтернатива за разработване на модели с изкуствен интелект в малък мащаб, като тези, използвани в алгоритъма за препоръки, управляващ приложението TikTok. Но ограничението забавя развитието на по-големи AI модели, които изискват координирането на стотици или хиляди чипове.
OpenAI пусна ChatGPT месец след обявяването на санкциите за чипове. Това предизвика глобална лудост за разработване на генеративен AI, софтуер, който може да произвежда текст и изображения и изисква безпрецедентно количество изчислителна мощност за разработване. Анализаторите на UBS изчисляват, че са необходими между 5 000 и 10 000 чипа A100, за да се обучат тези видове големи AI модели.
Проучване на свързана с китайското правителство асоциация на полупроводниковата промишленост, публикувано на неотдавнашна закрита индустриална конференция, показа ограниченията на доставките, като установи, че в Китай има около 40 000 до 50 000 A100, налични за обучение на широкомащабни AI модели, според човек, който е присъствал на срещата.
Китайски компании като Alibaba и Baidu, които складираха A100 преди санкциите, са силно ограничили вътрешното използване на чужди усъвършенствани чипове, запазвайки ги за най-интензивните изчислителни задачи, според хора, запознати с въпроса.
Baidu спря използването на своите A100s, включително в екипа за самоуправляващия се автомобили, за да ги обедини за разработването на своя еквивалент на ChatGPT, Ernie Bot, съобщи по-рано WSJ.
През последните години Baidu се стреми да включи местни чипове в своята разработка на AI, включително DCU на Hygon Information Technology и чипа за обучение на AI Ascend на Huawei, както и своя собствен, наречен Kunlun, според изследователски документи с отворен код и хора, запознати с въпроса. Много от домашните чипове обаче остават ненадеждни за обучение на мащабни модели, тъй като са склонни към сривове, казаха някои от хората.
Много китайски фирми сега се опитват да комбинират три или четири по-малко напреднали чипа, включително A800 и H800, за да симулират производителността на един от най-мощните процесори на Nvidia, според Янг Ю, професор в Националния университет на Сингапур, който ръководи Инфраструктурна компания за изкуствен интелект, HPC-AI Tech.
През април Tencent представи нов изчислителен клъстер – набор от свързани чипове за широкомащабно обучение на AI модели с помощта на H800 на Nvidia.
Този подход може да бъде скъп: ако една американска фирма се нуждае от 1000 H100, за да обучи голям езиков модел, китайска фирма може да има нужда от 3000 или повече H800, за да постигне същите резултати, каза Ю.
Това кара някои фирми да ускоряват разработването на техники за обучение на широкомащабни AI модели в различни типове чипове, каза Ю, област на изследване, която вече беше често срещана сред китайските фирми с ограничени хардуерни ресурси, които се стремяха да намалят разходите. Alibaba, Baidu и Huawei се стремят да използват различни комбинации от A100, по-старо поколение чипове на Nvidia, известни като V100 и P100, както и Huawei Ascend, показват документи.
За разлика от това, използването на множество видове чипове рядко се среща сред компаниите в САЩ поради техническите предизвикателства да ги накараш да работят надеждно, казаха експерти по изкуствен интелект. „Това е последна мярка“, каза Джан от Meta.
Успоредно с това китайските фирми се стремят да използват различни софтуерни техники, за да намалят изчислителната интензивност на обучението на широкомащабни AI модели, подход, който се ускори в световен мащаб, включително сред компаниите в САЩ. За разлика от американските компании обаче, китайските компании са били по-агресивни в комбинирането на множество софтуерни техники заедно, показват документи.
Докато много от тези методи все още се изглаждат в глобалната изследователска общност и са трудни за прилагане, китайските изследователи са постигнали известен успех.
В статия от март изследователите на Huawei демонстрираха как могат да използват такива техники, за да обучат своя голям езиков модел от последно поколение, използвайки само чиповете Ascend на компанията и без чипове на Nvidia. Въпреки някои недостатъци, моделът, известен като PanGu-Σ, достигна най-съвременното представяне на няколко задачи на китайски език, включително предизвикателства при четене с разбиране и граматика, пишат изследователите в статията.
Дилън Пател, главен анализатор в полупроводниковата изследователска и консултантска фирма SemiAnalysis, каза, че болките на китайските изследователи само ще се влошат без достъп до новия Nvidia H100, който включва допълнителна функция за повишаване на производителността, особено полезна за обучение на модели, подобни на ChatGPT.
Но статия от миналата година от Baidu и Peng Cheng Laboratory, базиран в Шенжен изследователски институт, показа, че изследователите обучават големи езикови модели по начин, който би направил функцията ненужна. Пател каза, че изглежда обещаващо, въпреки че изследването е в ранен етап.
„Ако работи добре, те могат ефективно да заобиколят санкциите“, каза той.