Глобалното IT прекъсване не е задължително да бъде повтарящ се кошмар

Широко разпространеният катастрофален провал е неизбежен, когато компаниите са толкова зависими само от няколко доминиращи облачни доставчици

08:02 | 22 юли 2024

Автор: Парми Олсън

Снимка: Bloomberg

Едно от най-смущаващите неща за опустошителния глобален срив на ИТ системите в петък е колко рутинни са станали такива разрушителни събития.

През последните няколко години подобни проблеми от компании като Amazon.com Inc. временно затвориха системи по целия свят и този пореден проблем дойде в резултат на неуспешна софтуерна актуализация от фирмата за киберсигурност CrowdStrike Holdings Inc., чиято връзка към мега клиентът Microsoft Corp. доведе до проблеми в световен мащаб — включително хаос в летищата, фондовите борси и болниците, въпреки че вече има решение.

Този път мащабът е безпрецедентен. Това би трябвало да стимулира Microsoft и други IT фирми да направят нещо повече от просто да поставят поредното парче тиксо. Политиците също биха могли да се справят с прекомерното разчитане на света само на три облачни доставчика. Днешната реалност, в която един бъг може да навреди на милиони хора наведнъж, не трябва да е статуквото.

Има препоръка и за вас, скъпи читателю: Направете нещо хубаво за вашите ИТ спрециалисти днес. Донесете им понички, кафе или нещо по-силно, ако е достатъчно късно, защото са имали тежък уикенд, тъй като разрешаването на проблема от петък се оказа, че ще е бавен и сложен процес. Мрежовите техници и инженери се борят да се справят със "синия екран на смъртта", който се появи на компютри с Windows по целия свят, като на практика ги направи безполезни. Проблмеът принуди авиокомпаниите да пишат часовете на полетите на бели дъски и да издават хартиени билети, написани на ръка; една телевизионна новинарска станция във Великобритания беше принудена да спре ефир.

Проблемът се дължи на актуализация на софтуера Falcon на CrowdStrike, иронично проектиран да предотвратява вреда от вируси и киберзаплахи и описан като „малък, единичен, лек сензор“. Falcon смята Microsoft за ключов клиент и най-важното е, че има привилегирован достъп до едно от най-фундаменталните части на операционна система като Windows, известно като ядрото.

На теория това е добра идея. Ако инструментът на CrowdStrike нямаше този достъп, тогава всеки злонамерен хакер, който получи root достъп, може просто да деактивира антивирусния софтуер на CrowdStrike и да се развихри.

Но вече е очевидно, че има обратна страна на този вид привилегирован достъп, ако самият CrowdStrike направи грешка. Ето защо вината не трябва да пада само върху CrowdStrike (чиито акции се сринаха в петък), но също така и върху Microsoft за това, че вероятно не е проектирал по-устойчива операционна система. Както се видя, операционните системи на Apple Inc. и Linux изобщо не са били засегнати от проблема, според публикация в блог от CrowdStrike в петък. И нито един от тях изглежда не дава на Falcon такъв привилегирован достъп до тяхното ядро, което сега изглежда неразумно. Microsoft не отговори на искане за коментар.

Това не беше кибератака, а, подобно на предишни прекъсвания, резултат от византийската сложност на облачните IT процеси. Индустрията за киберсигурност свърши страхотна работа през последното десетилетие, като се рекламира като залп срещу всякакъв вид плашещи заплахи, но един недостатък може да е, че компаниите са пренебрегнали основната IT хигиена, тъй като тази инфраструктура става все по-сложна. „През последните няколко години повечето от нашите клиенти в крайна сметка харчат повече за киберсигурност, отколкото за IT“, каза главният изпълнителен директор на Palo Alto Networks Inc. Никеш Арора по-рано тази година.

Едно техническо решение може да се върне, естествено, към вековния трик за „изключeте и включете отново“. Жоао Алвеш, ръководител на инженеринга в онлайн пазара Adevinta, написа в Туитър, че технологичната индустрия вероятно ще изисква от облачните доставчици „двойно зареждане за надстройки на ОС и модули на ядрото“. На обикновен английски това означава рестартиране на системата два пъти при актуализиране на софтуера. Първото зареждане прилага актуализацията, а второто се уверява, че системата е стабилна, преди да активира напълно промените. Microsoft не отговори на въпросите по време на писането дали има такива процеси.

Но това са само частични решения. По-големият проблем е самата верига на доставки за облачни изчисления и, като разширение, услуги за киберсигурност, което направи твърде много компании и организации уязвими към една точка на повреда. Когато само три компании – Microsoft, Amazon и Google на Alphabet Inc. – доминират на пазара за облачни изчисления, един незначителен инцидент може да има глобални последици.

Европейските законодатели са най-напред в справянето със задушаващата хватка на пазара, която имат тези така наречени хиперскалари с новия Закон за данните, който има за цел да намали разходите за превключване между облачни доставчици и да подобри оперативната съвместимост.

Американските законодатели също трябва да се включат в играта. Една идея може да бъде да се принудят компаниите в критични сектори като здравеопазване, финанси, транспорт и енергетика да използват повече от един доставчик на облак за тяхната основна инфраструктура, което обикновено е статуквото. Вместо това, нов регламент може да ги принуди да използват поне двама независими доставчика за основните си операции или поне да гарантират, че нито един доставчик не отговаря за повече от около две трети от тяхната критична IT инфраструктура. Ако единият доставчик има катастрофален срив, другият може да поддържа нещата да работят.

Колкото и болезнено да беше прекъсването в петък, би било загуба да не го използваме като катализатор, за да спрем това, което бързо се превръща в повтарящ се кошмар.

Парми Олсън е колумнист на Bloomberg, която пише за технологиите. Бивш репортер на Wall Street Journal и Forbes, тя е автор на книгата „Ние сме Аnonymous“.