Стійкість через цілеспрямований хаос: платформа “Грімль” відмова від обслуговування допомагає інженерам активно уникати катастроф

TL; ДОКТОР: Техніка інженерії хаосу в Гремлі дає змогу користувачам безпечно та проактивно ідентифікувати слабкі місця у своїх системах – і усунути їх, перш ніж вони стануть проблемою. Завдяки навмисному підкреслюванню систем різними способами, компанія в кінцевому рахунку перетворює невдачу на стійкість. Завдяки додатковим ресурсам, що пропонуються через громаду Gremlin, компанія створює можливості для користувачів у всьому світі для створення більш надійного програмного забезпечення.

Настільки, як це може здатися, навмисне порушити вашу технологію в ім’я надійності, новий підхід до DevOps пропонує зробити саме це. Інженерія хаосу, дисциплінований метод нанесення шкоди системі, яка дозволяє виявити слабкі місця, впливає на те, як ми покращуємо надійність в інженерному просторі програмного забезпечення.

Насправді популярність дисципліни зросла протягом останніх кількох років. Лише десять років тому, коли Колтон Андрус приєднався до Amazon як інженер з розробки програмного забезпечення, у підходу все ще не було формальної назви.

“Один з моїх перших проектів передбачав цю ідею проактивного тестування відмов для інфраструктури”, – сказав Колтон. “Ми зробили домашнє завдання і створили надійну систему самообслуговування з багатьма різними режимами відмов, API, інтерфейсом користувача – цілою гамою”.

Система виявилася досвідченою, допомагаючи розробникам визначити та усунути недоліки навколо мережевих розділів та послідовності, що підвищило час роботи та доступність. Через чотири роки Колтон взяв те, що дізнався в Amazon, в Netflix, де він зосередився на створенні проактивної платформи для тестування несправностей для додатків. За словами Колтона, ці зусилля зайняли час роботи від 99,9% до 99,99%.

Логотип Gremlin

Gremlin допомагає компаніям активно знищувати ризик, запобігаючи дорогим збоям.

Колтон розглядав свої ранні успіхи як в Amazon, так і в Netflix – плюс перехід галузі до хмари та контейнерізації – як ознаки того, що інженерія хаосу виявиться цінною як послуга. У 2016 році він об’єднав сили з колишнім колегою з Амазонії Меттом Форнаціарі, і пара заснувала Гремль.

Безпечно та надійно визначте слабкі місця у вашій системі

Колтон заявив, що інженерна команда Gremlin складається з найвищих талантів, таких як Amazon, Google, Netflix та Dropbox. Компанія провела перший рік, будуючи платформу Gremlin, отримуючи її в руки клієнтів, вимагаючи зворотного зв’язку та вносячи необхідні зміни. Він провів другий рік, зосередившись на внутрішньому розширенні, коли персонал збільшився з десятка людей до майже 75.

“Зараз ми перебуваємо в точці, коли ми бачимо, як ринок відкрився – люди сприймають ідею інженерії хаосу”, – сказав Колтон. “Ми працюємо над третьою ітерацією створення чудового продукту і дійсно допомагаємо клієнтам вирішувати свої больові точки”.

Гремлівський талісман

Гремль дозволяє безпечно і легко розкрити слабкі місця в системі, перш ніж вони стануть проблематичними.

Колтон сказав, що це вже не питання про те, чи повинен бізнес сприймати хаос-інженерію – це питання. І ось тут заходить Гремль.

“Коли ми виходимо на ширший ринок і говоримо з інженерами, які не мають такого досвіду в цьому просторі, те, що вони справді шукають, – це керівництво”, – сказав він. “І я думаю, що для нас це було чудово, тому що ми спільно знаємо, як ми досягли того, що ми зробили в Amazon, Netflix, Google або Dropbox, і тепер ми змушуємо це працювати в” звичайних “компаніях.”

Інженерна платформа Gremlin для хаосу використовує постійно зростаючу бібліотеку атак, щоб відтворити майже будь-який сценарій відмов, з яким бізнес може зіткнутися у виробництві, і розкриває, як буде вести себе тестувана технологія в умовах відмови. Цей процес є надійним: якщо під час тестування трапиться щось несподіване, функції безпеки Gremlin автоматично зупиняють експеримент і замовчуються до стабільного стану.

Створіть стійкі системи та запобігайте дорогим втратам

Немає сумнівів, що простої становлять істотну загрозу для підприємств, що працюють на все більш онлайн-ринку. За підрахунками дослідницької фірми Gartner, середня вартість простою мережі становить 5600 доларів на хвилину, що прирівнюється до колосальних 300 000 доларів на годину.

Окрім фінансових витрат, він також витрачає час. “Я нещодавно розмовляв з інститутом фінансових послуг на східному узбережжі США, через що 75 інженерів змогли зателефонувати”, – сказав Колтон. “Незалежно від того, як довго тривав цей дзвінок, він був надзвичайно дорогим, і тоді потрібен час і зусилля, щоб переконатися в тому, що він не повториться”.

Завдяки такому інструменту, як Gremlin, компанії можуть вести знущання над інцидентами із захисною сіткою у випадку, якщо все піде не так. Проактивний підхід допомагає запобігти дорогому та пошкодження репутації відключенню. А якщо щось піде не так, краще бути готовим.

Зображення гремліна, що працює в межах платформи

Платформа також служить надійним інструментом для навчання.

“Коли вже дві години ранку, і у вас є телефон VP, ви не хочете задавати німецьке запитання”, – сказав Колтон. “Але в середині дня у вас є можливість попрактикуватися в будь-якій ситуації”.

Колтон заявив, що інвестиції в цифрову трансформацію, такі як переїзд у хмару чи прийняття Кубернетів, недешеві – мета Гремля – ​​допомогти захистити їх. Наприклад, у блозі 11 березня 2019 року, наприклад, компанія пояснила, що організації, які планують перейти до хмари, повинні прийняти інженерію хаосу, щоб перевірити, як буде вести себе система після переключення трафіку. Це значно зменшить потенціал несподіваних несправностей та відключень.

Торкніться додаткових ресурсів у громаді Гремля

Колтон сказав нам, що Gremlin прагне пити власне шампанське – словосполучення, яке регулярно використовується для позначення того, чи має компанія достатньо впевненості у своїх товарах, щоб використовувати їх для внутрішнього використання..

“Ми – компанія, орієнтована на надійність, тому краще мати надійний продукт”, – сказав він. “Щоб переконатися, що ми на вершині нашої гри, ми проводимо повні тести на відмову, щоб загартувати наші склади, перш ніж вони вийдуть нанівець”.

Гремль розуміє, що не всі впевнені в проведенні експериментів у виробництві. Колтон сказав, що багато підприємств стурбовані тим, де вони стоять по відношенню до своїх однолітків, коли мова йде про надійність.

“Вони часто трохи сором’язливі, бо вважають, що вони занадто далеко позаду”, – сказав він. “Одне, що я хотів би сказати в галузі, – це те, що ми всі боремося в одній битві: багато хто з нас були в одній позиції на ранніх стадіях і працюємо вперед”.

Колтон заявив, що хотів би дійти до того, коли бізнес відкритий для обговорення своїх невдач, щоб галузь взагалі могла вчитися на чужих помилках. З цією метою громада Гремля пропонує ресурси та можливості для створення відносин, яким підприємствам потрібно будувати більш стійкі системи разом.

Між практичними навчальними посібниками, спонсорськими зустрічами по всьому світу, надихаючими презентаціями та залученням дискусійних форумів, ці ресурси заохочують співпрацю між галуззю. Не забудьте стежити за майбутніми конференціями, вебінарами тощо, щоб отримати можливість поруч із вами.

Відтворюйте та вивчайте результати реального світу

В даний час Gremlin готується до Chaos Conf – інклюзивного галузевого заходу для практиків та розробників хаосу, який відбудеться 26 вересня 2019 року в Сан-Франциско.

На заході також будуть представлені основні презентації від Дейва Ренсіна, директора SRE в Google; Кристал Хіршорн, віце-президент з інженерних та хмарних платформ у Condé Nast; і сам Колтон, а також ряд сесій, що вивчають різні аспекти побудови хаосу.

Колтон заявив, що Gremlin також оголошує про нову функцію, яка дасть змогу користувачам створювати власні бібліотеки атак, щоб допомогти відтворити аварії в реальному світі. “Слідкуйте за великим оголошенням у вересні”, – сказав він.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me