
Чому ІТ-інциденти повторюються: системні причини, а не людські помилки
Чому стаються ІТ-аварії? Розбір системних причин замість пошуку винних. Аналіз Safety-II, математика надійності та патерни для запобігання рецидивам.
Що таке Data Gravity? Аналіз впливу маси даних на архітектуру бізнесу. Розглядаємо фізику латентності, Egress Fees та стратегії уникнення Vendor Lock-in.
Команда ІТЕЗ
Data Gravity - це архітектурний принцип, сформульований інженером Дейвом МакКрорі (Dave McCrory) у 2010 році. Він постулює, що дані, подібно до фізичних тіл, мають масу. Чим більший обсяг даних накопичується в одній локації, тим сильніше гравітаційне поле вони створюють, притягуючи до себе додатки, обчислювальні потужності та сервіси.
Це явище базується на прагматичному факті: переміщення великих обсягів даних є дорогим, повільним і ризикованим процесом, тоді як переміщення бінарного коду додатків (обсягом у мегабайти) є дешевим і швидким. Як наслідок, архітектура завжди прагне мінімізувати відстань між процесором (CPU) та диском (Storage).
Фізична природа Data Gravity базується на двох константах: швидкості світла ($c$) та пропускній здатності каналу (Bandwidth). У вакуумі світло рухається зі швидкістю $\approx 300\,000$ км/с. Однак у реальних оптоволоконних мережах, через коефіцієнт заломлення скла ($\approx 1.5$) та затримки на мережевому обладнанні, реальна швидкість передачі сигналу знижується до $\approx 200\,000$ км/с. Це створює фундаментальну проблему латентності (Latency).
Якщо масив даних обсягом 5 Петабайт знаходиться в регіоні AWS us-east-1 (Північна Вірджинія), а обчислювальний кластер в Azure West Europe (Нідерланди), затримка транзакцій унеможливлює ефективну роботу більшості додатків. Закон Data Gravity диктує: обчислення завжди переміщуються до даних.
Гравітація даних є основою бізнес-моделі гіперскейлерів (AWS, Google Cloud, Azure). Вони використовують фізику даних для створення економічних бар'єрів, відомих як Vendor Lock-in (прив'язка до постачальника).
Хмарні провайдери структурують тарифи так, щоб максимізувати Data Gravity. Вхідний трафік (Ingress) зазвичай безкоштовний, що заохочує завантаження даних. Натомість вихідний трафік (Egress) тарифікується за високими ставками. Це створює ефект, коли вартість переміщення даних до іншого провайдера перевищує потенційну вигоду від міграції.
Розглянемо приклад компанії, яка зберігає 10 ПБ (10 000 000 ГБ) архівних даних. При гіпотетичній ціні Egress у розмірі $0.08 за ГБ, вартість лише вилучення даних становитиме:
$$10\,000\,000 \text{ GB} \times 0.08 = \$800\,000$$Ця сума - фактичний «податок на гравітацію», який робить міграцію економічно недоцільною. Бізнес залишається в екосистемі провайдера не через контрактні зобов'язання, а через вартість переміщення активів.
Для високочастотного трейдингу (HFT), Real-Time Bidding (RTB) або систем рекомендацій, латентність корелює з виручкою. Класичні дослідження Amazon демонстрували, що кожні 100 мс додаткової затримки можуть призводити до втрати 1% продажів. Це змушує бізнес розміщувати інфраструктуру якомога ближче до даних користувачів, поглиблюючи залежність від обраного хмарного регіону.
Під впливом Data Gravity традиційні архітектурні патерни трансформуються. Відбувається перехід від систем, де дані переміщувалися до логіки, до систем, де логіка застосовується безпосередньо до даних.
Класичний процес ETL (Extract, Transform, Load) передбачав витягування даних, їх трансформацію на окремому сервері та завантаження у сховище. У контексті Big Data цей підхід стає неефективним: переміщення петабайтів для зовнішньої обробки перевантажує мережеві канали.
Сучасним стандартом стає ELT (Extract, Load, Transform). Сирі дані завантажуються в цільову систему (наприклад, Snowflake або Redshift), і для трансформацій використовуються обчислювальні потужності самого сховища. Код SQL або Python відправляється до даних, що є прямим наслідком закону Data Gravity.
Оркестратори контейнерів, такі як Kubernetes, враховують розташування даних при плануванні завдань. Принцип Data Locality передбачає запуск контейнера з додатком на тій самій ноді (фізичному сервері) або в тій самій стійці, де знаходяться дані. Ігнорування цього принципу призводить до неефективного маршрутування трафіку всередині дата-центру.
Повна нейтралізація гравітації даних неможлива, але її вплив можна мінімізувати через правильний розподіл навантаження.
Data Fabric - це підхід, що створює абстракційний шар над різнорідними джерелами даних. Замість фізичного переміщення всіх даних в одне озеро (Data Lake), використовуються технології віртуалізації (наприклад, Denodo або Trino). Запит розбивається на підзапити до джерел, і повертаються лише агреговані результати, які мають значно меншу «масу» порівняно із сирими даними.
Ефективний спосіб боротьби з гравітацією ядра - обробка даних на периферії. Edge Computing дозволяє фільтрувати та агрегувати інформацію на джерелі (сенсори IoT, локальні шлюзи). Передача в хмару лише цінних метаданих (Insights) замість повного потоку сирих даних суттєво зменшує залежність від центрального сховища.
Розвиток Generative AI та LLM (Large Language Models) посилює ефект Data Gravity. Навчання моделей вимагає розміщення GPU-кластерів у безпосередній близькості до дата-сетів для забезпечення максимальної швидкості обміну даними.
Ринок рухається до моделі Data-Centric AI, де якість і доступність даних стають критичними. Компанії з великими масивами даних у закритих екосистемах отримують перевагу, оскільки гравітація їхніх платформ природним чином притягує розробників ШІ-рішень.
Data Gravity - це умова середовища, в якому функціонує сучасний бізнес. Ігнорування цього фактору призводить до створення дорогих та повільних систем. Ефективні стратегії майбутнього базуватимуться не на марній боротьбі з гравітацією, а на її врахуванні: через інтелектуальне розміщення обчислень, федерацію даних та обробку на периферії.
Читайте, як ефективно використовувати IT для розвитку вашого бізнесу

Чому стаються ІТ-аварії? Розбір системних причин замість пошуку винних. Аналіз Safety-II, математика надійності та патерни для запобігання рецидивам.

Дізнайтеся про критичні ризики ІТ-залежності бізнесу, вартість вендор-локу та методи відновлення цифрового суверенітету через стратегії виходу та гібридні хмари.

Аналіз критичного розриву в системі кіберзахисту на рівні кінцевого користувача. Розбір архітектури Zero Trust, вразливостей браузерів та психології безпеки для усунення ризиків 'останньої милі' без компромісів.
Опишіть задачу — відповімо протягом одного робочого дня з конкретною пропозицією та вартістю робіт.
Опишіть неточність або надішліть пропозицію щодо матеріалу.
Ми уважно розглянемо ваше повідомлення і врахуємо його під час редагування матеріалу.