DevOps

🔥 Задача для продвинутых DevOps-инженеров: «Миграция Postgres в облако без остановки сервиса»

Представьте продакшн-платформу:
• Kubernetes-кластер (v1.28) в двух регионах
• Микросервисы на Go и Python, общаются по gRPC
• StatefulSet с PostgreSQL 13 (self-hosted, SSD RAID-10)
• Трафик 7000 RPS, SLA = 99.95 %, окно простоя ≤ 30 сек

Цель
Перенести базу в управляемый Postgres-кластер (например, AWS Aurora) так, чтобы:
• API не теряли запросы и транзакции
• Метрики и алерты оставались валидными
• CI/CD остался GitOps-основанным (Argo CD)
• Секреты не хранились в манифестах

Условия и «подводные камни»
• В исходном Postgres включён logical replication; 2 тб данных, 3 млн TPS в pgbouncer-пуле
• Используется pgcrypto → нельзя менять шифрование на лету
• Приложения имеют hard-coded connection string в ConfigMap
• Читать из реплик можно, писать нужно только в primary
• Регион А может потерять связь с S3 на 5 минут в любой момент
• Лимит: 1 час на full-rollback в случае аварии

Что нужно спроектировать
1. План миграции с отметками T-0/T-1/T-2 (pre-cutover, dual-write, switchover)
2. Полностью идемпотентный GitOps-pipeline (ArgoCD-App-of-Apps)
3. Пошаговое обновление Secrets (Vault → CSI driver) без ревизии pod’ов
4. Canary-механизм трафика (Istio 1.22) + прометей-алерты уровня query latency p95
5. Rollback-стратегию, если write-amplification > 1.5× на новой БД
6. Планирование maintenance-окна с блокировкой DDL и feature-флагами

Решение (пояснение ключевых шагов)

*Логическая реплика и dual-write*
• Создаём Aurora как read-replica Postgres, подключаем pglogical для lorepl.
• В Kubernetes добавляем Sidecar-proxy (envoy) → умеет писать одновременно в old и new primary.
• Включаем dual-write только для команд INSERT/UPDATE/DELETE; SELECT всё ещё смотрит на старую primary.

*Секреты без простоя*
• Секреты переносятся из ConfigMap в Vault KV2.
• Deploy CSI-driver и auto-injector; переменные окружения читают через projected volume.
• Патчинг Deployments через kubectl patch --type strategic не перезапускает pod’ы (без изменения podSpec.h`) — остаёмся в том же ReplicaSet.

*Canary и метрики*
• Istio DestinationRule + VirtualService: трафик canary: 10 %, stable: 90 %.
• Прометей-rule: rate(http_requests_total{status!~"5..",destination_service="canary"}[5m]) < threshold.
• Отдельный alert на pg_stat_replication replay_lag > 1 сек.

*Cutover*
1. T-0: включён dual-write, read-only на реплики.
2. T-1: проверяем чек-суммы через pg_dump --schema-only и pg_comparator.
3. T-2: Istio маршрутизирует 100 % на новую primary, выключаем dual-write.
4. Разморозка DDL через Liquibase-pipeline.

*Rollback*
• Переключаем Istio обратно на старый primary (мгновенно)
• Опционально реплицируем дельту назад через wal2json → old primary
• Откатываем Secrets версией Vault с «previous revision» (Vault KV2)

*GitOps-pipeline (ArgoCD)*


apiVersion: argoproj.io/v1alpha1
kind: Application
metadata:
  name: postgres-cutover
spec:
  syncPolicy:
    automated:
      selfHeal: true
      prune: true
    retry:
      limit: 4
  source:
    repoURL: [email protected]:corp/platform-deploy
    path: k8s/postgres/aurora
    targetRevision: migrate-prod
  destination:
    namespace: database
    server: https://kubernetes.default.svc

• Весь cutover хранится в migrate-prod ветке → можно мгновенно вернуться на main.

Фиксация SLA
• Приложения читают тайм-ауты из ConfigMap, а не код. Перед миграцией снижаем тайм-ауты connect_timeout=2s.
• Версионируем Helm-charts микросервисов: appVersion: 2024.06-cutover.

Итог
При правильной настройке dual-write и canary-трафика фактический простой уложится в 5-10 секунд (только время Istio-промотирования) с гарантированным откатом ≤ 1 час. Это упражнение проверяет глубокие знания Kubernetes, GitOps, сетевого слоя и Postgres-репликации.

1.7K views14:02

DevOps

Forwarded from Machinelearning

6:10

Media is too big

VIEW IN TELEGRAM

✔️

OpenAI расширяет возможности ChatGPT Pro.

OpenAI запустила Search Connectors для ChatGPT Pro и Team, функцию, которая напрямую связывает облачные хранилища (Google Drive, Dropbox и OneDrive) с интерфейсом чата. Теперь пользователи могут искать, анализировать и обобщать документы, не загружая их вручную.

Лимит файлов на проект для Pro-подписчиков вырос с 20 до 40, а поддержка охватывает 12 сервисов, включая GitHub, Gmail и Outlook. Пока новинка доступна за пределами ЕС, Великобритании и Швейцарии.
Open AI в сети Х

✔️

Google открыла доступ к Imagen 4.

Imagen 4, усовершенствованные модели генерации изображений по текстовым запросам, стали доступны в двух версиях: базовая Imagen 4 (4 цента за изображение) для повседневных задач и Imagen 4 Ultra (6 центов) с повышенной детализацией и точностью исполнения инструкций. Обе модели доступны в Gemini API для платных пользователей, а также в ограниченном бесплатном тестировании через Google AI Studio.

Разработчики обещают улучшенное отображение текста на картинках и расширение тарифных планов в ближайшие недели. Все сгенерированные изображения получат скрытый цифровой водяной знак SynthID.
developers.googleblog.com

✔️

HPE и NVIDIA представили новую линейку решений для корпоративного ИИ.

HPE и NVIDIA анонсировали совместные решения для создания «фабрик искусственного интеллекта» на базе модульной инфраструктуры. В линейку вошли серверы HPE ProLiant DL380a Gen12 с GPU NVIDIA RTX PRO 6000 Blackwell, которые предлагают универсальную платформу для генеративного и промышленного ИИ.

Также был представлен HPE Private Cloud AI — готовое решение для быстрого внедрения ИИ, совместимое с фреймворком NVIDIA Enterprise AI Factory. Для финансового сектора планируется тестирование агентного ИИ с Accenture, а 26 новых партнеров расширят экосистему HPE, добавив 70 преднастроенных сценариев: от детекции мошенничества до кибербезопасности. Решения доступны для заказа, а система HPE Compute XD690 с GPU Blackwell Ultra начнет отгружаться в октябре.
blogs.nvidia.com

✔️

Google DeepMind представила AlphaGenome.

AlphaGenome — нейросеть, которая предсказывает, как мутации в ДНК влияют на регуляцию генов. Модель обрабатывает участки длиной до миллиона пар оснований, анализируя их на уровне отдельных «букв» и оценивая тысячи молекулярных свойств: активность генов, сплайсинг РНК, доступность участков ДНК.

AlphaGenome сочетает сверточные слои для поиска коротких паттернов и трансформеры для анализа длинных последовательностей. Одна из ключевых особенностей - точное моделирование сплайс-сайтов, важное для изучения редких заболеваний.

Модель превзошла аналоги в 22 из 24 тестов, предсказывая как структуру ДНК, так и эффекты вариантов. Доступ к AlphaGenome открыт через API для некоммерческих проектов.
deepmind.google

✔️

LongWriter-Zero: модель, которая пишет длинные тексты благодаря RL.

Группа исследователей из Сингапура и Китая представила LongWriter-Zero, модель, которая генерирует тексты длиной более 10 тысяч слов, обучаясь только через RL, без использования синтетических данных. Модель опирается на три специализированных «наградных» алгоритма, оценивающих структуру, качество и длину текста, а также уникальный метод «усреднения преимущества», который балансирует приоритеты между ними.

LongWriter-Zero использует «промты-размышления»: перед написанием модель планирует структуру текста, улучшая его связность. Бенчмарки показали рост эффективности с 700 до 1200 поинтов Elo. Однако у модели есть слабые места: она склонна к повторам и переиспользованию слов, которые система поощряет в процессе обучения.
Модель и датасет доступны на Hugging Face.
huggingface.co

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views06:36

DevOps

CI/CD — сердце современного деплоя. Но это ещё и точка входа для атак, которые способны нанести серьёзный урон организации. Об этом рассказали в статье.

Сценарии компрометации сегодня:

⏺️ внедрение бэкдоров через артефакты;
⏺️ утечка секретов из логов;
⏺️ подмена образов;
⏺️ lateral movement по всей облачной инфраструктуре.

А теперь представьте, что всё это происходит не в вашем pet-проекте, а в prod-окружении нагруженного сервиса, которым пользуются тысячи пользователей каждый день.

В новой статье Алексей Федулаев и Андрей Моисеев из команды Cloud Native Security в MWS Cloud Platform — разбирают реальные векторы атак на CI/CD: от PPE до cache poisoning. И главное — показывают, как им противостоять.

Разложено по схемам, сценариям и потенциальным уязвимостям, которые легко упустить.

🔗

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsedited 08:04

DevOps

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

📕 На Reddit стал популярен лучший интерактивный учебник по алгоритмам Computer Science — это самая эпичная книга от энтузиаста на 680 страниц!

• целых 22 огромных главы — охватывают всё от массивов до продвинутых алгоритмов на графах.
• 300 интерактивных визуализаций — для наглядного объяснения всех концепций.
• 250 фрагментов кода — в каждом есть подробный гайд по решению.
• Встроенный интерпретатор Python — позволяет редактировать и запускать код для практики.
• Это не электронная книга, а целое приложение с интерактивными страницами.

Поддерживаются MacOS 11+ и Windows 10+. Учебник стоит $35 (автор дарит промокод 20% SIDEPRJ и скидки для студентов), но для всех желающих доступна бесплатная (!) глава.

Для всех, кто изучает программирование — тут.

1.8K views10:00

DevOps

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

ШТУРВАЛЬЧИК?

Ребятам из «Лаборатории Числитель», видимо, было мало шуток про Штурвал, теперь они выпустили Штурвальчик.

Многие говорили, что он слишком много жрёт. Теперь минимальный конфиг — это:
▪️один хост с 6 CPU
▪️8 ГБ RAM
▪️80 ГБ хранилища

В целом на мощном ноуте можно раскатать парочку кластеров куба — этого хватит на управляющий и несколько клиентских.

Вопросы можно в Kubernetes-чате «Штурвала» задать.

999 views08:24

2025/06/27 11:23:51
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>