🔥 Задача для продвинутых DevOps-инженеров: «Миграция Postgres в облако без остановки сервиса»
Представьте продакшн-платформу:
• Kubernetes-кластер (v1.28) в двух регионах
• Микросервисы на Go и Python, общаются по gRPC
• StatefulSet с PostgreSQL 13 (self-hosted, SSD RAID-10)
• Трафик 7000 RPS, SLA = 99.95 %, окно простоя ≤ 30 сек
Цель
Перенести базу в управляемый Postgres-кластер (например, AWS Aurora) так, чтобы:
• API не теряли запросы и транзакции
• Метрики и алерты оставались валидными
• CI/CD остался GitOps-основанным (Argo CD)
• Секреты не хранились в манифестах
Условия и «подводные камни»
• В исходном Postgres включён logical replication; 2 тб данных, 3 млн TPS в pgbouncer-пуле
• Используется pgcrypto → нельзя менять шифрование на лету
• Приложения имеют hard-coded connection string в ConfigMap
• Читать из реплик можно, писать нужно только в primary
• Регион А может потерять связь с S3 на 5 минут в любой момент
• Лимит: 1 час на full-rollback в случае аварии
Что нужно спроектировать
1. План миграции с отметками T-0/T-1/T-2 (pre-cutover, dual-write, switchover)
2. Полностью идемпотентный GitOps-pipeline (ArgoCD-App-of-Apps)
3. Пошаговое обновление Secrets (Vault → CSI driver) без ревизии pod’ов
4. Canary-механизм трафика (Istio 1.22) + прометей-алерты уровня query latency p95
5. Rollback-стратегию, если write-amplification > 1.5× на новой БД
6. Планирование maintenance-окна с блокировкой DDL и feature-флагами
Решение (пояснение ключевых шагов)
*Логическая реплика и dual-write*
• Создаём Aurora как read-replica Postgres, подключаем
• В Kubernetes добавляем Sidecar-proxy (envoy) → умеет писать одновременно в old и new primary.
• Включаем dual-write только для команд
*Секреты без простоя*
• Секреты переносятся из ConfigMap в Vault KV2.
• Deploy CSI-driver и auto-injector; переменные окружения читают через projected volume.
• Патчинг Deployments через
*Canary и метрики*
• Istio DestinationRule + VirtualService: трафик
• Прометей-rule:
• Отдельный alert на
*Cutover*
1. T-0: включён dual-write, read-only на реплики.
2. T-1: проверяем чек-суммы через
3. T-2: Istio маршрутизирует 100 % на новую primary, выключаем dual-write.
4. Разморозка DDL через Liquibase-pipeline.
*Rollback*
• Переключаем Istio обратно на старый primary (мгновенно)
• Опционально реплицируем дельту назад через
• Откатываем Secrets версией Vault с «previous revision» (Vault KV2)
*GitOps-pipeline (ArgoCD)*
• Весь cutover хранится в migrate-prod ветке → можно мгновенно вернуться на main.
Фиксация SLA
• Приложения читают тайм-ауты из ConfigMap, а не код. Перед миграцией снижаем тайм-ауты connect_timeout=2s.
• Версионируем Helm-charts микросервисов: appVersion: 2024.06-cutover.
Итог
При правильной настройке dual-write и canary-трафика фактический простой уложится в 5-10 секунд (только время Istio-промотирования) с гарантированным откатом ≤ 1 час. Это упражнение проверяет глубокие знания Kubernetes, GitOps, сетевого слоя и Postgres-репликации.
Представьте продакшн-платформу:
• Kubernetes-кластер (v1.28) в двух регионах
• Микросервисы на Go и Python, общаются по gRPC
• StatefulSet с PostgreSQL 13 (self-hosted, SSD RAID-10)
• Трафик 7000 RPS, SLA = 99.95 %, окно простоя ≤ 30 сек
Цель
Перенести базу в управляемый Postgres-кластер (например, AWS Aurora) так, чтобы:
• API не теряли запросы и транзакции
• Метрики и алерты оставались валидными
• CI/CD остался GitOps-основанным (Argo CD)
• Секреты не хранились в манифестах
Условия и «подводные камни»
• В исходном Postgres включён logical replication; 2 тб данных, 3 млн TPS в pgbouncer-пуле
• Используется pgcrypto → нельзя менять шифрование на лету
• Приложения имеют hard-coded connection string в ConfigMap
• Читать из реплик можно, писать нужно только в primary
• Регион А может потерять связь с S3 на 5 минут в любой момент
• Лимит: 1 час на full-rollback в случае аварии
Что нужно спроектировать
1. План миграции с отметками T-0/T-1/T-2 (pre-cutover, dual-write, switchover)
2. Полностью идемпотентный GitOps-pipeline (ArgoCD-App-of-Apps)
3. Пошаговое обновление Secrets (Vault → CSI driver) без ревизии pod’ов
4. Canary-механизм трафика (Istio 1.22) + прометей-алерты уровня query latency p95
5. Rollback-стратегию, если write-amplification > 1.5× на новой БД
6. Планирование maintenance-окна с блокировкой DDL и feature-флагами
Решение (пояснение ключевых шагов)
*Логическая реплика и dual-write*
• Создаём Aurora как read-replica Postgres, подключаем
pglogical
для lorepl. • В Kubernetes добавляем Sidecar-proxy (envoy) → умеет писать одновременно в old и new primary.
• Включаем dual-write только для команд
INSERT/UPDATE/DELETE
; SELECT
всё ещё смотрит на старую primary.*Секреты без простоя*
• Секреты переносятся из ConfigMap в Vault KV2.
• Deploy CSI-driver и auto-injector; переменные окружения читают через projected volume.
• Патчинг Deployments через
kubectl patch --type strategic
не перезапускает pod’ы (без изменения podSpec.h`) — остаёмся в том же ReplicaSet.*Canary и метрики*
• Istio DestinationRule + VirtualService: трафик
canary: 10 %
, stable: 90 %
. • Прометей-rule:
rate(http_requests_total{status!~"5..",destination_service="canary"}[5m])
< threshold. • Отдельный alert на
pg_stat_replication replay_lag
> 1 сек.*Cutover*
1. T-0: включён dual-write, read-only на реплики.
2. T-1: проверяем чек-суммы через
pg_dump --schema-only
и pg_comparator
. 3. T-2: Istio маршрутизирует 100 % на новую primary, выключаем dual-write.
4. Разморозка DDL через Liquibase-pipeline.
*Rollback*
• Переключаем Istio обратно на старый primary (мгновенно)
• Опционально реплицируем дельту назад через
wal2json
→ old primary • Откатываем Secrets версией Vault с «previous revision» (Vault KV2)
*GitOps-pipeline (ArgoCD)*
apiVersion: argoproj.io/v1alpha1
kind: Application
metadata:
name: postgres-cutover
spec:
syncPolicy:
automated:
selfHeal: true
prune: true
retry:
limit: 4
source:
repoURL: [email protected]:corp/platform-deploy
path: k8s/postgres/aurora
targetRevision: migrate-prod
destination:
namespace: database
server: https://kubernetes.default.svc
• Весь cutover хранится в migrate-prod ветке → можно мгновенно вернуться на main.
Фиксация SLA
• Приложения читают тайм-ауты из ConfigMap, а не код. Перед миграцией снижаем тайм-ауты connect_timeout=2s.
• Версионируем Helm-charts микросервисов: appVersion: 2024.06-cutover.
Итог
При правильной настройке dual-write и canary-трафика фактический простой уложится в 5-10 секунд (только время Istio-промотирования) с гарантированным откатом ≤ 1 час. Это упражнение проверяет глубокие знания Kubernetes, GitOps, сетевого слоя и Postgres-репликации.
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
OpenAI запустила Search Connectors для ChatGPT Pro и Team, функцию, которая напрямую связывает облачные хранилища (Google Drive, Dropbox и OneDrive) с интерфейсом чата. Теперь пользователи могут искать, анализировать и обобщать документы, не загружая их вручную.
Лимит файлов на проект для Pro-подписчиков вырос с 20 до 40, а поддержка охватывает 12 сервисов, включая GitHub, Gmail и Outlook. Пока новинка доступна за пределами ЕС, Великобритании и Швейцарии.
Open AI в сети Х
Imagen 4, усовершенствованные модели генерации изображений по текстовым запросам, стали доступны в двух версиях: базовая Imagen 4 (4 цента за изображение) для повседневных задач и Imagen 4 Ultra (6 центов) с повышенной детализацией и точностью исполнения инструкций. Обе модели доступны в Gemini API для платных пользователей, а также в ограниченном бесплатном тестировании через Google AI Studio.
Разработчики обещают улучшенное отображение текста на картинках и расширение тарифных планов в ближайшие недели. Все сгенерированные изображения получат скрытый цифровой водяной знак SynthID.
developers.googleblog.com
HPE и NVIDIA анонсировали совместные решения для создания «фабрик искусственного интеллекта» на базе модульной инфраструктуры. В линейку вошли серверы HPE ProLiant DL380a Gen12 с GPU NVIDIA RTX PRO 6000 Blackwell, которые предлагают универсальную платформу для генеративного и промышленного ИИ.
Также был представлен HPE Private Cloud AI — готовое решение для быстрого внедрения ИИ, совместимое с фреймворком NVIDIA Enterprise AI Factory. Для финансового сектора планируется тестирование агентного ИИ с Accenture, а 26 новых партнеров расширят экосистему HPE, добавив 70 преднастроенных сценариев: от детекции мошенничества до кибербезопасности. Решения доступны для заказа, а система HPE Compute XD690 с GPU Blackwell Ultra начнет отгружаться в октябре.
blogs.nvidia.com
AlphaGenome — нейросеть, которая предсказывает, как мутации в ДНК влияют на регуляцию генов. Модель обрабатывает участки длиной до миллиона пар оснований, анализируя их на уровне отдельных «букв» и оценивая тысячи молекулярных свойств: активность генов, сплайсинг РНК, доступность участков ДНК.
AlphaGenome сочетает сверточные слои для поиска коротких паттернов и трансформеры для анализа длинных последовательностей. Одна из ключевых особенностей - точное моделирование сплайс-сайтов, важное для изучения редких заболеваний.
Модель превзошла аналоги в 22 из 24 тестов, предсказывая как структуру ДНК, так и эффекты вариантов. Доступ к AlphaGenome открыт через API для некоммерческих проектов.
deepmind.google
Группа исследователей из Сингапура и Китая представила LongWriter-Zero, модель, которая генерирует тексты длиной более 10 тысяч слов, обучаясь только через RL, без использования синтетических данных. Модель опирается на три специализированных «наградных» алгоритма, оценивающих структуру, качество и длину текста, а также уникальный метод «усреднения преимущества», который балансирует приоритеты между ними.
LongWriter-Zero использует «промты-размышления»: перед написанием модель планирует структуру текста, улучшая его связность. Бенчмарки показали рост эффективности с 700 до 1200 поинтов Elo. Однако у модели есть слабые места: она склонна к повторам и переиспользованию слов, которые система поощряет в процессе обучения.
Модель и датасет доступны на Hugging Face.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
CI/CD — сердце современного деплоя. Но это ещё и точка входа для атак, которые способны нанести серьёзный урон организации. Об этом рассказали в статье.
Сценарии компрометации сегодня:
⏺️ внедрение бэкдоров через артефакты;
⏺️ утечка секретов из логов;
⏺️ подмена образов;
⏺️ lateral movement по всей облачной инфраструктуре.
А теперь представьте, что всё это происходит не в вашем pet-проекте, а в prod-окружении нагруженного сервиса, которым пользуются тысячи пользователей каждый день.
В новой статье Алексей Федулаев и Андрей Моисеев из команды Cloud Native Security в MWS Cloud Platform — разбирают реальные векторы атак на CI/CD: от PPE до cache poisoning. И главное — показывают, как им противостоять.
Разложено по схемам, сценариям и потенциальным уязвимостям, которые легко упустить.
🔗 Читать статью
Сценарии компрометации сегодня:
А теперь представьте, что всё это происходит не в вашем pet-проекте, а в prod-окружении нагруженного сервиса, которым пользуются тысячи пользователей каждый день.
В новой статье Алексей Федулаев и Андрей Моисеев из команды Cloud Native Security в MWS Cloud Platform — разбирают реальные векторы атак на CI/CD: от PPE до cache poisoning. И главное — показывают, как им противостоять.
Разложено по схемам, сценариям и потенциальным уязвимостям, которые легко упустить.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📕 На Reddit стал популярен лучший интерактивный учебник по алгоритмам Computer Science — это самая эпичная книга от энтузиаста на 680 страниц!
• целых 22 огромных главы — охватывают всё от массивов до продвинутых алгоритмов на графах.
• 300 интерактивных визуализаций — для наглядного объяснения всех концепций.
• 250 фрагментов кода — в каждом есть подробный гайд по решению.
• Встроенный интерпретатор Python — позволяет редактировать и запускать код для практики.
• Это не электронная книга, а целое приложение с интерактивными страницами.
Поддерживаются MacOS 11+ и Windows 10+. Учебник стоит $35 (автор дарит промокод 20% SIDEPRJ и скидки для студентов), но для всех желающих доступна бесплатная (!) глава.
Для всех, кто изучает программирование — тут.
• целых 22 огромных главы — охватывают всё от массивов до продвинутых алгоритмов на графах.
• 300 интерактивных визуализаций — для наглядного объяснения всех концепций.
• 250 фрагментов кода — в каждом есть подробный гайд по решению.
• Встроенный интерпретатор Python — позволяет редактировать и запускать код для практики.
• Это не электронная книга, а целое приложение с интерактивными страницами.
Поддерживаются MacOS 11+ и Windows 10+. Учебник стоит $35 (автор дарит промокод 20% SIDEPRJ и скидки для студентов), но для всех желающих доступна бесплатная (!) глава.
Для всех, кто изучает программирование — тут.
This media is not supported in your browser
VIEW IN TELEGRAM
ШТУРВАЛЬЧИК?
Ребятам из «Лаборатории Числитель», видимо, было мало шуток про Штурвал, теперь они выпустили Штурвальчик.
Многие говорили, что он слишком много жрёт. Теперь минимальный конфиг — это:
▪️один хост с 6 CPU
▪️8 ГБ RAM
▪️80 ГБ хранилища
В целом на мощном ноуте можно раскатать парочку кластеров куба — этого хватит на управляющий и несколько клиентских.
Вопросы можно в Kubernetes-чате «Штурвала» задать.
Ребятам из «Лаборатории Числитель», видимо, было мало шуток про Штурвал, теперь они выпустили Штурвальчик.
Многие говорили, что он слишком много жрёт. Теперь минимальный конфиг — это:
▪️один хост с 6 CPU
▪️8 ГБ RAM
▪️80 ГБ хранилища
В целом на мощном ноуте можно раскатать парочку кластеров куба — этого хватит на управляющий и несколько клиентских.
Вопросы можно в Kubernetes-чате «Штурвала» задать.