Ce cours de trois jours dirigé par un instructeur enseigne aux participants des techniques de surveillance, de dépannage et d’amélioration des performances de l’infrastructure et des applications dans Google Cloud. Guidé par les principes de l’ingénierie de fiabilité du site (SRE), et en utilisant une combinaison de présentations, démos, laboratoires pratiques et études de cas dans le monde réel, les participants acquièrent de l’expérience sur la surveillance full-stack, la gestion et l’analyse des journaux en temps réel, le débogage de code en production, le traçage des goulots d’étranglement des performances des applications et le profilage de l’utilisation du processeur et de la mémoire.
Module 1: Introduction aux outils de surveillance Google Cloud
- Comprendre l’objectif et les capacités des composants Google Cloud axés sur les opérations: journalisation, surveillance, rapports d’erreur et surveillance des services
- Comprendre l’objectif et les capacités des composants Google Cloud composants axés sur la gestion des performances des applications: débogueur, traceur, et profileur
- Atelier: Connaissance produit
Module 2: Éviter aux clients des situations douloureuses
- Construire une base de surveillance sur les quatre signaux d’or: latence, trafic, erreurs et saturation
- Mesurez la souffrance des clients avec les SLI
- Définir des mesures de performances critiques
- Créer et utiliser des SLO et SLA
- Atteindre l’harmonie des développeurs et des opérations avec les budgets d’erreur
- Ateliers: Revue post mortem
- Développer SLO et SLI
Module 3: Politiques d’alerte
- Développer des stratégies d’alerte
- Définir des politiques d’alerte
- Ajouter des canaux de notification
- Identifier les types d’alertes et les utilisations courantes de chaque
- Construire et alerter sur les groupes de ressources
- Gérer les politiques d’alerte par programmation
- Ateliers: Politiques d’alerte
- Surveillance de service
Module 4: Surveillance des systèmes critiques
- Choisir les meilleures pratiques de surveillance de projet d’architecture
- Différencier les rôles Cloud IAM pour la surveillance
- Utiliser les tableaux de bord par défaut de manière appropriée
- Créer des tableaux de bord personnalisés pour montrer la consommation des ressources et la charge d’application
- Définir des contrôles de disponibilité pour suivre la vitalité et la latence
- Atelier: Surveillance et création de tableau de bord sur plusieurs projets depuis un seul espace de travail
Module 5: Configurer les services d’observabilité Google Cloud
- Intégrer des agents de journalisation et de surveillance dans les VM et les images Compute Engine
- Activer et utiliser la surveillance Kubernetes
- Étendre et clarifier la surveillance Kubernetes avec Prometheus
- Exposer des métriques personnalisées via du code et à l’aide de OpenCensus
- Atelier: Journalisation et surveillance du Compute
Module 6: Journalisation et analyse avancées
- Identifier et choisir parmi les approches d’étiquetage des ressources
- Définir les récepteurs de journaux (filtres d’inclusion) et les filtres d’exclusion
- Créer des métriques basées sur les journaux
- Définir des métriques personnalisées
- Lier les erreurs d’application à la journalisation à l’aide du rapport d’erreurs
- Exporter les journaux vers BigQuery
- Atelier: Analyse des journaux
Module 7: Surveillance de la sécurité réseau et journaux d’audit
- Collecter et analyser les journaux de flux VPC et les journaux des règles de pare-feu
- Activer et surveiller le Packet Mirroring
- Expliquer les capacités de Network Intelligence Center
- Utiliser les journaux d’audit des activités d’administration pour suivre les modifications apportées à la configuration ou aux métadonnées des ressources
- Utiliser les journaux d’audit d’accès aux données pour suivre les accès ou les modifications des données de ressources fournies par l’utilisateur
- Utiliser les journaux d’audit des événements système pour suivre les actions administratives de GCP
- Ateliers: Journaux d’accès aux données
- Analyser le trafic réseau avec les journaux de flux VPC
Module 8: Gérer les incidents
- Définir les rôles de gestion des incidents et les canaux de communication
- Atténuer l’impact des incidents
- Dépanner les causes profondes
- Résoudre les incidents
- Documenter les incidents dans un processus post-mortem
Module 9: Investiguer les problèmes de performance applicative
- Déboguer le code de production pour corriger les défauts de code
- Tracer la latence à travers les couches d’interaction de service pour éliminer les goulots d’étranglement de performance
- Profiler et identifier les fonctions gourmandes en ressources dans une application
- Atelier: Débogueur
Module 10: Optimiser les coûts de surveillance
- Analyser l’utilisation des ressources pour surveiller les composants associés dans Google Cloud
- Mettre en œuvre les meilleures pratiques pour contrôler le coût de la surveillance au sein Google Cloud