Spécialiste principal en fiabilité des systèmes, opérations TI
Emplacement : télétravail (du Canada)
À proposNous travaillons à simplifier le cloud pour les professionnels des TI afin qu’ils puissent se concentrer sur ce qui compte vraiment : faciliter la vie de leurs clients. Découvrez ici comment nous y parvenons :
SurvolLe spécialiste principal en fiabilité des systèmes de l’équipe des opérations TI met en place une approche proactive, résiliente et évolutive de la fiabilité des sites sur l’ensemble des plateformes de Sherweb. Il s’agit d’un poste de contributeur individuel senior de nature hautement technique, responsable de définir la façon dont la fiabilité est conçue, encadrée et maintenue à l’échelle des systèmes.
Ce rôle fait évoluer la fiabilité d’une fonction opérationnelle réactive vers une discipline d’ingénierie à part entière – intentionnelle, mesurable et évolutive – afin de garantir un fonctionnement prévisible des plateformes à mesure que Sherweb gagne en envergure, en complexité et en impact client. Dans un contexte d’expansion continue des plateformes et de la clientèle mondiale de Sherweb, la fiabilité devient une capacité d’affaires essentielle.
Intervenant à une échelle organisationnelle étendue, ce rôle agit comme leader technique de niveau principal au sein des équipes d’opérations TI. Il définit l’orientation en matière de fiabilité et favorise l’harmonisation des pratiques grâce à son autorité technique, son influence et ses partenariats. Le poste agit comme contrepartie technique auprès des leaders seniors en ingénierie, infrastructure et plateformes afin de façonner la stratégie opérationnelle à travers plusieurs équipes.
Responsabilités- Définir et faire évoluer les normes de fiabilité des plateformes et services, notamment les objectifs de niveau de service (SLO) et les indicateurs de niveau de service (SLI), afin d’améliorer les services essentiels à la mission.
- Établir un langage commun et des attentes partagées en matière de fiabilité au sein des équipes d’opérations TI.
- Favoriser l’uniformité des pratiques de surveillance et d’exploitation à travers les services, systèmes et plateformes.
- Influencer la conception des systèmes et des opérations afin d’améliorer la fiabilité, la disponibilité et la résilience.
- Réduire la charge opérationnelle répétitive (toil) grâce à l’automatisation, à l’IA, aux capacités des plateformes et à des modèles opérationnels reproductibles.
- Améliorer l’observabilité de bout en bout et la compréhension des systèmes, permettant aux équipes d’analyser clairement le comportement des systèmes et les modes de défaillance. Optimiser la journalisation, les métriques, le traçage et la télémétrie.
- Permettre aux équipes d’assumer une responsabilité complète de la fiabilité des plateformes, incluant des analyses approfondies à travers les couches d’infrastructure et applicatives.
- Collaborer étroitement avec les équipes d’infrastructure et de plateformes afin de garantir que l’accès, les outils et la visibilité soutiennent une pleine responsabilité opérationnelle et favorisent l’amélioration continue de la fiabilité.
- Agir comme défenseur de la fiabilité et conseiller technique lors des revues opérationnelles, des analyses post‑incident et de l’évolution des plateformes.
- Travailler en étroite collaboration avec les équipes Dev Ops afin d’intégrer la fiabilité et l’observabilité sous forme de code, en assurant leur intégration aux pipelines CI/CD et aux outils des plateformes.
- Baccalauréat en informatique, en génie, en technologies de l’information ou dans un domaine connexe, ou expérience équivalente.
- Plus de 10 ans d’expérience en ingénierie de la fiabilité des sites (SRE), incluant l’exploitation et l’amélioration d’environnements de production à grande échelle.
- Expérience démontrée dans l’amélioration de la fiabilité, de la disponibilité et de l’évolutivité de systèmes, plateformes et services en production.
- Expérience pratique dans l’exploitation de systèmes distribués dans des environnements critiques pour l’entreprise et orientés client.
- Expérience éprouvée dans la réduction du travail opérationnel manuel par l’automatisation et la normalisation.
- Expérience dans la définition et l’application de…
To Search, View & Apply for jobs on this site that accept applications from your location or country, tap here to make a Search: