×
Register Here to Apply for Jobs or Post Jobs. X

Ingénieur fiabilité des infrastructures

Job in Montreal, Montréal, Province de Québec, Canada
Listing for: Tecsys Inc.
Full Time position
Listed on 2026-03-14
Job specializations:
  • Engineering
    Systems Engineer
Job Description & How to Apply Below
Location: Montreal

Ayant reconnu les avantages du travail à distance sur le bien-être des employés et l'environnement, notamment le moral des employés, la productivité, la réduction des trajets domicile-travail, nous sommes fière d'être une entreprise privilégiant le travail à distance. Les technologies et les programmes dans lesquels nous avons investi ont fourni une base fantastique à cette fin. Notre environnement qui privilégie le travail à distance, ainsi que nos bureaux bien situés et nos espaces de travail collaboratifs, offrent à notre équipe la liberté et la flexibilité de travailler de la manière qui rend nos employés les plus productifs.

À

propos de Tecsys

Tecsys est un innovateur à croissance rapide qui offre des solutions de chaîne d'approvisionnement aux principaux systèmes de soins de santé, aux hôpitaux, aux pharmacies, aux distributeurs, aux détaillants et aux 3PL. Nous travaillons avec les leaders du secteur pour transformer leurs chaînes d'approvisionnement grâce à la technologie. Si vous aimez relever des intéressants avec des opportunités d'apprentissage continu joignez-vous à nous!

À

propos du poste

Nous recherchons un ingénieur fiabilité des infrastructures pour rejoindre notre Centre des opérations réseau et de sécurité (NOC), une équipe au cœur de la fiabilité des plateformes pour les environnements SaaS critiques. Vous aiderez à maintenir, optimiser et assurer la fiabilité et la performance des systèmes qui alimentent notre infrastructure infonuagique sur AWS et Kubernetes, avec un fort accent sur l’automatisation, l’observabilité et l’amélioration continue.

Ce poste combine l’ingénierie de la fiabilité avec la gestion des incidents, vous donnant une véritable responsabilité sur la disponibilité, la performance et l’innovation. Vous ferez partie d’une équipe hautement qualifiée qui valorise la résolution créative de problèmes, l’excellence opérationnelle et l’amélioration continue grâce à l’automatisation et à l’ingénierie de la résilience.

Vos responsabilités

  • Collaborer avec d’autres équipes d’ingénierie pour soutenir les services avant leur mise en service à travers des activités telles que la consultation en conception de systèmes, le développement de plateformes et de cadres logiciels, la planification des capacités et les revues de lancement.
  • Innover continuellement en identifiant les points faibles, en proposant des solutions créatives et en menant des initiatives qui simplifient, font évoluer et renforcent la plateforme.
  • Maintenir les services une fois qu’ils sont en ligne en mesurant et en surveillant la disponibilité, la latence et l’état général du système.
  • Assurer une observabilité optimisée : améliorer et élargir la surveillance et l’alerte à l’aide de Datadog; définir les SLO/SLI et créer des tableaux de bord exploitables qui génèrent des résultats de fiabilité.
  • Développer et favoriser l’automatisation : améliorer les outils internes, les cadres IaC et les pipelines (Terraform, Git Lab CI/CD) afin de réduire les interventions manuelles et permettre des systèmes d’auto-réparation.
  • Faire évoluer les systèmes de façon durable par l’automatisation et en favorisant des changements qui améliorent la fiabilité et la rapidité.
  • Mettre en pratique une gestion durable des incidents et des analyses post-incident sans reproche. Diriger les examens post-incident (RCA) et identifier les correctifs à long terme qui améliorent la stabilité, la fiabilité et l’expérience des développeurs.
  • Mettre en œuvre la surveillance, la journalisation, l’alerte et le signalement des SLA.
  • Créer et maintenir une documentation technique.
  • Mettre en œuvre, maintenir et faire évoluer les meilleures pratiques SRE.
  • Agir comme commandant d’incident lors des incidents; coordonner la réponse interéquipes, gérer les communications et assurer une restauration rapide des services.

Autres exigences :

  • Rotation en cas d’escalade d’incidents
  • Voyages occasionnels (visites trimestrielles sur les lieux, conférences - moins de 10 %)

Chez Tecsys, nous nous engageons à favoriser un milieu de travail diversifié et inclusif où tous les employés se sentent valorisés, respectés et autonomes. Nous croyons que la diversité stimule l'innovation et…

Note that applications are not being accepted from your jurisdiction for this job currently via this jobsite. Candidate preferences are the decision of the Employer or Recruiting Agent, and are controlled by them alone.
To Search, View & Apply for jobs on this site that accept applications from your location or country, tap here to make a Search:
 
 
 
Search for further Jobs Here:
(Try combinations for better Results! Or enter less keywords for broader Results)
Location
Increase/decrease your Search Radius (miles)

Job Posting Language
Employment Category
Education (minimum level)
Filters
Education Level
Experience Level (years)
Posted in last:
Salary