Architect - Openshift Job Riyadh area,Riyadh Region Saudi Arabia,IT/Tech

The Kubernetes Architect – Open Shift is responsible for designing, building, and operating secure, scalable, and highly available Red Hat Open Shift Container Platform (OCP) environments across hybrid and multi-cloud infrastructures. This role bridges business requirements and technical execution by leading platform architecture, enabling application modernization, establishing governance and automation standards, and acting as a trusted technical advisor to engineering teams and stakeholders.

Open

Shift Architecture and Components

Control Plane:
Manages cluster state, scheduling, and orchestration. Consists of API server, etcd, controller manager, and scheduler.
Worker Nodes:
Run application workloads, managed via machine config pools for scalability and lifecycle management.
Operators:
Automate the deployment, scaling, and management of complex applications and platform services.
Integrated Registry:
Stores and manages container images, supporting lifecycle policies and image pruning.
Authentication and Authorization:
Implements RBAC, OAuth, and integration with external identity providers (LDAP, Active Directory).
Networking: OVN-Kubernetes as the default CNI, supporting overlay networking, service mesh, ingress/egress, and network policies.
Persistent Storage:
Open Shift Data Foundation (ODF) for block, file, and object storage, supporting dynamic provisioning and multi-cloud integration.

Kubernetes Fundamentals and Advanced Concepts

Pod and Service Management:
Understanding pod lifecycle, service discovery, and load balancing.
Custom Resource Definitions (CRDs):
Extending Kubernetes APIs for custom automation and platform services.
Controllers and Reconciliation Loops:
Ensuring desired state through declarative configuration and automated remediation.
Admission Controllers and Webhooks:
Enforcing policies and validating resource creation.
Resource Governance:
Implementing quotas, limit ranges, and priority classes for workload management.

Platform Automation, Operators, and Custom Resources

Operator SDK:
Building, testing, and deploying custom Operators using Go, Ansible, or Helm.
Operator Lifecycle Manager (OLM):
Managing Operator installation, upgrades, and dependencies.
Custom Resource Definitions (CRDs):
Defining APIs for custom automation and platform services.
Automated Health Checks and Metrics:
Integrating Prometheus and Grafana for observability.
Declarative Infrastructure:
Using YAML manifests and Git Ops workflows for repeatable deployments.

Networking, Service Mesh, and Ingress/Egress Design

OVN-Kubernetes:
Overlay networking, distributed routing, and support for hybrid clusters (Linux/Windows).
Service Mesh (Istio):
Microservices communication, traffic management, and observability.
Ingress/Egress Controllers:
Managing external access, TLS termination, and routing policies.
Network Policies:
Implementing fine-grained access controls for pods and services.
IPsec Encryption:
Securing intra-cluster communication.

Storage, Persistent Volumes, and Data Services

Open Shift Data Foundation (ODF):
Block, File, and Object Storage supporting databases, logging, monitoring, and application data.
Dynamic Provisioning:
Using CSI drivers for automated volume management.
Multi-cloud Object Gateway:
Abstracting storage across AWS S3, Azure Blob, GCP, and on-premises resources.
Backup and Disaster Recovery:
Implementing Velero and multi-region strategies for data protection.

Monitoring, Observability, Logging, and SRE Practices

Prometheus and Grafana:
Metrics collection, dashboarding, and alerting.
Thanos Querier:
Aggregating metrics across clusters for centralized monitoring.
Logging Stack:
Fluentd, Loki, Elasticsearch, and Kibana for log aggregation and analysis.
Service Level Objectives (SLOs):
Defining and tracking reliability metrics.
Incident Response and Forensics:
Integrating audit logs and monitoring tools for rapid issue resolution.

High Availability, Scalability, and Disaster Recovery

Multi-AZ Deployments:
Distributing control plane and worker nodes across availability zones.
Cluster Autoscaling:
Dynamic scaling of compute resources based on workload demand.
Pod Disruption Budgets:
Ensuring application availability…


Increase/decrease your Search Radius (miles)



Job Posting Language