SRE (Site Reliability Engineering) | Remoto
¿Estás buscando nuevos desafíos y un lugar donde puedas disfrutar de un ambiente cercano mientras aprendes constantemente?
¡Bienvenido a un equipo con un propósito claro: "TRANSFORMAR la vida de las personas siendo el aliado TECNOLÓGICO más confiable"! 🚀
¡Prepárate y únete a esta aventura!
¿Qué encontrarás?
Retos técnicos y personales que te mantendrán en constante crecimiento.🤝 Un equipo conectado, enfocado en tu bienestar físico y mental.
Cultura de mejora continua, fresca y colaborativa, con oportunidades de aprendizaje y gente dispuesta a apoyarte.
KaizenHub, un programa diseñado para potenciar tus talentos, con feedback, mentorías y coaching a través de Sofka U. ¡Será un reto y un juego a la vez! 🧠🎮
Programas como Happy Kaizen y WeSofka que cuidan tu bienestar físico y emocional.
💡¿Qué buscamos?
Buscamos un SRE con más de 3 años de experiencia liderando la resiliencia tecnológica y la observabilidad en entornos de alta complejidad. Tu misión será actuar como el puente entre la innovación y la estabilidad, dominando conceptos de Observabilidad & Reliability, Arquitectura de Sistemas Distribuidos y Automatización (IaC). Buscamos a un experto capaz de transformar incidentes en oportunidades de mejora y de evangelizar la cultura de confiabilidad dentro de squads ágiles.
Esta es tu oportunidad para diseñar el futuro de la disponibilidad tecnológica en un entorno remoto, donde tu trabajo impactará directamente en la experiencia de miles de usuarios. Si buscas un reto donde la ingeniería de caos, la autorremediación y la innovación constante sean tu día a día, ¡queremos conocerte!
Responsabilidades
Adaptar las necesidades de observabilidad a cada solución técnica para asegurar cobertura, visibilidad y eficiencia operativa.
Configurar y mantener dashboards, métricas, alertas y controles críticos para el negocio.
Validar la resiliencia de las soluciones mediante pruebas de caos y evaluaciones de escalabilidad bajo carga.
Implementar patrones de diseño resilientes como circuit breakers, fallbacks y retries en arquitecturas distribuidas.
Identificar y automatizar procesos manuales utilizando herramientas de infraestructura como código para reducir el MTTR.
Liderar la implementación de flujos de autorremediación y promover prácticas de mejora continua en la operación.
Colaborar con equipos de desarrollo y arquitectura para asegurar la calidad técnica en los journeys críticos de los usuarios.
Requisitos
Formación: Profesional en Ingeniería de Sistemas, Computación, Electrónica o carreras afines.
Experiencia: Amplia trayectoria en implementación de observabilidad y resiliencia en microservicios, entornos Cloud y equipos ágiles; experiencia comprobada en automatización de tareas operativas y gestión de incidentes bajo metodologías SRE/DevOps.
Conocimientos Técnicos
Observabilidad: Dynatrace (Hands-on principal), Grafana, Prometheus, OpenTelemetry y ELK Stack.
Automatización e IaC: Ansible, Terraform, Terragrunt y Monaco (Monitoring as Code).
Contenerización: Kubernetes (AKS, EKS), OpenShift (Nivel avanzado) y Docker.
Lenguajes de Programación: Python (Avanzado), Bash, YAML y PowerShell.
Cloud & Infraestructura: Azure, AWS o GCP (Networking, Seguridad y Cómputo).
Gestión de Confiabilidad: Definición de SLIs, SLOs, SLAs y gestión de Error Budgets.
CI/CD: Git, Jenkins, Azure DevOps y GitHub Actions.
Ingeniería de Resiliencia: Chaos Engineering, Circuit Breaker y despliegues Canary/Blue-Green.
¡PRESENTATE y sé parte de esta historia!
Condiciones
Contrato a término indefinido ¡Queremos relaciones a largo plazo y que seas parte de nuestra familia por mucho tiempo!
¿Buscas crecimiento profesional? En Sofka, te ofrecemos un ecosistema de aprendizaje con múltiples herramientas para cerrar brechas y potenciar tus habilidades. ¡Tú decides cómo quieres crecer! 📚
Modalidad: remota
- División
- Operaciones
- Área
- Desarrollo y Arquitectura
- Puesto
- Site Reliability Engineer
- Ubicaciones
- Ecuador
- Estado remoto
- Completamente remoto