Deskripsi Pekerjaan
Kami mencari Insinyur Keandalan yang berbakat untuk bergabung dengan tim infrastruktur kami di Jakarta. Anda akan menjadi bagian krusial dalam memastikan sistem kami berjalan tanpa hambatan, meningkatkan kinerja, dan mengurangi risiko kegagalan. Bergabunglah dengan kami untuk membentuk masa depan teknologi yang andal di Indonesia!
Tanggung Jawab
- Merancang, mengimplementasikan, dan memelihara sistem monitoring observabilitas terintegrasi
- Mengembangkan strategi SRE (Site Reliability Engineering) untuk skala enterprise
- Melakukan analisis akar penyebab kegagalan (root cause analysis) insiden produksi
- Mengotomatiskan proses deployment dan recovery dengan CI/CD pipelines
- Optimalkan performa sistem melalui profiling dan tuning kontinu
- Dokumentasikan proses operasional dan runbook untuk tim operasional
Kualifikasi
- Pengalaman minimal 3 tahun sebagai SRE/Reliability Engineer Expertise dalam Cloud AWS/Azure/GCP dan container orchestration (Kubernetes)
- Kemampuan scripting dengan Python/Go/Bash untuk otomasi
- Pemahaman mendalam tentang observability tools (Prometheus, Grafana, ELK)
- Sertifikasi Cloud (AWS/Azure/GCP) atau SRE diutamakan
- Berpengalaman dengan infrastruktur as code (Terraform, CloudFormation)
- Kemampuan komunikasi lisan dan tulisan yang baik dalam Bahasa Indonesia