Deskripsi Pekerjaan
Menjadi Garda Terakhir Keandalan Sistem Kami
Bergabunglah dengan Nusantara Digital Systems sebagai Reliability Engineer. Kami sedang mencari profesional berbakat untuk memastikan infrastruktur teknologi kami berjalan dengan kecepatan maksimal, stabilitas tinggi, dan uptime yang tanpa kompromi.
Sebagai bagian dari tim Engineering yang berdedikasi, Anda akan berperan dalam mendesain, mengimplementasikan, dan mempertahankan strategi keandalan yang mengubah cara kami membangun solusi digital.
Keahlian yang Anda Bawa
- Strategi Keandalan: Merancang arsitektur sistem yang tangguh (resilient) terhadap gangguan dan beban kerja yang tinggi.
- Analisis Mendalam: Melakukan Root Cause Analysis (RCA) menyeluruh untuk memperbaiki masalah permanen, bukan sekadar gejala.
- Manajemen SLA/SLO: Memantau dan meningkatkan kinerja layanan untuk memenuhi target Service Level Agreement.
- Automasi: Membangun alat otomatisasi untuk deteksi dini dan pemulihan insiden.
- Capacity Planning: Memperkirakan kebutuhan sumber daya untuk pertumbuhan bisnis yang cepat.
Kualifikasi
- S1 atau S2 Teknik Informatika, Ilmu Komputer, atau Rekayasa Perangkat Lunak.
- Pengalaman minimal 3-5 tahun dalam peran Reliability Engineering, SRE, atau DevOps.
- Penguasaan scripting yang kuat (Python, Bash, atau Go).
- Pemahaman mendalam tentang Cloud Computing (AWS, Azure, atau Google Cloud).
- Familiaritas dengan alat monitoring (Prometheus, Grafana, ELK Stack).
- Keahlian komunikasi teknis yang baik untuk berkolaborasi dengan tim produk dan engineering.
Siap untuk mengukir jejak di industri teknologi terdepan? Masukan lamaran Anda sekarang!
Tanggung Jawab
- Memantau performa sistem secara real-time untuk mendeteksi anomali dan potensi gangguan.
- Mengembangkan dan mengoptimalkan strategi keandalan untuk meminimalkan downtime.
- Menangani insiden kritis dan memimpin pemulihan layanan (incident response).
- Mengelola dependensi sistem dan database untuk memastikan integritas data.
- Melakukan load testing dan stress testing secara berkala.
- Membuat laporan performa bulanan kepada manajemen.
Kualifikasi
- Sertifikasi atau pengalaman dalam SRE (Site Reliability Engineering) Framework.
- Pengalaman menggunakan containerization (Docker, Kubernetes).
- Kemampuan menulis kode efisien dan bersih.
- Pemahaman tentang best practice keamanan siber.
- Keahlian analitis dan pemecahan masalah.