Deskripsi Pekerjaan
Kami mencari Insinyur Keandalan Senior untuk memastikan infrastruktur cloud kami berjalan dengan sempurna. Bergabunglah dengan tim kami yang dinamis untuk merancang sistem yang tangguh dan mencegah kerusakan sebelum terjadi. Anda akan berperan krusial dalam meningkatkan uptime sistem dan pengalaman pengguna kami.
Tanggung Jawab
- Mengembangkan sistem monitoring dan alerting otomatis untuk deteksi dini masalah
- Merancang implementasi SLO/SLI untuk layanan kritis
- Melakukan analisis akar penyebab kegagalan (root cause analysis)
- Optimasi performa sistem dan skala infrastruktur
- Dokumentasi proses dan sistem keandalan
- Koordinasi dengan tim DevOps dan SRE untuk praktik terbaik
Kualifikasi
- Minimal 3 tahun pengalaman sebagai Reliability Engineer/SRE
- Pemahaman mendalam tentang SLO/SLI dan observability
- Kemampuan scripting (Python/Bash) dan konfigurasi as-code (Terraform)
- Pengalaman dengan AWS/GCP/Azure dan Kubernetes
- Keahlian dalam monitoring tools (Prometheus, Grafana, Datadog)
- Sertifikasi cloud (AWS/GCP) menjadi nilai tambah
- Kemampuan komunikasi lisan dan tulisan yang baik dalam Bahasa Indonesia