Deskripsi Pekerjaan
Teknologi Nusantara Solutions mencari Insinyur Keandalan berpengalaman untuk memastikan sistem infrastruktur kami berjalan dengan optimal 24/7. Bergabunglah dengan tim kami yang inovatif untuk mendesarkan solusi keandalan yang menghadirkan pengalaman pengguna tanpa gangguan. Anda akan berperan krusial dalam membangun fondasi teknis yang tangguh untuk layanan enterprise-grade kami.
Tanggung Jawab
- Mengelola sistem monitoring observabilitas (Prometheus, Grafana, ELK Stack) untuk deteksi dini masalah
- Mengembangkan strategi automation CI/CD untuk deployment yang aman dan berulang
- Menganalisis incident root cause dan mengimplementasikan mitigasi preventif
- Merancang arsitektur fault-tolerant dengan cloud-native (AWS/GCP/Kubernetes)
- Melakukan capacity planning dan performance tuning sistem kritis
- Dokumentasi best practices dan runbook operasional
- Koordinasi dengan cross-functional teams untuk SLA compliance
Kualifikasi
- Minimal 3 tahun pengalaman sebagai SRE/Reliability Engineer
- Keahlian mendalam dalam Kubernetes, Terraform, dan cloud orchestration
- Pemahaman konsep SLO/SLI dan pengalaman implementasi
- Keahlian scripting (Python/Bash) untuk otomasi
- Sertifikasi cloud (AWS/GCP) atau SRE diutamakan
- Pemahaman sistem database (PostgreSQL, MongoDB)
- Kemampuan analisis log dan metrics dengan ELK/Prometheus
- Bahasa Inggris aktif untuk dokumentasi teknis