Deskripsi Pekerjaan
PT Teknologi Maju Indonesia mencari Insinyur Keandalan berpengalaman untuk memastikan infrastruktur cloud kami berjalan dengan performa optimal dan tingkat keandalan 99.99%. Bergabunglah dengan tim kami untuk mendorong inovasi sistem dan menciptakan pengalaman pengguna yang luar biasa!
Tanggung Jawab
- Merancang, mengimplementasikan, dan memelihara sistem monitoring dan observabilitas (Prometheus, Grafana, ELK Stack)
- Mengembangkan otomasi untuk deteksi, respons, dan pemulihan gangguan (SRE practices)
- Optimasi performa aplikasi dan infrastruktur melalui analisis data observabilitas
- Mengelola pipeline CI/CD untuk deployment yang aman dan berulang
- Mengidentifikasi dan mitigasi potensi risiko sistem secara proaktif
- Menyusun SLI/SLO dan melaporkan keandalan sistem kepada stakeholder
- Bekerja sama dengan tim DevOps dan Engineering untuk meningkatkan resilience
Kualifikasi
- Pengalaman minimal 3 tahun sebagai Reliability Engineer atau SRE
- Kemampuan eksperimen dengan Linux, Kubernetes, dan container orchestration
- Keahlian dalam scripting (Python, Go, atau Bash)
- Pemahaman mendalam tentang praktik SRE, observabilitas, dan chaos engineering
- Sertifikasi Google Cloud Platform (GCP) atau AWS adalah nilai tambah
- Kemampuan analitik data untuk diagnosis masalah sistem kompleks
- Bahasa Indonesia yang fasih dan komunikasi yang efektif