Deskripsi Pekerjaan
TechCorp Indonesia mencari Reliability Engineer berpengalaman untuk memastikan infrastruktur cloud kami tetap stabil dan skalabel. Anda akan menjadi bagian dari tim yang berfokus pada inovasi sistem dan peningkatan layanan pelanggan. Bergabunglah dengan kami untuk membentuk masa depan teknologi Indonesia!
Tanggung Jawab
- Mengembangkan dan memelihara sistem monitoring observabilitas (Prometheus, Grafana)
- Menerapkan praktik SRE (Site Reliability Engineering) untuk meningkatkan SLA
- Otomasi proses deployment dan operasi menggunakan CI/CD pipeline
- Analisis akar penyebab gangguan (root cause analysis) dan mitigasi
- Desain arsitektur high-availability untuk aplikasi kritis
- Koordinasi dengan tim DevOps dan Engineering untuk standarisasi
Kualifikasi
- Pengalaman minimal 3 tahun sebagai Reliability Engineer/SRE
- Kemampuan Linux/Unix system administration tingkat lanjut
- Expertise pada container orchestration (Kubernetes, Docker)
- Familiaritas dengan cloud platform (AWS, GCP, Azure)
- Pemahaman mendalam tentang observability tools
- Kemampuan scripting (Python/Bash) untuk otomasi
- Sertifikasi cloud atau SRE adalah nilai tambah