Belajar Kubernetes - Pengenalan dan Penjelasan Job

#Pendahuluan

Di episode sebelumnya kita sudah belajar tentang DaemonSet, yang memastikan Pod berjalan di setiap node di cluster. Selanjutnya di episode 14 kali ini, kita akan coba bahas tipe controller yang berbeda yaitu Job.

Catatan: Disini saya akan menggunakan Kubernetes Cluster yang di install melalui K3s.

Tidak seperti controller yang sudah kita bahas (ReplicaSet, DaemonSet) yang keep Pod running continuously, Job dirancang untuk task yang run to completion. Bayangkan seperti menjalankan script atau batch process yang perlu finish successfully, kemudian stop.

#Apa Itu Job?

Job membuat satu atau lebih Pod dan memastikan bahwa jumlah yang di-specify berhasil terminate. Job track successful completion dari Pod dan saat jumlah successful completion yang di-specify tercapai, Job itu sendiri complete.

Bayangkan Job seperti menjalankan cron task atau batch script - dia start, melakukan pekerjaannya, dan finish. Di Kubernetes, Job mengelola proses ini, handling failure dan retry secara otomatis.

Karakteristik kunci Job:

Run to completion - Pod diharapkan finish dan exit successfully
Automatic retry - Failed Pod otomatis di-restart
Completion tracking - Track berapa banyak Pod yang completed successfully
Parallel execution - Bisa menjalankan multiple Pod secara parallel
Cleanup - Completed Job bisa otomatis di-cleanup
One-time atau batch task - Perfect untuk migration, backup, data processing

#Kenapa Kita Butuh Job?

Job dirancang untuk workload yang perlu run once atau periodically kemudian complete:

Database migration - Menjalankan schema update atau data migration
Batch processing - Process large dataset atau generate report
Backup task - Membuat backup dari database atau file
Data import/export - Load data ke system atau export untuk analysis
Image processing - Resize image, generate thumbnail
ETL operation - Extract, transform, dan load data
One-time setup task - Initialize system atau seed data
Cleanup operation - Remove old data atau temporary file

Tanpa Job, kalian perlu:

Manually create Pod untuk one-time task
Monitor Pod completion status
Handle failure dan retry manually
Clean up completed Pod sendiri

#Job vs Controller Lain

Mari kita pahami perbedaan kunci nya:

Aspek	Job	ReplicaSet	DaemonSet
Purpose	Run to completion	Keep running	Keep running on node
Pod lifecycle	Terminate on success	Run continuously	Run continuously
Restart policy	OnFailure atau Never	Always	Always
Completion tracking	Yes	No	No
Use case	Batch task	Application	Node-level service
Cleanup	Can auto-delete	Manual	Manual

Contoh scenario:

Job: Menjalankan database migration script once
ReplicaSet: Menjalankan 3 replica dari web application continuously
DaemonSet: Menjalankan log collector di setiap node continuously

#Membuat Job

Mari kita buat basic Job:

#Contoh 1: Basic Job

Buat file bernama job-basic.yml:

Important

Penting: Job Pod harus menggunakan restartPolicy: Never atau restartPolicy: OnFailure. Default Always tidak diperbolehkan untuk Job.

Apply konfigurasi:

Verifikasi Job dibuat:

Output:

Cek Pod:

Output:

Perhatikan Pod status adalah Completed, bukan Running.

Lihat Pod log:

Output:

#Mode Completion Job

Job support mode completion yang berbeda:

#Non-Parallel Job (Default)

Menjalankan single Pod to completion:

Ini membuat satu Pod. Jika fail, Job membuat Pod baru sampai satu succeed.

#Parallel Job dengan Fixed Completion Count

Menjalankan multiple Pod secara parallel sampai jumlah yang di-specify complete successfully:

Job ini:

Butuh 5 successful completion (completions: 5)
Menjalankan 2 Pod at a time (parallelism: 2)
Membuat Pod baru sampai 5 complete successfully

#Parallel Job dengan Work Queue

Menjalankan multiple Pod secara parallel tanpa fixed completion count:

Job ini:

Menjalankan 3 Pod secara parallel
Tidak ada fixed completion count
Pod coordinate melalui external work queue
Job complete saat semua Pod finish

#Restart Policy

Job Pod support dua restart policy:

#Never

Pod tidak pernah di-restart. Jika fail, Job membuat Pod baru:

Behavior:

Failed Pod stay di Error state
Pod baru dibuat untuk retry
Bagus untuk debugging (bisa inspect failed Pod)

#OnFailure

Pod di-restart di node yang sama jika fail:

Behavior:

Failed Pod di-restart in place
Tidak ada Pod baru yang dibuat
Bagus untuk resource efficiency

#Backoff Limit

Kontrol berapa kali Job retry failed Pod:

Job ini:

Retry sampai 3 kali (backoffLimit: 3)
Setelah 3 failure, Job di-mark sebagai failed
Default backoffLimit adalah 6

#Active Deadline Seconds

Set time limit untuk Job execution:

Job ini:

Harus complete dalam 60 detik
Setelah 60 detik, Job di-terminate
Semua running Pod di-kill

#Melihat Detail Job

Untuk melihat informasi detail tentang Job:

Output:

#Contoh Praktis

#Contoh 1: Database Migration Job

Job ini:

Menjalankan database migration
Retry sampai 2 kali on failure
Harus complete dalam 5 menit
Load migration file dari ConfigMap

#Contoh 2: Batch Data Processing Job

Job ini:

Process 10 batch data
Menjalankan 3 batch secara parallel
Set resource limit
Restart failed Pod di node yang sama

#Contoh 3: Backup Job

Job ini:

Membuat database backup
Store backup di persistent volume
Gunakan secret untuk credential
Harus complete dalam 10 menit

#Contoh 4: Image Processing Job

Job ini:

Process 100 image
Menjalankan 10 processing task secara parallel
Set appropriate resource limit untuk image processing

#Pattern Job

#Pattern 1: Single Job dengan Multiple Attempt

Untuk task yang mungkin fail tapi harus retry:

#Pattern 2: Parallel Processing dengan Fixed Count

Untuk processing jumlah item yang diketahui:

#Pattern 3: Work Queue Pattern

Untuk processing item dari queue:

Pod coordinate melalui external queue (Redis, RabbitMQ, dll)

#Pattern 4: Time-Limited Job

Untuk task yang harus complete dalam time limit:

#Cleanup Job

#Manual Cleanup

Hapus completed Job:

Ini menghapus Job dan Pod nya.

#Automatic Cleanup

Gunakan TTL (Time To Live) untuk otomatis cleanup completed Job:

Job ini:

Otomatis deleted 100 detik setelah completion
Apply untuk successful dan failed Job
Membantu prevent Job accumulation

#Cleanup Policy

Kontrol kapan Job di-cleanup:

Atau keep failed Job untuk debugging:

#Monitoring Job

#Cek Status Job

#Watch Job Progress

#Lihat Job Pod

#Cek Job Log

#Monitor Job Event

#Kesalahan Umum dan Pitfall

#Kesalahan 1: Menggunakan Wrong Restart Policy

Problem: Menggunakan restartPolicy: Always untuk Job.

Solusi: Gunakan Never atau OnFailure:

#Kesalahan 2: Tidak Set Backoff Limit

Problem: Job retry indefinitely on failure.

Solusi: Set appropriate backoffLimit:

#Kesalahan 3: Tidak Ada Time Limit

Problem: Job run forever jika task hang.

Solusi: Set activeDeadlineSeconds:

#Kesalahan 4: Tidak Cleanup Completed Job

Problem: Accumulation dari completed Job dan Pod.

Solusi: Gunakan TTL untuk automatic cleanup:

#Kesalahan 5: Incorrect Parallelism Configuration

Problem: Set parallelism lebih tinggi dari completions.

Solusi: Ensure parallelism <= completions:

#Kesalahan 6: Tidak Set Resource Limit

Problem: Job Pod consume excessive resource.

Solusi: Selalu set resource limit:

#Best Practice

#Set Appropriate Backoff Limit

Prevent infinite retry:

#Gunakan Active Deadline

Prevent Job dari running terlalu lama:

#Enable Automatic Cleanup

Gunakan TTL untuk cleanup completed Job:

#Set Resource Limit

Prevent resource exhaustion:

#Gunakan Label untuk Organisasi

Tambahkan meaningful label:

#Pilih Right Restart Policy

Gunakan Never untuk debugging (keep failed Pod)
Gunakan OnFailure untuk efficiency (restart in place)

#Configure Parallelism Wisely

Balance speed dan resource usage:

#Gunakan Secret untuk Sensitive Data

Jangan hardcode credential:

#Job vs CronJob

Job run once, tapi bagaimana jika kalian perlu run them on a schedule?

Job - Run once:

CronJob - Run on a schedule:

CronJob membuat Job on a schedule. Kita akan cover CronJob secara detail di episode berikutnya.

#Penutup

Pada episode 14 ini, kita telah membahas Job di Kubernetes secara mendalam. Kita sudah belajar apa itu Job, bagaimana dia berbeda dari controller lain, dan cara menggunakannya untuk batch processing dan one-time task.

Key takeaway:

Job menjalankan Pod to completion, bukan continuously
Otomatis handle retry dengan backoffLimit
Support parallel execution dengan parallelism dan completions
Dua restart policy: Never (create new Pod) atau OnFailure (restart in place)
Gunakan activeDeadlineSeconds untuk time-limit Job
Gunakan ttlSecondsAfterFinished untuk automatic cleanup
Perfect untuk batch processing, migration, backup, dan one-time task
Berbeda dari ReplicaSet/DaemonSet yang keep Pod running
Bisa menjalankan single atau multiple Pod secara parallel
Selalu set resource limit dan backoff limit

Job essential untuk menjalankan batch workload, data processing, dan one-time task di Kubernetes. Dengan memahami Job, kalian bisa effectively manage task yang perlu run to completion, handle failure gracefully, dan cleanup resource secara otomatis.

Bagaimana, makin jelas kan tentang Job di Kubernetes? Di episode 15 berikutnya, kita akan membahas CronJob, yang build on Job untuk menyediakan scheduled, recurring task execution. Jadi, pastikan tetap semangat belajar dan nantikan episode selanjutnya!