Banner: Data Labeling untuk Deteksi Cacat

Praktik Terbaik: Data Labeling untuk Deteksi Cacat

Label yang konsisten adalah fondasi akurasi model deteksi cacat. Panduan ini merangkum standar praktis yang bisa langsung diterapkan tim QA/anotator Anda.

Tujuan & Cakupan

Jelaskan tujuan proyek (mis. deteksi scratch, dent, misalignment) dan batasannya. Definisikan KPI seperti mAP per kelas, false positive pada kelas kritikal, dan SLA labeling.

Perancangan Kelas (Class Design)

  • Granularitas tepat: satukan kelas yang tidak bisa dibedakan secara andal; pisahkan yang berdampak pada keputusan.
  • Definisi kelas tertulis beserta contoh positif/negatif dan counter-example.
  • Gunakan kode kelas (mis. SCR untuk scratch) untuk meminimalkan salah ketik.

Pedoman Anotasi

  • Bounding box: kotak rapat mengelilingi cacat; hindari area kosong.
  • Segmentasi untuk cacat tipis/berkelok agar area tepat.
  • Overlapping: bila dua cacat berbeda bersinggungan, label terpisah.
  • Ukuran minimum: tetapkan threshold piksel agar anotasi tidak noise.
  • Arah & sudut: dokumentasikan cara memberi label pada goresan diagonal.
  • Naming: konsisten nama file, versi, dan struktur folder.
Cantumkan contoh visual “benar vs salah” di panduan internal agar interpretasi seragam.

Konsistensi Anotator

  • Onboarding dengan kuis gambar contoh & umpan balik.
  • Double-label sampel acak untuk hitung IoU antar anotator.
  • Review mingguan untuk menyamakan interpretasi kasus sulit.

Quality Assurance (QA) Berlapis

  • Validasi otomatis: deteksi box terlalu kecil/besar, koordinat di luar frame, kelas tidak dikenal.
  • QA manual: auditor memeriksa sampel; gunakan rubric (benar/kurang/keliru).
  • Statistik QA: simpan skor anotator, IoU rata-rata, dan temuan khas.

Audit Trail & Versioning

  • Versikan data mentah, label, dan split (train/val/test).
  • Catat siapa–kapan–apa untuk setiap perubahan.
  • Bekukan rilis dataset untuk eksperimen/produksi tertentu (tag versi).

Menangani Class Imbalance

  • Sampling (over/under) dan augmentasi realistis.
  • Fokus pada kelas kritikal dengan target metrik khusus.
  • Active learning: pilih sampel yang membingungkan model untuk dilabel ulang.

Edge Case & Ambiguitas

  • Definisikan ambiguous (kabur, silau, occlusion) dan cara menandainya.
  • Sediakan label “unknown”/“not-sure” agar data tidak dipaksa.
  • Kumpulkan daftar kasus tepi untuk lampiran panduan berisi contoh.

Privasi & Keamanan Data

  • Least privilege untuk akses dataset; audit log.
  • Retensi & penghapusan data sesuai kebijakan; enkripsi in-transit/at-rest.
  • Anonimisasi bila ada data sensitif (serial, watermark).

Checklist Ringkas

Pedoman jelas + contoh visual ✔
Definisi kelas solid & berdampak bisnis ✔
QA otomatis + manual ✔
Versioning data/label/split ✔
IoU antar anotator dipantau ✔
Active learning untuk edge case ✔
Tujuan akhir: label yang dapat direproduksi & diaudit—bukan sekadar “banyak”. Kualitas mengalahkan kuantitas.

FAQ

Berapa IoU antar anotator yang “baik”? Tergantung objek; targetkan ≥0.6–0.7 untuk box kecil/rumit, lebih tinggi untuk objek besar.

Apakah perlu segmentasi? Untuk cacat tipis/irregular, segmentasi sering meningkatkan akurasi dibanding box.

Seberapa banyak data? Mulailah ratusan per kelas kritikal; tambah saat variasi baru muncul.

Data Labeling Deteksi Cacat Quality Assurance Manufacturing