Label yang konsisten adalah fondasi akurasi model deteksi cacat. Panduan ini merangkum standar praktis yang bisa langsung diterapkan tim QA/anotator Anda.
Tujuan & Cakupan
Jelaskan tujuan proyek (mis. deteksi scratch, dent, misalignment) dan batasannya. Definisikan KPI seperti mAP per kelas, false positive pada kelas kritikal, dan SLA labeling.
Perancangan Kelas (Class Design)
- Granularitas tepat: satukan kelas yang tidak bisa dibedakan secara andal; pisahkan yang berdampak pada keputusan.
- Definisi kelas tertulis beserta contoh positif/negatif dan counter-example.
- Gunakan kode kelas (mis.
SCRuntuk scratch) untuk meminimalkan salah ketik.
Pedoman Anotasi
- Bounding box: kotak rapat mengelilingi cacat; hindari area kosong.
- Segmentasi untuk cacat tipis/berkelok agar area tepat.
- Overlapping: bila dua cacat berbeda bersinggungan, label terpisah.
- Ukuran minimum: tetapkan threshold piksel agar anotasi tidak noise.
- Arah & sudut: dokumentasikan cara memberi label pada goresan diagonal.
- Naming: konsisten nama file, versi, dan struktur folder.
Cantumkan contoh visual “benar vs salah” di panduan internal agar interpretasi seragam.
Konsistensi Anotator
- Onboarding dengan kuis gambar contoh & umpan balik.
- Double-label sampel acak untuk hitung IoU antar anotator.
- Review mingguan untuk menyamakan interpretasi kasus sulit.
Quality Assurance (QA) Berlapis
- Validasi otomatis: deteksi box terlalu kecil/besar, koordinat di luar frame, kelas tidak dikenal.
- QA manual: auditor memeriksa sampel; gunakan rubric (benar/kurang/keliru).
- Statistik QA: simpan skor anotator, IoU rata-rata, dan temuan khas.
Audit Trail & Versioning
- Versikan data mentah, label, dan split (train/val/test).
- Catat siapa–kapan–apa untuk setiap perubahan.
- Bekukan rilis dataset untuk eksperimen/produksi tertentu (tag versi).
Menangani Class Imbalance
- Sampling (over/under) dan augmentasi realistis.
- Fokus pada kelas kritikal dengan target metrik khusus.
- Active learning: pilih sampel yang membingungkan model untuk dilabel ulang.
Edge Case & Ambiguitas
- Definisikan ambiguous (kabur, silau, occlusion) dan cara menandainya.
- Sediakan label “unknown”/“not-sure” agar data tidak dipaksa.
- Kumpulkan daftar kasus tepi untuk lampiran panduan berisi contoh.
Privasi & Keamanan Data
- Least privilege untuk akses dataset; audit log.
- Retensi & penghapusan data sesuai kebijakan; enkripsi in-transit/at-rest.
- Anonimisasi bila ada data sensitif (serial, watermark).
Checklist Ringkas
Pedoman jelas + contoh visual ✔
Definisi kelas solid & berdampak bisnis ✔
QA otomatis + manual ✔
Versioning data/label/split ✔
IoU antar anotator dipantau ✔
Active learning untuk edge case ✔
Tujuan akhir: label yang dapat direproduksi & diaudit—bukan sekadar “banyak”. Kualitas mengalahkan kuantitas.
FAQ
Berapa IoU antar anotator yang “baik”? Tergantung objek; targetkan ≥0.6–0.7 untuk box kecil/rumit, lebih tinggi untuk objek besar.
Apakah perlu segmentasi? Untuk cacat tipis/irregular, segmentasi sering meningkatkan akurasi dibanding box.
Seberapa banyak data? Mulailah ratusan per kelas kritikal; tambah saat variasi baru muncul.