Jurang Kandungan — soalan pengguna di mana chatbot mendapat sumber lemah (≤2 rujukan) atau jawab "tidak terdapat dalam dokumen". Tindakan: tambah dokumen rujukan baru untuk topik ini supaya chatbot boleh menjawab dengan tepat pada masa depan.
#
Masa
Soalan
Petikan Jawapan
Sumber
Signal
Tiada jurang kandungan dikesan. Bagus!
Penilaian Kualiti (LLM-as-judge) — Qwen3.5-27B menilai sampel perbualan harian pada tiga dimensi: grounded (berdasarkan dokumen), helpful (membantu pengguna), safe (tiada halusinasi). Skor 0–5. Berjalan setiap malam 02:30.
Tarikh
Saiz Sampel
Grounded
Helpful
Safe
Ralat
Model
Tiada keputusan penilaian lagi. Tunggu sehingga 02:30 untuk run pertama, atau jalankan secara manual: scripts/daily_eval.py