Bỏ qua

ADR-003: Rule-based Matching với 100% Human Review trong GĐ1

Trạng thái

Accepted

Ngày

2026-04-08

Người quyết định

Tech Lead, Product Owner

Architecture Drivers

D1 (Bảo mật & Tuân thủ), D2 (Tính chính xác)

Bối cảnh

Chức năng cốt lõi của hệ thống là matching field đã phát hiện từ các Sở với Data Element trong Anchored Data. Match sai dẫn đến gán chủ quản sai — lỗi quản trị nghiêm trọng. GĐ1 cần phương pháp matching giải thích được, kiểm toán được.

Các Phương Án Xem Xét

Phương án A: Rule-based scoring (synonym + trigram + levenshtein) với human review

  • Ưu điểm: Giải thích được; kiểm toán được (algo_breakdown lưu cho mỗi match); không cần training data; hàm PostgreSQL native sẵn có; con người là người quyết định cuối cùng
  • Nhược điểm: Độ chính xác thấp hơn ML cho trường hợp mơ hồ; cần nỗ lực con người cho mọi match

Phương án B: ML-based matching (embeddings + cosine similarity)

  • Ưu điểm: Độ chính xác cao hơn cho matching ngữ nghĩa; xử lý tốt tiếng Việt
  • Nhược điểm: Cần training data (chưa có); "hộp đen" — khó giải thích cho stakeholder chính phủ; rủi ro model drift; cần hạ tầng ML ops

Phương án C: Rule-based với auto-accept trên ngưỡng

  • Ưu điểm: Xử lý nhanh hơn; ít nỗ lực con người
  • Nhược điểm: Rủi ro match sai tự động chấp nhận; khó kiểm toán; stakeholder chính phủ muốn con người chịu trách nhiệm

Quyết Định

Sử dụng Phương án A: Rule-based scoring với 100% human review. Công thức scoring: 0.5 × synonym + 0.3 × trigram + 0.2 × levenshtein × data_type_penalty. Mọi gợi ý cần Manager review. Score ≥ 0.90 hiển thị nút "Batch Accept" (vẫn do con người kích hoạt). Mọi quyết định ghi vào ai_feedback_log làm dữ liệu training cho ML GĐ2.

Hệ Quả

Tích cực

  • Mọi quyết định match có giải thích rõ ràng, kiểm toán được
  • ai_feedback_log xây dựng tập training data cho ML GĐ2
  • Không cần hạ tầng ML trong GĐ1
  • Stakeholder chính phủ hiểu và tin tưởng quy trình

Tiêu cực

  • Độ chính xác thấp hơn ML cho thuật ngữ tiếng Việt mơ hồ
  • Nỗ lực con người cao hơn (Manager review mọi match)

Rủi ro

  • Độ chính xác có thể không đủ cho thuật ngữ đặc thù domain → giảm thiểu bằng human review safety net

Hành Động Tiếp Theo

  • Xây dựng từ điển đồng nghĩa cho thuật ngữ dữ liệu tiếng Việt phổ biến
  • Thực hiện POC để đánh giá độ chính xác scoring với dữ liệu thực tế từ Sở
  • Thiết kế schema ai_feedback_log hỗ trợ ML training tương lai

Liên Quan