ADR-003: Rule-based Matching với 100% Human Review trong GĐ1¶

Trạng thái¶

Accepted

Ngày¶

2026-04-08

Người quyết định¶

Tech Lead, Product Owner

Architecture Drivers¶

D1 (Bảo mật & Tuân thủ), D2 (Tính chính xác)

Bối cảnh¶

Chức năng cốt lõi của hệ thống là matching field đã phát hiện từ các Sở với Data Element trong Anchored Data. Match sai dẫn đến gán chủ quản sai — lỗi quản trị nghiêm trọng. GĐ1 cần phương pháp matching giải thích được, kiểm toán được.

Các Phương Án Xem Xét¶

Phương án A: Rule-based scoring (synonym + trigram + levenshtein) với human review¶

Ưu điểm: Giải thích được; kiểm toán được (algo_breakdown lưu cho mỗi match); không cần training data; hàm PostgreSQL native sẵn có; con người là người quyết định cuối cùng
Nhược điểm: Độ chính xác thấp hơn ML cho trường hợp mơ hồ; cần nỗ lực con người cho mọi match

Phương án B: ML-based matching (embeddings + cosine similarity)¶

Ưu điểm: Độ chính xác cao hơn cho matching ngữ nghĩa; xử lý tốt tiếng Việt
Nhược điểm: Cần training data (chưa có); "hộp đen" — khó giải thích cho stakeholder chính phủ; rủi ro model drift; cần hạ tầng ML ops

Phương án C: Rule-based với auto-accept trên ngưỡng¶

Ưu điểm: Xử lý nhanh hơn; ít nỗ lực con người
Nhược điểm: Rủi ro match sai tự động chấp nhận; khó kiểm toán; stakeholder chính phủ muốn con người chịu trách nhiệm

Quyết Định¶

Sử dụng Phương án A: Rule-based scoring với 100% human review. Công thức scoring: 0.5 × synonym + 0.3 × trigram + 0.2 × levenshtein × data_type_penalty. Mọi gợi ý cần Manager review. Score ≥ 0.90 hiển thị nút "Batch Accept" (vẫn do con người kích hoạt). Mọi quyết định ghi vào ai_feedback_log làm dữ liệu training cho ML GĐ2.

Hệ Quả¶

Tích cực¶

Mọi quyết định match có giải thích rõ ràng, kiểm toán được
ai_feedback_log xây dựng tập training data cho ML GĐ2
Không cần hạ tầng ML trong GĐ1
Stakeholder chính phủ hiểu và tin tưởng quy trình

Tiêu cực¶

Độ chính xác thấp hơn ML cho thuật ngữ tiếng Việt mơ hồ
Nỗ lực con người cao hơn (Manager review mọi match)

Rủi ro¶

Độ chính xác có thể không đủ cho thuật ngữ đặc thù domain → giảm thiểu bằng human review safety net

Hành Động Tiếp Theo¶

Xây dựng từ điển đồng nghĩa cho thuật ngữ dữ liệu tiếng Việt phổ biến
Thực hiện POC để đánh giá độ chính xác scoring với dữ liệu thực tế từ Sở
Thiết kế schema ai_feedback_log hỗ trợ ML training tương lai

Liên Quan¶

INT-003 Matching Microservice
TSD v1.3 TS-P0-06b (AI Suggestion Engine)