User Story: Phân tích cấu trúc metadata sau khi parse¶
1. Description¶
Là Manager, tôi muốn hệ thống tự động phân tích cấu trúc metadata sau khi parse thành công (nhận diện bảng, dự đoán domain/sub-domain), để cung cấp ngữ cảnh chất lượng cho bước matching với Anchored Data ở giai đoạn tiếp theo.
2. Acceptance Criteria¶
2.1 Happy Path¶
- GIVEN hệ thống đã parse thành công file metadata (parse_status = COMPLETED) và có danh sách Extracted Field
- WHEN hệ thống thực hiện phân tích cấu trúc tự động
-
THEN hệ thống nhận diện các bảng/entity từ danh sách field, nhóm các field theo bảng, và hiển thị kết quả nhóm cho Manager xem trên màn hình chi tiết nguồn metadata
-
GIVEN hệ thống đã nhận diện các bảng từ kết quả parse
- WHEN hệ thống thực hiện dự đoán domain/sub-domain
-
THEN hệ thống dự đoán domain/sub-domain phù hợp cho mỗi bảng dựa trên tên bảng và tên field, so sánh với danh sách Domain và Sub Domain trong Anchored Data, và hiển thị kết quả dự đoán cho Manager
-
GIVEN Manager xem kết quả phân tích cấu trúc trên màn hình chi tiết nguồn metadata
- WHEN Manager xem danh sách bảng đã nhận diện
- THEN mỗi bảng hiển thị: tên bảng, danh sách field thuộc bảng, domain/sub-domain dự đoán (nếu có), số lượng field
2.2 Alternative Paths¶
- GIVEN file CSV không có thông tin tên bảng (chỉ có danh sách field từ header row)
- WHEN hệ thống thực hiện phân tích cấu trúc
-
THEN hệ thống nhóm tất cả field vào một nhóm mặc định, vẫn thực hiện dự đoán domain/sub-domain dựa trên tên field
-
GIVEN tên bảng hoặc tên field không trùng khớp với bất kỳ Domain/Sub Domain nào trong Anchored Data
- WHEN hệ thống thực hiện dự đoán domain/sub-domain
- THEN hệ thống ghi nhận "Không dự đoán được" và vẫn cho phép tiến hành bước matching
2.3 Error Cases¶
- GIVEN Anchored Data (Domain, Sub Domain) chưa được thiết lập trong hệ thống
- WHEN hệ thống thực hiện dự đoán domain/sub-domain
-
THEN hệ thống bỏ qua bước dự đoán domain/sub-domain, chỉ thực hiện nhận diện bảng, và thông báo cho Manager rằng chưa có Anchored Data để dự đoán
-
GIVEN quá trình phân tích cấu trúc gặp lỗi
- WHEN hệ thống không thể hoàn thành phân tích
- THEN hệ thống ghi nhận lỗi nhưng không thay đổi parse_status (vẫn COMPLETED), thông báo cho Manager và cho phép tiến hành matching mà không có kết quả phân tích cấu trúc
3. Business Rules¶
- Phân tích cấu trúc chạy tự động sau khi parse thành công (parse_status = COMPLETED)
- Hệ thống nhận diện bảng/entity từ thông tin table_name trong Extracted Field
- Dự đoán domain/sub-domain dựa trên tên bảng và tên field, so sánh với Anchored Data đã có
- Kết quả phân tích cấu trúc là bước tiền xử lý, giúp nâng cao chất lượng matching ở EP-03-004
- Chất lượng dự đoán phụ thuộc vào quy ước đặt tên bảng/field của đơn vị
- Phân tích cấu trúc không bắt buộc phải thành công để tiến hành matching
4. Traceability¶
Feature: Upload & Phân tích Metadata
Related Use Cases: - UC-DISC-001: Upload và trích xuất metadata từ đơn vị
Screens: - SCR-DISC-20: Chi tiết nguồn metadata
Business Flows: - BPF-01: Vòng đời Quy hoạch Dữ liệu Thành phố
Business Entities: - Metadata Source - Extracted Field - Domain - Sub Domain
Role Matrix: - RM-001: Manager – Quản trị dữ liệu kỹ thuật
Third-Party Integrations: Không áp dụng
5. Out of Scope¶
- Matching field với Anchored Data (thuộc EP-03-004)
- Cho phép Manager chỉnh sửa kết quả dự đoán domain/sub-domain
- Huấn luyện model AI để cải thiện dự đoán domain/sub-domain
- Quản lý và chỉnh sửa danh sách field đã trích xuất (thuộc EP-03-003)