Engine khai phá dữ liệu

Mô tả :
Công cụ khai phá dữ liệu thông minh của “Phần mềm hệ thống khai phá văn bản tiếng Việt” ứng dụng các công nghệ mới nhất trong lĩnh vực Trí tuệ nhân tạo (AI: artificial intelligence), Xử lý ngôn ngữ tự nhiên (NLP: natural language processing) và xử lý dữ liệu lớn (Big data processing)

Bảo hành:

Giá

:

3,000,000,000 đ

Tính năngMô tả tính năng
Tìm kiếm theo từ khoá trên nội dung toàn văn bản
Hệ thống cho phép tìm kiếm các văn bản theo từ khóa. NSD nhập vào ô tìm kiếm (search box) một truy vấn bao gồm một hoặc một số từ khóa và hệ thống trả về kết quả là các văn bản chứa các từ khoá đó.
Tìm kiếm trên trường thông tin siêu văn bản (metadata)
Hệ thống cho phép tìm kiếm các văn bản theo các trường thông tin siêu văn bản như: người kí, nơi ban hành, thời gian phát hành văn bản, …
Tìm kiếm theo cụm
Hệ thống cho phép tìm kiếm chính xác hơn với việc tìm kiếm văn bản chứa cụm, ví dụ cụm “cải cách hành chính” chứ không phải là 4 từ rời rạc “cải”, “cách”, “hành”, “chính”
Tìm kiếm kết hợp các cụm theo phép toán AND, OR, NOT
Nếu truy vấn bao gồm nhiều từ khóa, NSD có thể sử dụng một số cú pháp sau với các phép toán logic để có thể tìm kiếm theo mục tiêu một cách linh hoạt.
- “”: tìm kiếm các văn bản chứa toàn bộ cụm từ cần tìm kiếm. 
AND : từ khóa AND cho phép tìm kiếm các văn bản có chứa đồng thời các từ khóa trong truy vấn. 
OR : từ khóa OR cho phép tìm kiếm các văn bản chứa ít nhất một trong hai từ khóa.
NOT : từ khóa NOT cho phép tìm kiếm các văn bản có chứa từ khóa thứ nhất nhưng không chứa từ khóa thứ hai.
Hệ thống sẽ hiển thị tập các văn bản có nội dung liên quan đến truy vấn được xếp hàng theo độ liên quan giảm dần.
Tìm kiếm toàn văn kết hợp lọc thông tin theo trường dữ liệu metadataHệ thống cho phép tìm kiếm trên toàn văn đồng thời với lọc thông tin thoả mãn các trường dữ liệu siêu văn bản. Ví dụ tìm kiếm văn bản chứa “hành chính” do “Nguyễn Văn A” kí.
Tìm kiếm có chức năng tự động gợi ý từ khoá truy vấn
Cho phép NSD tìm kiếm bằng cách tự động gợi ý truy vấn khi NSD đang gõ truy vấn tìm kiếm vào ô tìm kiếm. Tính năng này hỗ trợ NSD hoàn thiện nhanh truy vấn hoặc gợi ý cho NSD những truy vấn tìm kiếm phổ biến được thực hiện trước đó.
Ví dụ, NSD đang gõ “luật h” thì hệ thống gợi ý các truy vấn đầy đủ như “luật hôn nhân”, “luật hôn nhân gia đình”, “luật hình sự”, “luật hải quan”, … Các truy vấn tìm kiếm có tiền tố là đoạn truy vấn mà NSD đã gõ vào. Hệ thống sẽ hiển thị tập các văn bản có nội dung liên quan đến truy vấn được xếp hàng theo độ liên quan giảm dần.
Chuẩn hoá tiếng Việt văn bản và câu truy vấn
Đối với tiếng Việt, hiện dữ liệu có thể được lưu theo kiểu font khác nhau, theo các cách bỏ dấu khác nhau. Vì vậy để thống nhất trong quá trình so khớp và tìm kiếm thì hệ thống sẽ thống nhất dữ liệu cùng về một dạng chuẩn. 
Tìm kiếm thông minh với câu hỏi ngôn ngữ tự nhiên 
Cho phép NSD tương tác, giao tiếp với hệ thống thông qua câu ở dạng ngôn ngữ tự nhiên. Hệ thống hỗ trợ một số dạng hỏi đáp nhất định liên quan đến đặc tả về tính năng của văn bản.
Phân loại tự động văn bản phục vụ tìm kiếm và thống kê thông minh
- Hệ thống sẽ tiến hành tự động phân loại để xếp văn bản vào một hạng mục chủ đề cho trước. 
- Những thông tin này sẽ được đánh chỉ mục để phục vụ cho mục đích duyệt văn bản, tìm kiếm, và thống kê. 
- NSD hiệu chỉnh là lưu thông tin hạng mục chủ đề nếu cần.
Gắn thẻ tự động văn bản phục vụ tìm kiếm và thống kê thông minh
- Khác với tập các hạng mục chủ đề, tập thẻ nhãn của hệ thống mô tả cụ thể hơn về nội dung của các văn bản. Tập thẻ nhãn có thể được tạo ra thêm trong quá trình vận hành hệ thống theo mục tiêu
- Hệ thống sẽ phân tích và sinh thẻ nhãn tự động cho từng văn bản.
Trích chọn tự động thực thể tên phục vụ tìm kiếm và thống kê thông minh
Trong văn bản, các thực thể Tên đóng vai trò quan trọng. Hệ thống sẽ tự động phân tích để xác định các thực thể tên để phục vụ cho các việc khác liên quan. 
Thống kê trên trường dữ liệu metadata
Thống kê theo dữ liệu của các trường siêu văn bản (meta data) nhằm tìm và hiển thị danh sách các dữ liệu xuất hiện nhiều nhất trong khoảng thời gian lựa chọn, thể hiện thông tin so sánh giữa các dữ liệu này. Ví dụ như thống kê về cơ quan phát hành văn bản, người kí.
Thống kê theo phân loại và thẻ nhãn 
Thống kê theo chủ đề, thẻ nhãn, thực thể tên, … nhằm tìm và hiển thị danh sách các loại đối tượng này xuất hiện nhiều nhất trong khoảng thời gian lựa chọn, so sánh giữa các từ khoá. 
Thống kê trên thực thể tên quan trọng xuất hiện nhiều
Thống kê tần suất xuất hiện các tên trong văn bản theo thời gian, xem đối tượng (tên) nào đang được quan tâm nhiều nhất trong khoảng thời gian nhất định. 
Nhập dữ liệu văn bản tự động thông qua API để tích hợp với các hệ thống khác
- Hệ thống cung cấp API để các hệ thống khác chuyển dữ liệu sang. 
- Hệ thống sẽ có chức năng phân tích kiểm tra sự tương thích và tránh trùng lặp, sau đó sẽ thu nhận vào thành dữ liệu chính thức của hệ thống.
Nhập và hiệu chỉnh dữ liệu văn bản thủ công
- Cho phép NSD thêm trực tiếp vào hệ thống một hoặc một số văn bản (MS Word, plain text). 
- Hỗ trợ tự động trích chọn các trường siêu dữ liệu hỗ trợ và cho phép quản trị hiệu chỉnh thông tin.
- Cho phép NSD có thể thực hiện mở văn bản và hiệu chỉnh các thông tin của văn bản bao gồm thông tin mô tả (meta data), hạng mục chủ đề hay tạp thẻ nhãn gắn với văn bản và lưu lại thông tin vào CSDL của hệ thống
Khả năng xử lý dữ liệu lớn 
Hệ thống có khả năng làm việc với số lượng lớn văn bản hiện tại của Thành phố (lên tới 1 triệu văn bản). Có khả năng nâng cấp với dữ liệu lớn hơn.
Cung cấp API tìm kiếm cho các hệ thống khác
Cung cấp API trả về kết quả tìm kiếm với câu truy vấn đưa vào, nhằm tích hợp chức năng tìm kiếm vào các hệ thống khác.

Công cụ khai phá dữ liệu thông minh của “Phần mềm hệ thống khai phá văn bản tiếng Việt” ứng dụng các công nghệ mới nhất trong lĩnh vực Trí tuệ nhân tạo (AI: artificial intelligence), Xử lý ngôn ngữ tự nhiên (NLP: natural language processing) và xử lý dữ liệu lớn (Big data processing) nhằm phân tích kho dữ liệu văn bản, trích rút thông tin văn bản phục vụ các nhiệm vụ:

 • Tìm kiếm thông tin chính xác, nhanh chóng, đầy đủ
 • Liên kết thông tin, liên kết tài liệu
 • Tổng hợp, thống kê thông tin hỗ trợ nhiệm vụ ra quyết định

Nâng cao hiệu quả Chính phủ điện tử thông qua khai thác thông tin văn bản một cách thông minh

 • Scanned
 • PDF
 • DOC/DOCX
 • Others

Số hóa tài liệu

 • Dữ liệu được số hoá
 • Lưu trữ
 • Keyword
 • Câu hỏi tự nhiên
 • Lọc tiêu chí
 • Tìm kiếm chi tiết

Tìm kiếm văn bản

 • Văn bản cần tìm
 • Nhóm văn bản liên quan
 • Lọc thông tin đa chiều
 • Chính xác, nhanh, đầy đủ
 • Thống kê theo thời gian
 • Thống kê theo sự kiện
 • Phân loại, phân nhóm văn bản

Tổng hợp thông tin, thống kế

 • Biểu đồ biến đổi thông tin theo thời gian
 • Phát hiện, cảnh báo sự kiện nổi bật
 • Tổng hợp thông tin theo nhóm, phân loại

Hệ thống được thiết kế đặc biệt để phục vụ Khai Thác Thông Tin trong nhiệm vụ quản lý văn bản của chính phủ điện tử.

 • Số hoá văn bản
 • Tổ chức lưu trữ
 • Tìm kiếm tài liệu công văn nhanh chóng theo nhiều tiêu chí khác nhau
 • Tìm kiếm thông minh theo tương tác ngôn ngữ tự nhiên
 • Liên kết tài liệu theo phân loại tự động
 • Liên kết tài liệu nội dung, theo sự phụ thuộc tài liệu
 • Thống kê tài liệu theo nhiều tiêu chí
 • Cảnh báo dựa trên phân tích