Tìm hiểu về Full-Text Search
Full-Text Search là gì?
Full-Text Search là một phương pháp/ kỹ thuật giúp bạn có thể tìm kiếm thông tin một cách tự nhiên nhất. Ngôn ngữ tìm kiếm thường là ngôn ngữ tự nhiên (ngôn ngữ bình thường của con người), được các công cụ tìm kiếm như: Google, Bing hay những sàn thương mại điện tử lớn trong thời điểm hiện tại sử dụng nhằm để hỗ trợ người dùng tìm kiếm thứ họ mong muốn.
Ví dụ: bạn tìm từ khóa hosting giá rẻ và Google sẽ trả lại kết quả tìm kiếm gợi ý như trong ảnh:
Full-Text Search bao gồm một hoặc nhiều cột khác nhau dựa trên những ký tự có trong bảng. Các cột dữ liệu có thể thuộc các kiểu dữ liệu như: char, varchar, nchar, nvarchar, text, ntext, image, xml hoặc varbinary (max) và cả FILESTREAM.
Vì sao nên sử dụng Full-Text Search?
Khi học và sử dụng SQL, chắc chắn bạn đã rất quen thuộc với câu lệnh LIKE trong SQL Server, ví dụ như:
SELECT column_name(s)FROM table_nameWHERE column_name LIKE pattern;
Trong đó, LIKE sẽ tìm kiếm thông tin giới hạn dựa trên cột được quy định và câu lệnh LIKE làm việc “máy móc” theo kiểu khớp từng ký tự trong chuỗi. Vì thế, LIKE có các yếu điểm như:
- Độ chính xác thấp và khả năng tìm kết quả bằng tiếng Việt có đấu là rất tệ!
- Độ nhiễu kết quả đầu ra rất cao
- Tốc độ truy vấn rất chậm
Nếu bạn muốn có kết quả tốt hơn, khả năng tìm kiếm bằng ngôn ngữ tự nhiên được cải thiện hơn và hiệu suất cũng trở nên cao hơn thì Full-Text Search sẽ là một lựa chọn tốt hơn dành cho bạn.
Và yếu tố khiến Full-Text Search trở nên vượt trội hơn các kỹ thuật tìm kiếm khác đó chính là Inverted Index.
Inverted Index là gì?
Thông thường, các kỹ thuật tìm kiếm sẽ lập chỉ mục (index) theo đơn vị row(document). Đối với Inverted Index, lại khác.
Bạn có thể xem Inverted Index như một dạng cấu trúc dữ liệu có khả năng liên kết giữa các term với nhau và các tài liệu chứa term đó. Sau đây sẽ là một ví dụ để bạn có thể dễ dàng hiểu hơn:
Chúng ta sẽ tạo ra 3 tài liệu A1, A2 và A3 như sau:
- A1 = “This is first document”
- A2 = “This is second one”
- A3 = “one two”
Sau đó, chúng ta sẽ có Inverted Index của 3 tài liệu trên được lưu lại như sau:
"this" = {A1, A2}"is" = {A1, A2}"first" = {A1}"Document" = {A1}"second" = {A2}"one" = {A2, A3}"two" = {A3}
Với phương thức này, cách Full-Text Search sẽ trở nên dễ dàng hơn bao giờ hết. Ví dụ:
Bạn muốn truy vấn cụm từ This is first, thông thường các phương pháp tìm kiếm khác sẽ quét từng chữ cái. Trong khi đó, bạn tìm kiếm cùng lúc trên 3 tài liệu lúc này bài toán tìm kiếm sẽ trở thành phép toán tử union của 3 tập hợp:
{A1, A2} union {A1, A2} union {A1} = {A1}
Vì vậy, khi bạn tìm kiếm dù cho các cụm từ đảo lộn thành: first This is hay This first is kết quả của phép toán union vẫn không đổi.
Sử dụng Full-Text Search trong SQL Server
Tìm hiểu về cách hoạt động của Full-Text Search trong SQL Server
Khi các cột đã được lập chỉ mục, người dùng có thể sử dụng Full-Text Search theo các cách như sau:
- Một từ hoặc nhiều từ hoặc một cụm từ cụ thể (đơn giản nhất)
- Một hoặc một cụm từ bắt đầu bằng các văn bản được chỉ định (theo tiền tố)
- Một từ hoặc cụm từ gần giống với một từ hoặc một cụm từ khác (gần gũi)
- Các dạng đồng nghĩa của một cụm từ nào đó. Ví dụ trong tiếng Việt có đen, hắc, ô, mực.
Các truy vấn (query) sẽ không phân biệt kết quả chữ in hoa hay in thường. Ví dụ như “Tinohost” và “TinoHost” sẽ được trả về trong kết quả truy vấn.
Ví dụ về Full-Text Search trong SQL Server
Thiết lập cơ bản để thực hiện Full-Text Search trong SQL Server
Để làm việc với Full-Text Search, bạn sẽ cần phải có một cơ sở dữ liệu. Bạn có thể tải file fullTextDatabase.sql của LaptrinhVB.net để thử nghiệm.
Bước 1: kiểm tra Full-Text Search đã được cài đặt hay chưa, bạn chạy dòng lệnh sau trong SQL Studio Management:
SELECT SERVERPROPERTY('IsFullTextInstalled')
Nếu kết quả trả về bằng 0, bạn sẽ cần cài đặt gói Full-text Search bằng cách cài đặt lại SQL Server.
Bước 2: sau khi đã cài đặt Full-Text Search xong, bạn sẽ cần cài đặt catalog cho dữ liệu mẫu như sau:
- Click chuột phải vào cơ sở dữ liệu mẫu = New Full-text Catalog.
- Cửa sổ New Full-text Catalog hiện lên, bạn bấm chọn vào Accent-insensitive và chúng ta sẽ có kết quả như sau:
Bước 3: lập chỉ mục cho Full-text:
- Click chuột phải vào bảng cần lập index trong cơ sở dữ liệu = Full-text Index = Define Full-text Index…
- Các bước cài đặt khá đơn giản bạn chỉ chỉ cần thực hiện theo hướng dẫn của cửa sổ Full-text Indexing Wizard. Bạn có thể chọn ngôn ngữ tìm kiếm là Vietnamese dù khả năng hỗ trợ từ đồng nghĩa trong tiếng Việt vẫn chưa tốt lắm.
- Kết quả cuối cùng chúng ta có khi bạn đã xong:
Câu lệnh đơn giản với Full-Text Search trong SQL Server
Ví dụ, chúng ta sẽ chạy lệnh để tìm kiếm toàn bộ những sản phẩm có từ chu (chữ, chuột, chui, chuốt, chú,…), bạn chạy thử lệnh sau để so sánh giữa LIKE và Full-Text Search nhé:
SELECT * FROM Product WHERE Name LIKE ‘%chu%’SELECT * FROM Product WHERE CONTAINS (Name, ‘“*chu*”’)
Kết quả của chúng ta sẽ có như sau:
Bạn có thể thấy lệnh LIKE sẽ đưa ra những kết quả như: chuột, chuối, Chucha.
Trong khi đó, với Full-Text Search chúng ta có: chứng, chucha, chữa, chức, chữ,…
Như bạn thấy, kết quả của Full-Text Search thực sự rất đúng với yêu cầu và hỗ trợ tiếng Việt có dấu tốt hơn LIKE rất nhiều!
Sau một quá trình dài tìm hiểu về Full-Text Search là gì, Full-Text Search trong SQL Server cũng như chúng ta đã học được cách sử dụng Full-Text Search trong SQL Server cơ bản. Tng hy vọng, bài viết này đã giúp ích được cho bạn trong việc học tập và tìm hiểu về Full-Text Search. Chúc bạn sẽ đạt được những kết quả tốt nhất trong học tập và làm việc.
Nếu nội dung bài viết có sai sót, bạn hãy liên hệ và góp ý để Tino Group có thể sửa đổi nhé! Cảm ơn bạn đã đồng hành cùng Tino Group.
Bài viết có tham khảo từ nhiều nguồn: LaptrinhVB.net, viblo.asia, Microsoft, Red-Gate và mssqltips.
Những câu hỏi thường gặp về Full-Text Search
Full-Text Engine có vai trò như thế nào?
Full-Text Engine có 2 vai trò, nhiệm vụ chính đối với Full-Text Search là:
- Indexing support – hỗ trợ lập chỉ mục
- Querying support – hỗ trợ thiết lập truy vấn
Tài liệu để học về Full-Text Search ở đâu?
Nếu bạn muốn tìm hiểu thêm về Full-Text Search trong SQL Server, bạn có thể tham khảo tài liệu từ Microsoft như: Query data trong bộ tài liệu này có rất nhiều kiến thức hay và bổ ích để học đấy!
Nếu bạn sử dụng MySQL, bạn có thể tham khảo bộ tài liệu Full-Text Search Functions nằm trong Functions and Operators của MySQL 8.0 Document.
Full-Text Search được hỗ trợ như thế nào trong các dịch vụ của Microsoft?
Tính đến thời điểm tháng 9/2021, Full-Text Search đang được hỗ trợ toàn diện trong tất cả các phiên bản SQL Server. Đối với Azure SQL Database, Azure Synapse Analytics hay Parallel Data Warehouse sẽ có một số hạn chế nhất định.
Vì sao phiên bản SQL Server không hỗ trợ Full-Text Search?
Full-Text Search là một gói cài đặt không bắt buộc trong SQL Server Database Engine. Nếu chẳng may bạn không chọn gói Full-Text Search khi cài đặt SQL Server, bạn có thể cài đặt SQL Server lại lần nữa và chọn thêm gói Full-Text Search nhé!
Vì sao Full-Text Search lại mạnh mẽ hơn LIKE?
Câu lệnh LIKE có thể giúp bạn tìm kiếm thông tin được chỉ định trong một cột và lượng thông tin tìm kiếm của LIKE là không nhiều. Tuy nhiên, nếu bạn muốn tìm kiếm mềm dẻo hơn, tốt hơn và rộng hơn, Full-Text Search chính là kỹ thuật/ câu lệnh/ giải pháp bạn đang tìm kiếm.