Sqlserver
 sql >> Base de données >  >> RDS >> Sqlserver

Comment ignorer les balises html dans la recherche en texte intégral SQL Server 2008

il existe un filtre pour les fichiers .htm et .html.

pour voir si vous avez installé le filtre, lancez ce sql :

SELECT * FROM sys.fulltext_document_types

vous devriez voir :

.htm E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation

.html E0CA5340-4534-11CF-B952-00AA0051FE20 C:\Program Files\Microsoft SQL Server\MSSQL10.MSSQLSERVER\MSSQL\Binn\nlhtml.dll 12.0.6828.0 Microsoft Corporation

donc, si vous pouvez convertir votre colonne d'articles en varbinary(max), vous pouvez y ajouter un index de texte intégral et spécifier un type de document de '.html'

une fois l'index rempli, vous pouvez vérifier les mots-clés en utilisant ce sql :

SELECT display_term, column_id, document_count
FROM sys.dm_fts_index_keywords
(DB_ID('your_db'), OBJECT_ID('your_table'))