PostgreSQL
 sql >> Base de données >  >> RDS >> PostgreSQL

PostgreSQL 12 :Implémentation d'index d'arborescence de recherche généralisée partitionnés dans l'espace K-Nearest Neighbor

La valeur de l'indexation

PostgreSQL fournit un opérateur de distance linéaire simple <-> (distance linéaire). Nous l'utiliserons pour trouver les points les plus proches d'un emplacement donné.

PostgreSQL fournit un simple opérateur de distance linéaire aux données, et n'effectuant aucune optimisation et n'ayant aucun index, nous voyons le plan d'exécution suivant :

time psql -qtAc "
EXPLAIN (ANALYZE ON, BUFFERS ON)
SELECT name, location
FROM geonames
ORDER BY location <-> '(29.9691,-95.6972)'
LIMIT 5;
"  <-- closing quote
                                      QUERY PLAN
-----------------------------------------------------------------------------------------------------------
Limit  (cost=418749.15..418749.73 rows=5 width=38) 
        (actual time=2553.970..2555.673 rows=5 loops=1)
  Buffers: shared hit=100 read=272836
  ->  Gather Merge  (cost=418749.15..1580358.21 rows=9955954 width=38) 
                    (actual time=2553.969..2555.669 rows=5 loops=1)
        Workers Planned: 2
        Workers Launched: 2
        Buffers: shared hit=100 read=272836
        ->  Sort  (cost=417749.12..430194.06 rows=4977977 width=38)
                 (actual time=2548.220..2548.221 rows=4 loops=3)
              Sort Key: ((location <-> '(29.9691,-95.6972)'::point))
              Sort Method: top-N heapsort  Memory: 25kB
              Worker 0:  Sort Method: top-N heapsort  Memory: 26kB
              Worker 1:  Sort Method: top-N heapsort  Memory: 25kB
              Buffers: shared hit=100 read=272836
              ->  Parallel Seq Scan on geonames  (cost=0.00..335066.71 rows=4977977 width=38) 
                                        (actual time=0.040..1637.884 rows=3982382 loops=3)
                    Buffers: shared hit=6 read=272836
Planning Time: 0.493 ms
Execution Time: 2555.737 ms

real    0m2.595s
user    0m0.011s
sys    0m0.015s

et voici les résultats :(les mêmes résultats pour toutes les requêtes, nous les omettons donc plus tard.)

nom emplacement
Cyprès (29.96911,-95.69717)
Église baptiste de Cypress Pointe (29.9732,-95.6873)
Bureau de poste Cypress (29.9743,-95.67953)
Puits chauds (29.95689,-95.68189)
Aéroport de Dry Creek (29.98571,-95.68597)

Ainsi, 418749,73 est le coût OPTIMIZER à battre, et il a fallu deux secondes et demie (2555,673) pour exécuter cette requête. C'est en fait un très bon résultat, en utilisant PostgreSQL sans aucune optimisation par rapport à une table de 11 millions de lignes. C'est aussi pourquoi nous avons sélectionné un ensemble de données plus grand, car il y aurait une différence très minime en utilisant des index contre moins de 10 millions de lignes. Les analyses séquentielles parallèles sont fantastiques, mais c'est un autre article.

Ajout de l'index GiST

Nous commençons le processus d'optimisation en ajoutant un index GiST. Parce que notre exemple de requête a un

LIMIT

clause de 5 items, nous avons une très grande sélectivité. Cela encouragera le planificateur à utiliser un index, nous en fournirons donc un qui fonctionne assez bien avec les données géométriques.

time psql -qtAc "CREATE INDEX idx_gist_geonames_location ON geonames USING gist(location);"

L'acte de créer l'index a un peu de frais.

CREATE INDEX
real    3m1.988s
user    0m0.011s
sys     0m0.014s

Et puis relancez la même requête.

time psql -qtAc "
EXPLAIN (ANALYZE ON, BUFFERS ON)
SELECT name, location
FROM geonames
ORDER BY location <-> '(29.9691,-95.6972)'
LIMIT 5;
"
                                      QUERY PLAN
----------------------------------------------------------------------------------
Limit  (cost=0.42..1.16 rows=5 width=38) (actual time=0.797..0.881 rows=5 loops=1)
  Buffers: shared hit=5 read=15
  ->  Index Scan using idx_gist_geonames_location on geonames  
            (cost=0.42..1773715.32 rows=11947145 width=38) 
            (actual time=0.796..0.879 rows=5 loops=1)
        Order By: (location <-> '(29.9691,-95.6972)'::point)
        Buffers: shared hit=5 read=15
Planning Time: 0.768 ms
Execution Time: 0.939 ms

real    0m0.033s
user    0m0.011s
sys     0m0.013s

Dans ce cas, nous constatons une amélioration assez spectaculaire. Le coût estimé de la requête n'est que de 1,16 ! Comparez cela au coût d'origine de la requête non optimisée à 418749,73. Le temps réel pris était de 0,939 milliseconde (neuf dixièmes de milliseconde), ce qui se compare aux 2,5 secondes de la requête d'origine. Ce résultat a pris moins de temps à planifier, a obtenu une estimation nettement meilleure et a pris environ 3 ordres de grandeur de temps d'exécution en moins.

Voyons si nous pouvons faire mieux.

Ajouter un index SP-GiST

time psql -qtAc "CREATE INDEX idx_spgist_geonames_location ON geonames USING spgist(location);"
CREATE INDEX 

real    1m25.205s
user    0m0.010s
sys        0m0.015s

Et puis nous exécutons à nouveau la même requête.

time psql -qtAc "
EXPLAIN (ANALYZE ON, BUFFERS ON)
SELECT name, location
FROM geonames
ORDER BY location <-> '(29.9691,-95.6972)'
LIMIT 5;
"
                                      QUERY PLAN
-----------------------------------------------------------------------------------
 Limit  (cost=0.42..1.09 rows=5 width=38) (actual time=0.066..0.323 rows=5 loops=1)
   Buffers: shared hit=47
   ->  Index Scan using idx_spgist_geonames_location on geonames  
            (cost=0.42..1598071.32 rows=11947145 width=38) 
            (actual time=0.065..0.320 rows=5 loops=1)
         Order By: (location <-> '(29.9691,-95.6972)'::point)
         Buffers: shared hit=47
 Planning Time: 0.122 ms
 Execution Time: 0.358 ms
(7 rows)

real    0m0.040s
user    0m0.011s
sys        0m0.015s

Ouah! En utilisant désormais un index SP-GiST, la requête ne coûte que 1,09 et s'exécute en 0,358 milliseconde (un tiers de milliseconde).

Examinons quelques éléments concernant les index eux-mêmes et voyons comment ils se superposent sur le disque.

Comparaisons d'index

indexname temps de création estimation temps de requête taille de l'index planifier le temps
non indexé 0S 418749.73 2555.673 0 .493
idx_gist_geonames_location 3M 1S 1.16 0,939 ms 868 Mo .786
idx_spgist_geonames_location 1M 25S 1.09 0,358 ms 523 Mo .122

Conclusions

Ainsi, nous voyons que SP-GiST est deux fois plus rapide que GiST en exécution, 8 fois plus rapide à planifier et environ 60 % de la taille sur disque. Et (pertinent pour cet article), il prend également en charge la recherche d'index KNN à partir de PostgreSQL 12. Pour ce type d'opération, nous avons clairement un gagnant.

Annexes

Configuration des données

Pour cet article, nous allons utiliser les données fournies par le GeoNames Gazetteer.
Ce travail est sous licence Creative Commons Attribution 4.0
Les données sont fournies "telles quelles" sans garantie ni représentation de l'exactitude, l'actualité ou l'exhaustivité.

Créer la structure

Nous commençons le processus en créant un répertoire de travail et un peu d'ETL.

# change to our home directory
cd
mkdir spgist
cd spgist
# get the base data.  
# This file is 350MB.  It will unpack to 1.5GB
# It will expand to 2GB in PostgreSQL,
#    and then you will still need some room for indexes
#  All together, you will need about 
#  3GB of space for this exercise
#  for about 12M rows of data.

psql -qtAc "
CREATE TABLE IF NOT EXISTS geonames (
geonameid           integer primary key
,name               text 
,asciiname          text 
,alternatenames     text 
,latitude           numeric(13,5) 
,longitude          numeric(13,5)
,feature_class      text 
,feature_code       text 
,country            text 
,cc2                text 
,admin1             text 
,admin2             bigint 
,admin3             bigint 
,admin4             bigint 
,population         bigint 
,elevation          bigint 
,dem                bigint 
,timezone           text 
,modification date  );

COMMENT ON COLUMN geonames.geonameid          
 IS ' integer id of record in geonames database';
COMMENT ON COLUMN geonames.name               
 IS ' name of geographical point (utf8) varchar(200)';
COMMENT ON COLUMN geonames.asciiname          
 IS ' name of geographical point in plain ascii characters, varchar(200)';
COMMENT ON COLUMN geonames.alternatenames     
 IS ' alternatenames, comma separated, ascii names automatically transliterated, 
    convenience attribute from alternatename table, varchar(10000)';
COMMENT ON COLUMN geonames.latitude           
 IS ' latitude in decimal degrees (wgs84)';
COMMENT ON COLUMN geonames.longitude          
 IS ' longitude in decimal degrees (wgs84)';
COMMENT ON COLUMN geonames.feature_class      
 IS ' http://www.geonames.org/export/codes.html, char(1)';
COMMENT ON COLUMN geonames.feature_code       
 IS ' http://www.geonames.org/export/codes.html, varchar(10)';
COMMENT ON COLUMN geonames.country            
 IS ' ISO-3166 2-letter country code, 2 characters';
COMMENT ON COLUMN geonames.cc2                
 IS ' alternate country codes, comma separated, ISO-3166 2-letter country code, 
    200 characters';
COMMENT ON COLUMN geonames.admin1             
 IS ' fipscode (subject to change to iso code), see exceptions below, 
    see file admin1Codes.txt for display names of this code; varchar(20)';
COMMENT ON COLUMN geonames.admin2             
 IS ' code for the second administrative division, a county in the US, 
    see file admin2Codes.txt; varchar(80) ';
COMMENT ON COLUMN geonames.admin3             
 IS ' code for third level administrative division, varchar(20)';
COMMENT ON COLUMN geonames.admin4             
 IS ' code for fourth level administrative division, varchar(20)';
COMMENT ON COLUMN geonames.population         
 IS ' bigint (8 byte int) ';
COMMENT ON COLUMN geonames.elevation          
 IS ' in meters, integer';
COMMENT ON COLUMN geonames.dem                
 IS ' digital elevation model, srtm3 or gtopo30, average elevation of 3''x3'' 
    (ca 90mx90m) or 30''x30'' (ca 900mx900m) area in meters, integer. 
    srtm processed by cgiar/ciat.';
COMMENT ON COLUMN geonames.timezone           
 IS ' the iana timezone id (see file timeZone.txt) varchar(40)';
COMMENT ON COLUMN geonames.modification       
 IS ' date of last modification in yyyy-MM-dd format';
"  #<-- Don't forget the closing quote

ETL

wget http://download.geonames.org/export/dump/allCountries.zip
unzip allCountries.zip

# do this, and go get a coffee.  This took nearly an hour
#   there will be a few lines that fail, they don't really matter much
IFS=$'\n'

for line in $(<allCountries.txt)
do

    echo -n "$line" | 
        psql -qtAc
    "COPY geonames FROM STDIN WITH CSV DELIMITER E'\t';"
2> errors.txt
done

Nettoyer et configurer

Tout le reste que nous faisons depuis l'intérieur de psql :

psql
-- This command requires the installation
--  of postgis2 from your OS package manager.
-- For OS/X that was `port install postgresql12-postgis2`
-- it will be something similar on most platforms.
-- (e.g. apt-get install postgresql12-postgis2, 
--  yum -y install postgresql12-postgis2, etc.)
CREATE EXTENSION postgis;
CREATE EXTENSION postgis_topology;

ALTER TABLE geonames ADD COLUMN location point;

-- Go get another cup of coffee, this is going to rewrite the entire table with the new geo column.
UPDATE geonames SET location = ('(' || latitude || ', ' || longitude || ')')::point;

DELETE FROM geonames WHERE latitude IS NULL or longitude IS NULL;
-- DELETE 32   -- In my case, this ETL anomoly was too small
--  to bother fixing the records

-- Bloat removal from the update and delete operations
CLUSTER geonames USING geonames_pkey;