Moteurs d’indexation de documents

Categories: Divers
Comments: 1 Comment
Published on: septembre 2, 2013

Vous vous êtes sûrement demandés: comment fait un moteur de recherche tel que Google pour parcourir des milliards de contenus, de pages et de livres en quelques millisecondes …

Un parcours complet du genre Full-Text classique aurait probablement pris des jours et ceci, bien sûr, est relative à la quantité des documents à parcourir. Pour optimiser ça, on a eu recours à des algorithmes d’optimisations basés sur la structuration et l’extraction des données importantes et aussi sur des algorithmes de recherche appropriés.

Implémenter ce genre de technologie en PHP est très coûteux en ressources, c’est pourquoi on a tendance à utiliser des langages plus performants comme le C, C++, des fois le Java.

Ce qui suit est une liste de quelques services et de bibliothèques open source, toujours supportés et fournissant une interface (API) à plusieurs technologies dont PHP :

  • Sphinx écrit en C++, il s’intègre facilement à vos bases de données SQL. De fameux sites comme dailymotion l’utilisent.
  • Lucene Solr : un moteur de recherche basé sur Lucene et écrit en Java, très efficace avec plain de fonctionnalités pour l’indexation automatique des documents de différents type (MS, PDF …). Parmi ses API : SolrPhpClient, PHP Solr extension.
  • Swish

J’annoncerai peut-être dans la suite, comment installer Solr et exploiter la recherche dans les documents en PHP sur des systèmes GNU/Linux.

Comments

1 Comment - Leave a comment
  1. Amine dit :

    Merci pour cette introduction, il est vrai que dans certains cas on a recours à ce genre de solutions pour améliorer ses performances.

Leave a comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


Welcome , today is mercredi, juillet 26, 2017