Les techniques de recherche en ligne

Comment utiliser efficacement les moteurs de recherche ?

Connaître les bases du fonctionnement d’un moteur de recherche est primordial  pour l’utiliser au mieux. Les robots trient des milliards de pages Web lors de vos demandes. De nombreux paramètres sont donc pris en compte.

Les recherches sur les sites
Les recherches sur les sites

 

Lorsque vous êtes à la recherche d’informations, vous pensez à faire des requêtes simples avec des mots clés en rapport avec votre demande.

Mais il y a d’autres techniques plus évoluées, qui vous permettront d’accéder plus rapidement à un résultat exploitable.

En effet, vous pouvez obtenir beaucoup trop de page à analyser si vous n’affinez pas vos demandez.

Le fonctionnement d’un moteur de recherche comme tout instrument de recherche se décompose en trois processus principaux :

L’exploration ou crawl : le web est systématiquement exploré par un robot d’indexation suivant récursivement tous les hyperliens qu’il trouve et récupérant les ressources jugées intéressantes. L’exploration est lancée depuis une ressource pivot, comme une page d’annuaire web. Un moteur de recherche est d’abord un outil d’indexation, c’est-à-dire qu’il dispose d’une technologie de collecte de documents à distance sur les sites Web, via un outil que l’on appelle robot ou bot. Un robot d’indexation dispose de sa propre signature (comme chaque navigateur web). Googlebot est le user agent (signature) du crawler de Google
L’indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs du corpus à explorer. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse ou, plus exactement, comme l’index terminologique d’un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l’ouvrage se situe un terme significatif donné. Les termes non significatifs s’appellent des mots vides. Les termes significatifs sont associés à un poids. Celui-ci reflète à la fois la probabilité d’apparition du mot dans un document et le « pouvoir discriminant de ce mot » dans une langue, conformément au principe de la formule TF-IDF.
La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme est appliqué pour identifier dans le corpus documentaire (en utilisant l’index), les documents qui correspondent le mieux aux mots contenus dans la requête, afin de présenter les résultats des recherches par ordre de pertinence supposée. Les algorithmes de recherche font l’objet de très nombreuses investigations scientifiques. Les moteurs de recherche les plus simples se contentent de requêtes booléennes pour comparer les mots d’une requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des corpus volumineux. Les moteurs plus évolués sont basés sur le paradigme du modèle vectoriel : ils utilisent la formule TF-IDF pour mettre en relation le poids des mots dans une requête avec ceux contenus dans les documents. Cette formule est utilisée pour construire des vecteurs de mots, comparés dans un espace vectoriel, par une similarité cosinus. Pour améliorer encore les performances d’un moteur, il existe de nombreuses techniques, la plus connue étant celle du PageRank de Google qui permet de pondérer une mesure de cosinus en utilisant un indice de notoriété de pages. Les recherches les plus récentes utilisent la méthode dites d’analyse sémantique latente qui tente d’introduire l’idée de cooccurrences dans la recherche de résultats (le terme « voiture » est automatiquement associé à ses mots proches tels que « garage » ou un nom de marque dans le critère de recherche).
De même, un article sur la récolte du blé en France sera jugé pertinent comme candidat à la réponse sur une question concernant la culture des céréales en Europe.

Source : https://fr.wikipedia.org/wiki/Moteur_de_recherche#Ressources_pour_les_moteurs_de_recherche