Les moteurs de recherche sont devenus une partie intégrante de notre vie quotidienne, facilitant l’accès à une quantité très importante d’informations sur Internet. À travers cet article Optimal Job couvrira leur fonctionnement, leur histoire, leur évolution, ainsi que leur impact social, économique, et environnemental.
Ces derniers ont évolué à partir des outils de recherche documentaire utilisés sur les mainframes dans les années 1970, comme le logiciel STAIRS d’IBM. Ces premiers moteurs se basaient sur des index inversés et étaient orientés réseau. Les moteurs de recherche ont précédé les débuts du World Wide Web, en 1982, des outils comme « Whois » permettaient de rechercher des utilisateurs sur les réseaux informatiques. En 1989, le Knowbot Information Service a permis des recherches multi-réseaux d’utilisateurs. Cependant, le véritable premier moteur de recherche sur le contenu des fichiers fut Archie en 1990, qui s’appuyait sur le protocole de transfert de fichiers (FTP).
Au milieu des années 1990, plusieurs moteurs de recherche ont vu le jour, tel que Yahoo en 1994, Lycos, Altavista en 1995 (premier moteur 64 bits), et Google en 1998. Google a révolutionné le secteur en stockant dans ses serveurs les pages qu’il indexe, une fonctionnalité unique à l’époque. Durant les dernières décennies, les moteurs de recherche ont évolué pour répondre aux besoins spécifiques des étudiants, universitaires, chercheurs, et ingénieurs, en donnant naissance à des moteurs spécialisés dans les sujets scientifiques et techniques.
Le fonctionnement d’un moteur de recherche se décompose en trois processus principaux. Tout d’abord, l’exploration ou crawl, les robots d’indexation (ou crawlers) explorent systématiquement le web en suivant récursivement tous les hyperliens qu’ils trouvent et récupèrent les ressources jugées intéressantes. L’exploration est souvent lancée depuis une ressource pivot, comme une page d’annuaire web. Ensuite, l’indexation des ressources, les mots significatifs du corpus à explorer sont extraits et enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse. Les mots extraits sont associés à un poids reflétant leur probabilité d’apparition dans un document et leur pouvoir discriminant dans une langue, conformément au principe de la formule TF-IDF (Term Frequency-Inverse Document Frequency). Enfin, la recherche, un algorithme est appliqué pour identifier dans le corpus documentaire les documents correspondant le mieux aux mots contenus dans la requête, et les résultats sont ensuite présentés par ordre de pertinence supposée.
Les moteurs de recherche utilisent divers algorithmes pour améliorer la pertinence des résultats. Les moteurs plus simples utilisent des requêtes booléennes pour comparer les mots d’une requête avec ceux des documents. Les moteurs plus avancés utilisent le modèle vectoriel et la formule TF-IDF pour mettre en relation le poids des mots dans une requête avec ceux contenus dans les documents. D’autres techniques incluent le PageRank de Google, qui pondère une mesure de similarité cosinus en utilisant un indice de notoriété des pages, et l’analyse sémantique latente, qui introduit l’idée de concurrences dans la recherche de résultats.
Les moteurs de recherche utilisent souvent des modules complémentaires pour améliorer leurs performances, tel que le correcteur orthographique : Corrige les erreurs introduites dans les mots de la requête, ou encore le lemmatiseur, il réduit les mots recherchés à leur lemme pour étendre leur portée de recherche. L’anti-dictionnaire quant à lui supprime les mots vides non-discriminants (comme « de », « le », « la »). Les technologies d’analyse du langage, telles que la lemmatisation, l’extraction d’entités nommées, la classification et le clustering, permettent d’améliorer le fonctionnement des moteurs de recherche. Ces technologies améliorent la pertinence des résultats et engagent l’internaute dans un processus de recherche d’information plus efficace et satisfaisant.
Les webmestres utilisent diverses techniques pour optimiser les moteurs de recherche (SEO: Search Engine Optimisation), tel que l’insertion de méta éléments (méta tags) dans les pages web, permettant d’optimiser les recherches d’information sur les sites web. Le financement des moteurs de recherche repose parfois sur la publicité, par exemple, les annonceurs achètent des mots-clés pour obtenir un référencement payant (SEA: Search Engine Advertising). Les moteurs de recherche peuvent afficher la publicité sous forme d’encart séparé ou l’intégrer aux résultats de la recherche. L’intégration aux résultats peut affecter la pertinence des résultats et la qualité perçue du moteur. Les enjeux économiques ont généré des techniques de détournement malhonnêtes pour obtenir des référencements naturels, connues sous le nom de spamdexing. Les techniques de spamdexing incluent le cloaking (fournir une page différente aux moteurs de recherche de celle visible par un internaute), les sites miroirs (copies exactes d’un site sous une autre adresse), et le zurnisme (création d’un néologisme pour obtenir une exclusivité de référencement). Les éditeurs de moteurs de recherche pourchassent ces techniques en constituant des listes noires. Le web sémantique vise à améliorer la recherche d’information en permettant aux moteurs de recherche de comprendre le sens des mots et des phrases, cela permettrait de fournir des réponses précises aux questions posées en langue naturelle, plutôt que de simplement lister des pages pertinentes.
Quelques moteurs de recherche tentent de répondre aux problématiques du sens dans la recherche d’information. (Powerset : Racheté par Microsoft et partiellement intégré à Bing; KartOO : Affichait des graphes sémantiques dans ses cartes de recherche; WolframAlpha : Répond aux questions en langue naturelle à partir d’une base de données; Yatedo : Utilise la sémantique pour extraire des informations relatives à une personne sur une page web).
Les métamoteurs quant à eux interrogent plusieurs moteurs de recherche simultanément et présentent une synthèse pertinente des résultats à l’internaute. Les multi-moteurs proposent un ou plusieurs formulaires permettant d’interroger plusieurs moteurs de recherche, souvent via un seul formulaire (exemples de métamoteurs : Startpage; Searx; Seeks; Lilo; Framabee; Kagi).
Les moteurs de recherche spécialisés dans la littérature scientifique et technique incluent Google Scholar, Base (Bielefeld Academic Search Engine), OAIster, BioTechSearchEngine, BioMed Central, PubChem, CiteSeerX, TechXtra, WorldWideScience, et Isidore. Google Scholar est le moteur de recherche le plus connu et le plus utilisé pour la littérature scientifique et technique, indexant un grand nombre de bases de données et de métadonnées structurées.
Les entreprises utilisent des moteurs de recherche en interne pour gérer le nombre croissant de contenus divers (données, informations non structurées, images, vidéos…). Selon une étude de MARKESS International en 2008, 49 % des organisations avaient recours à un moteur de recherche d’entreprise, et 18 % envisageaient son utilisation d’ici 2010. Parmi les acteurs proposant des moteurs de recherche d’entreprise, on trouve Google, Exalead, PolySpot, et OpenSearchServer.
Les moteurs de recherche solidaires reversent une partie de leurs revenus à des causes écologiques, sociales ou humanitaires. Par exemple, Ecosia utilise 80 % de ses revenus publicitaires pour des projets de reforestation, et Google vise à être neutre en carbone d’ici 2030 en sollicitant davantage l’utilisation des énergies renouvelables.
En bref, les moteurs de recherche ont parcouru un long chemin depuis leurs débuts rudimentaires, évoluant en des outils sophistiqués qui facilitent l’accès à une quantité immense d’informations. Leurs implications environnementales, économiques et sociétales sont significatives, nécessitant une attention continue pour assurer leur développement durable et équitable. Les avancées vers le web sémantique, et les moteurs de recherche écologiques montrent que l’avenir des moteurs de recherche pourrait être à la fois plus intelligent et plus responsable.