Accueil
 COURS INFORMATIQUE
 Cours Algorithmique
 Cours ASP
 Cours CSS
 Cours HTML
 Cours PHP / MySQL
 Cours Réseaux
 Cours SQL
 Cours Visual Basic
 ARTICLES
  Conception de sites
  Droit & Internet
  e-commerce
  Société
  Strategies du web
  Technologies Web
  Marketing Web
 LIVRES
  ASP/ASP.Net
  C/C++/C#
  Conception de sites
  DHTML/CSS
  Gestion de Projet
  HTML/Internet
  Java/JSP/J2EE
  JavaScript/VbScript
  Juridique
  Marketing/Stratégie
  PHP/Linux/Unix
  Réseaux
  XML/XHTML/XSL
 NETALYA RECOMMANDE
Reussir un projet de site web

La réalité des agents sur Internet

Auteur : Carlo Revelli
Site : www.cybion.com
Imprimer ce dossier



Naturellement, sur le "réseau des réseaux" l'incertitude terminologique n'est pas des moindres. Il suffit de voir l'éventail folklorique des appellations utilisées : intelligent agents, search agents, software agents, internet agents, interface agents, web agents, personal agents, autonomous agents, bots, softbots, knowbots, userbots, robots, personal assistants, wizards, etc .

Quoi qu'il en soit, les "outils classiques" que nous avons étudiés auparavant (moteurs de recherche, répertoires, métamoteurs...) ne sont absolument plus suffisants à partir du moment où l'on souhaite mener des activités de veille sur Internet. Les outils traditionnels sont très utiles pour des recherches d'informations ponctuelles. En effet, leur réactivité immédiate les rend parfois plus intéressants que les agents de recherche qui, comme nous le verrons, sont très lents. Mais à partir du moment où les recherches deviennent plus complexes ou récurrentes, il faut envisager d'installer des agents plus ou moins intelligents...

Ayant défini l'environnement de travail qui nous intéresse (Internet et par conséquence aussi l'intranet) et la mission que nous souhaitons attribuer aux agents (intelligence stratégique), il est possible d'identifier différentes catégories. Cela dit, aussi bien les catégories que les agents qui les composent sont en perpétuelle évolution.

Chaque mois, plusieurs nouveaux agents sont introduits sur Internet. Au moment où vous lirez ces pages, de nombreux nouveaux agents auront vu le jour. Pour cette raison, nous avons créé un laboratoire de test sur notre site web dans lequel le lecteur pourra découvrir les dernières nouveautés et les tester directement en les téléchargeant. En effet, un agent fonctionne exactement comme un logiciel. Normalement, il faut identifier le site du revendeur sur Internet, télécharger l'agent, l'installer sur votre ordinateur et apprendre à l'utiliser.

Dans notre laboratoire, nous avons essayé de simplifier toutes ces démarches. À partir d'une adresse unique (http://www.agentland.com) , les meilleurs agents disponibles sur le marché sont étudiés, téléchargés et testés. Dans tous les cas, en annexe de cet ouvrage vous trouverez une deimages/ion des principaux agents qui existent à l'heure actuelle.

Agents pour la recherche d'informations



Comme leur nom l'indique, le but est simple: optimiser la recherche d'informations sur Internet. Ils sont d'une grande diversité et on peut distinguer plusieurs sous-catégories.

Cependant, la lenteur de leur action est telle qu'on les utilise surtout pour des recherches complexes ou à chaque fois que l'on mise sur l'exhaustivité .

Les métamoteurs "on-line"



Nous avons déjà décrit ces outils (voir p. 65). Ils ne constituent pas des agents à proprement parler puisqu'aucun logiciel client n'est installé et toutes les recherches sont réalisées en ligne à partir d'un site web (par exemple celui de MetaCrawler, SavvySearch ou ProFusion). Comme nous l'avons dit, il s'agit d'une "race hybride" qui permet d'utiliser plusieurs outils simultanément (aussi bien des répertoires que des moteurs de recherche). En d'autres mots, en remplissant un seul formulaire, vous interrogez simultanément plusieurs outils de recherche sans devoir aller sur chacun des sites, ce qui implique d'importantes économies en terme de temps. Nous avons aussi vu qu'ils présentaient quelques inconvénients importants. D'une part, ils tendent à interroger par défaut des outils de nature très différente que l'on n'utilise pas souvent ensemble (par exemple Yahoo! avec AltaVista). D'autre part, ils ne permettent pas toujours d'utiliser les fonctions avancées de recherche (comme les opérateurs booléens). Nous en avions conclu que leur principal atout consiste à débroussailler très vite le terrain et qu'ils représentent un compromis très intéressant quand, en un minimum de temps, on souhaite interroger un nombre maximum d'outils.

Les métamoteurs "off-line"



Le prolongement logique des métamoteurs "on-line" est incarné par des logiciels qui s'installent sur votre ordinateur et qui en principe pallient les inconvénients que nous venons de voir. Le principe de fonctionnement est exactement le même. Pour chaque requête, ils interrogent plusieurs outils de recherche et éliminent les doublons. Mais ce qui fait leur originalité, c'est que vous n'avez pas besoin de vous connecter directement à Internet pour les faire fonctionner. En effet, vous définissez d'abord off-line votre stratégie de recherche en choisissant les mots clés appropriés et les outils que vous souhaitez utiliser pour chaque mission. Vous pouvez aussi définir l'heure et la périodicité de votre recherche ainsi que l'endroit où vous voulez que l'agent stocke le fruit de ses efforts. De cette manière, le moment venu, l'agent active spontanément une connexion sur Internet, interroge les outils de recherche avec les mots clés que vous lui avez donnés, fusionne les résultats en éliminant les doublons, les enregistre sur votre disque dur et enfin se déconnecte pour se reposer un peu...

Vous pouvez consulter alors son travail sans devoir vous connecter, ce qui permet de bénéficier d'une vitesse d'affichage quasi instantanée, tout étant enregistré sur votre ordinateur. On comprend vite les avantages de tels outils. D'abord, contrairement aux métamoteurs on-line ( MetaCrawler, Savvy-Search...), vous pouvez sélectionner librement les moteurs à utiliser parmi des listes de plus en plus exhaustives. Vous ne serez plus obligé de lancer AltaVista avec Yahoo!. Certains agents permettent de rajouter n'importe quel instrument de recherche même s'il n'est pas présent au sein de leur liste de choix. Ensuite, de plus en plus souvent, ils permettent d'utiliser des opérateurs complexes pour mener des recherches avancées (l'agent se charge automatiquement de convertir les opérateurs booléens pour chaque moteur de recherche). Cela dit, ils ne permettent pas de prendre en compte les "finesses" propres à chaque moteur.

Naturellement, eux aussi ont leurs limites. Comme les métamoteurs on-line, la quantité de "bruit" qu'ils rapatrient est parfois impressionnante. L'inconvénient ici est que toutes ces données non pertinentes risquent de saturer très vite votre ordinateur si vous ne pensez pas à faire le ménage régulièrement. Le "bruit" sera encore plus important si vous sélectionnez des outils de recherche dont vous ne connaissez pas les caractéristiques. Pour reprendre toujours le même exemple, quelqu'un qui ne connaît pas les spécificités d'AltaVista et de Yahoo! et décide avec un agent de les utiliser simultanément, risque d'obtenir beaucoup d'informations inutiles. Il faut donc bien connaître chaque répertoire et chaque moteur de recherche avant de l'utiliser au sein d'un agent. Il s'agit d'outils complémentaires et qui ne sont absolument pas concurrents. Un agent de recherche n'est qu'une "coquille vide" sans les différents instruments de recherche qu'il est censé interroger. Aussi, toujours pour éviter le risque d'enregistrer des pages inutiles, il est conseillé de choisir les mots clés avec beaucoup d'attention. Dans l'idéal, il faudrait tester l'efficacité de vos mots clés sur Internet avec un moteur comme HotBot ou AltaVista avant même de lancer un agent. Dans tous les cas, l'utilisation des agents doit être préparée et planifiée. Partir à l'aveuglette sera toujours décevant. Toutes les précautions méthodologiques que nous avons décrites pour mener efficacement des recherches sur Internet (voir p. 72) conservent toute leur valeur dans ce contexte.

Un autre inconvénient est leur lenteur de fonctionnement. Pour une recherche complexe, un agent peut mettre plusieurs heures pour accomplir son travail puisqu'il doit interroger plusieurs moteurs, éliminer les doublons, se connecter aux différents sites web, enregistrer tous les documents et éventuellement les traiter informatiquement. Si la recherche d'informations est ponctuelle ou très urgente, il vaut mieux ne pas envisager les agents de recherche mais utiliser directement les outils classiques.

Actuellement, on peut trouver de nombreux métamoteurs off-line sur le marché ( QueryN Metasearch, Web Ferret... ). Quelques-uns sont décrits en annexe, vous trouverez les autres dans notre laboratoire de test sur le web.

Les agents de recherche avancés



Certains agents de recherche présentent des fonctionnalités parfois très intéressantes. La fonction commune à tous les agents précédemment décrits consiste à interroger, à partir de mots clés choisis par l'utilisateur, uniquement les moteurs qui ont été sélectionnés. Cela dit, un certain nombre de sociétés ont développé des fonctions supplémentaires.
  • Personnalisation par secteur d'activité. Nous avons vu précédemment (voir p. 68) que les moteurs sectoriels sont des outils uniquement spécialisés dans un domaine précis (finance, assurance, éducation, littérature, etc.). Ce sont souvent des bases de données indépendantes très riches et qui ne peuvent pas être atteintes par les robots de recherche généralistes (il s'agit de ce que les spécialistes appellent The Invisible Web). Elles demeurent très utiles quand les outils traditionnels échouent. Cependant, leur éparpillement rend leur utilisation souvent assez longue et difficile. Pour cette raison, certains agents de recherche se sont spécialisés par secteur d'activité. Un des plus efficaces,WebSeeker, intègre plusieurs centaines de moteurs de recherche qu'il classe en de nombreuses catégories (art, automobile, business, ordinateurs, éducation, emploi, finance, loisirs, jeux, santé, maison, multimédia, etc.). Il permet également de créer des catégories personnalisées. Citeline offre un agent très pointu dans le domaine de la santé3. Dans l'univers francophone, il faut signaler deux agents de recherche très efficaces: Copernic et Strategic Finder de DigiMind.
  • Veille, filtrage et archivage des résultats. Certains agents (BullsEye, NetAttaché Pro, WebSeeker, etc.) vous permettent de suivre une recherche dans le temps. En d'autres termes, à intervalles réguliers, ils interrogent à nouveau tous les outils que vous avez sélectionnés. Vous pouvez ainsi suivre l'évolution dans le temps des résultats issus de votre requête. De plus, il est également possible de filtrer ces résultats de manière à pouvoir en extraire les différences dans le temps, éventuellement à l'aide de nouveaux mots clés. L'archivage des résultats de chaque recherche est souvent possible.
  • Analyse linguistique des requêtes. Normalement, pour lancer un agent de recherche vous devez lui indiquer (comme pour un moteur) les mots clés sur lesquels vous souhaitez enquêter ainsi que les outils que vous voulez qu'il utilise (HotBot et AltaVista plutôt que InfoSeek, etc.). Vous devez donc vous plier à un certain nombre de contraintes parfois fastidieuses. Pour cette raison, certains agents acceptent les interrogations en langage naturel, c'est-à-dire sous forme de phrases accomplies et non sous forme de mots clés (DigOut4U) . Ensuite, c'est l'agent qui, à travers un module linguistique, traduit vos formulations personnelles en extrayant les mots clés les plus significatifs. Par ailleurs, souvent vous n'avez même pas à choisir quel répertoire ou moteur de recherche utiliser. L'agent en interroge un certain nombre par défaut. À cette date, les résultats sont encore un peu mitigés, l'adaptation linguistique n'étant pas encore très performante.
  • Analyse des résultats. Certains agents font subir des traitements aux informations collectées. Ces traitements informatiques peuvent être de nature très variée et naturellement impliquer des surcoûts parfois importants. SemioMap par exemple, en se basant sur des principes de sémiotique, permet d'obtenir une cartographie précise de l'information rapatriée afin de bien comprendre la situation présente et de détecter d'éventuels "rumeurs faibles". Umap de Trivium adopte une démarche semblable mais avec une technologie différente (cf. annexe). D'autres agents effectuent une indexation sémantique des résultats ou bien sont capables de générer automatiquement des résumés pour chaque site. DigOut4U est le seul outil qui rapatrie le contenu sémantique des pages web ainsi que le contenu des newsgroups en mode continu (l'ensemble des liens hypertextes qui sont trouvés sont analysés à l'infini!). Les résultats sont très variables en fonction des technologies utilisées. Il est clair qu'un agent à 150 FF ne pourra pas obtenir les mêmes résultats qu'une architecture agent qui coûte plusieurs milliers de francs.
  • Comme nous l'avons déjà souligné, il est souhaitable de bien maîtriser les différents moteurs de recherche avant de se décider à utiliser ces agents. Par ailleurs, si vous recherchez une personne, une société, un produit, un logiciel ou toute autre information, et que vous ne souhaitez pas utiliser manuellement chaque outil de recherche, utilisez quand même la méthodologie de recherche que nous avons décrit plus haut (voir p. 72). Celle-ci peut souvent s'adapter aux agents de recherche. En effet, en fonction de votre domaine de recherche, il suffit de "paramétrer" votre agent de recherche avec les outils que nous avons décrits au sein de cette aide méthodologique. À titre d'exemple, si vous voulez obtenir un maximum d'informations sur un nouveau produit lancé par l'un de vos concurrents, vous pouvez sélectionner au sein de votre agent les moteurs de recherche les plus performants (HotBot, AltaVista, InfoSeek) ainsi qu'un certain nombre de moteurs sectoriels.

Agents pour la veille



L'information se renouvelle à une telle vitesse sur Internet qu'il est humainement impossible de suivre l'évolution de l'offre d'un concurrent, l'actualité d'un secteur économique ou l'apparition d'innovations technologiques sans l'aide d'assistants électroniques. Nous avons vu que dans certaines circonstances, la recherche d'informations peut se passer des agents et peut être optimisée même de manière manuelle. Ceci n'est pas possible pour des activités de veille pointues. Même si vous obligez une personne à rester "branchée" nuit et jour sur Internet pour surveiller ne serait-ce que dix sites assez volumineux, vous n'obtiendrez pas de résultats satisfaisants. La quantité d'informations est trop importante pour qu'un être humain puisse détecter tous les changements qui ont eu lieu. Il faut donc qu'il puisse "collaborer" avec les agents de veille. Schématiquement nous pouvons distinguer deux grandes familles d'agents. Les agents de type pull et les agents de type push.

Pull littéralement signifie "tirer" alors que push signifie "pousser". Quand vous allez sur le site de Yahoo! pour y mener une recherche, on dit que vous êtes en train de "tirer" (pull) l'information du serveur de Yahoo! jusqu'à votre machine. En effet, vous avez effectué la démarche active d'allumer votre ordinateur, de vous relier à Internet, de vous connecter au site de Yahoo!, de saisir les mots clés de votre recherche et enfin de rapatrier les documents 2 sur votre ordinateur. Vous êtes en train de faire du pull à l'état pur... Cependant, vous pouvez continuer à faire du pull en déléguant certaines tâches répétitives à un agent. Si par exemple, au lieu de vous connecter directement à Yahoo! vous déléguez cette tâche à votre agent de recherche (par exemple WebSeeker), il s'agit toujours de pull. Dans ce cas, l'agent vous remplace et il "tire à vous" les informations demandées. Dans la démarche pull, ce qui est important c'est que vous êtes actif dans vos choix même si vous confiez le travail répétitif à l'agent. De même, si avec un agent de veille comme Webspector (cf. infra) vous décidez de surveiller le site web d'un concurrent, c'est toujours du pull même si l'agent vous stocke les pages qu'il trouve et vous donne l'impression de les " pousser" à vous (push).

Dans une optique push, en revanche vous jouez un rôle beaucoup moins actif car l'information est "poussée" jusqu'à vous. C'est exactement le même principe que la télévision. Vous avez des dizaines de chaînes qui diffusent des informations et votre rôle consiste uniquement à choisir la chaîne qui vous convient et à la suivre. Sur Internet c'est la même chose. Vous avez des logiciels de type push ( PointCast, Marimba, BackWeb, etc.) qui vous permettent d'accéder à des centaines de chaînes d'informations (CNN, New York Times, Washington Post, etc.) à caractère souvent thématique (météo, sport, marchés financiers, etc.). Les logiciels de type push ont explosé vers la fin de 1996 en faisant beaucoup de bruit. Certains ont affirmé que désormais le web entier allait se transformer en une "télévision géante" dans laquelle chacun diffuserait des informations à partir de sa propre chaîne. En réalité, ce sont les enjeux financiers énormes (notamment ceux liés à la publicité) qui ont provoqué de tels enthousiasmes. L'information obtenue par ces agents de webcasting (ou web-diffusion) est complètement uniforme et standardisée et s'adapte souvent à une diffusion de masse. Elle est donc très utile pour suivre l'actualité en général mais complètement insuffisante pour mener des activités de veille personnalisées. Avec les technologies push, c'est le gestionnaire de chaque chaîne qui décide du contenu de celle-ci et qui le diffuse (à travers un serveur), alors qu'avec un agent pull, si vous décidez de vous créer une chaîne, vous êtes maître de son contenu et c'est votre agent (un logiciel client) qui rapatrie les informations qui correspondent à vos choix (tableau 2.1). L'intervention et la personnalisation humaines sont beaucoup plus importantes avec les agents de type pull.

Parfois la frontière entre agents pull et agents push devient très subtile surtout depuis que les browsers les plus récents (à partir des versions 4.0 de Netscape Navigator et Internet Explorer) intègrent simultanément les deux technologies... Par ailleurs, le fait que les channels officielles peuvent désormais cohabiter avec des channels personnalisés tendra à renforcer cette confusion.

Nous sommes persuadés que les deux systèmes vont coexister plus ou moins pacifiquement, tout simplement parce qu'ils sont complémentaires. Croire qu'Internet va se transformer en un système unique de web diffusion c'est un peu comme croire que la télévision est le seul média qui va survivre et que, dorénavant, personne ne fera plus la démarche de choisir et d'acheter un quotidien ou d'aller en bibliothèque faire une recherche précise... Par ailleurs, même en admettant que le modèle push s'impose et que le web se transforme peu à peu en une énorme télévision avec une multitude de chaînes officielles et non officielles, nous nous retrouverons exactement dans la situation actuelle avec les mêmes problèmes liés à l'information sur Internet (surabondance de chaînes pas toujours pertinentes et fiables...).

Informations issues de Carlo Revelli, extraites du livre : "Intelligence Stratégique sur Internet"




Google
 
 RESSOURCES GRATUITES
 Caractères spéciaux
 Code Couleurs HTML
 Générateur Méta Tags
 Références HTML
 Scripts : ASP
 Scripts : Java Scripts
 PRATIQUE / OUTILS
 Salons Informatiques
 Astuces Windows
 TÉLÉCHARGEMENTS
 Utilitaires système
 Logiciels pratiques
 Jeux & démos
 INFOS SITE
 Contacts
 Mentions légales
 Qui sommes-nous ?
 PARTENAIRES
 Jeux et Jouets
 Murielle Cahen
 Cours d'anglais
 Droit NTIC
 Directeur Internet
 Australie
 Création site Internet
 VOD News
 Web Hostings