Comment une intelligence artificielle « lit » un site web

Vous avez besoin de données enfouies dans un répertoire en ligne — des centaines de fiches avec noms, catégories, détails techniques. Quand vous ouvrez ce site, vous voyez des images, des couleurs, une mise en page. Quand une intelligence artificielle ouvre le même site, elle « voit » autre chose : une liste de textes, de liens, et de données structurées. Comprendre cette différence, c’est comprendre pourquoi un brief précis change radicalement la qualité du résultat, et pourquoi l’IA fait parfois des choix surprenants.

Ce que l’IA perçoit : un plan, pas un bâtiment

Imaginons que vous envoyez un collaborateur visiter un immeuble pour en dresser l’inventaire. Il parcourt les étages, note ce qu’il voit, photographie les pièces. C’est ce que vous faites quand vous naviguez sur un site.

L’intelligence artificielle, elle, ne visite pas l’immeuble. Elle lit le plan d’architecte.

Concrètement, quand une IA ouvre une page web, elle demande au navigateur un « snapshot » — une représentation textuelle de tous les éléments visibles : titres, paragraphes, boutons, liens, champs de formulaire. Chaque élément reçoit un identifiant (un numéro de référence). L’IA peut ensuite « cliquer » sur un élément en citant son numéro, sans avoir besoin de le localiser visuellement.

Ce mode de lecture a un avantage considérable : il est rapide et structuré. Mais il a un coût : l’IA ne perçoit pas le contexte visuel. Elle ne sait pas qu’un logo « strb » représente une enseigne de restauration — sauf si le texte associé à l’image le précise. Ce qui explique pourquoi certaines extractions produisent des noms tronqués ou incompréhensibles : l’IA lit ce qu’on lui donne à lire, pas ce que l’œil humain interprète.

La décision stratégique : parcourir ou chercher la source

Ce mode de lecture change aussi la stratégie d’extraction.

Prenons un cas concret : un répertoire en ligne contient plus de 1 100 fiches, affichées par paquets de 24. Un humain commencerait probablement par naviguer de page en page, copier les données visibles, passer à la suivante. L’IA, elle, commence par regarder comment le site charge ses données.

Chaque site web émet des requêtes réseau — des échanges entre votre navigateur et le serveur qui héberge le site. Ces échanges transportent les données brutes (textes, images, fichiers) avant qu’elles soient mises en forme visuellement. L’IA peut lister ces échanges et les analyser.

Dans le cas d’un site construit avec un générateur de pages statiques (une technologie courante pour les répertoires et annuaires en ligne), les données sont souvent stockées dans des fichiers structurés lisibles directement par une machine. L’IA les repère et accède à l’intégralité des données, sans naviguer page par page.

C’est l’équivalent d’un analyste qui, au lieu de lire 50 rapports annuels un par un, demande directement accès à la base de données comptable. Le raccourci n’est pas une tricherie. C’est un raisonnement que l’expertise rend possible.

Ce qui détermine la qualité de la stratégie : le brief

La capacité de l’IA à trouver le bon chemin dépend directement de la clarté de l’objectif qu’on lui donne.

Un brief vague — « récupère les informations de ce site » — produira une extraction de surface. L’IA prendra ce qu’elle trouve le plus facilement, sans chercher à vérifier la complétude.

Un brief précis — « collecte les noms des sites, les enseignes avec leur catégorie, les services avec leur type » — orientera l’IA vers les sources de données les plus complètes, parce qu’elle sait quels champs elle doit remplir.

C’est exactement ce qu’on observe dans le management humain : un collaborateur à qui l’on dit « fais-moi un état des lieux » ne produira pas le même livrable que celui à qui l’on dit « donne-moi les 10 principaux indicateurs avec leur variation sur 12 mois ».

La différence, c’est que l’IA ne vous demandera pas de préciser. Si le brief est vague, elle comblera les trous avec ce qui lui semble plausible — quitte à produire des données approximatives présentées avec la même assurance que des données vérifiées. C’est la version « extraction de données » de ce qu’on appelle l’hallucination — quand l’IA génère une information fausse avec l’assurance d’un fait vérifié. Ici, elle ne ment pas : elle approxime, et ne le signale pas.

Ce que ça change pour un professionnel qui délègue du travail de données

Comprendre comment l’IA « lit » un site web modifie la manière dont on peut lui déléguer du travail.

Le brief gagne à décrire le résultat attendu plutôt que la méthode. Inutile de dire à l’IA comment extraire les données. En revanche, décrire précisément ce que le livrable final doit contenir — les champs, les catégories, le format — change directement la qualité du résultat.

La vérification, elle, peut se limiter à un échantillon. Puisque l’IA applique la même logique à toutes les fiches, une erreur sur une fiche est probablement une erreur systématique. Vérifier cinq fiches sur 1 000 suffit à détecter un biais d’extraction. Et quand la vérification révèle un écart, le feedback corrige l’ensemble du processus, pas seulement la fiche vérifiée. C’est un avantage structurel par rapport à la délégation humaine : la correction est instantanée et systématique.

L’IA ne remplace pas votre capacité à poser les bonnes questions

Une intelligence artificielle qui « lit » un site web repère des raccourcis qu’un humain mettrait des heures à identifier. Mais elle ne sait pas ce qui compte pour votre métier. Elle ne distingue pas une donnée essentielle d’un détail négligeable, sauf si vous le lui précisez.

La compétence qui compte n’est pas de savoir comment l’IA fonctionne techniquement. C’est de savoir formuler un objectif clair, identifier les critères de qualité d’un livrable, et vérifier un résultat. Ce sont des compétences managériales, celles que les professionnels exercent déjà. La question n’est pas d’apprendre un nouveau métier. C’est de transposer un savoir-faire existant à un collaborateur d’un genre nouveau.

Laisser un commentaire