Le Web invisible ou le Web profond

Qu'est-ce que le Web invisible ?

Le Web invisible fait probablement 90% des pages Internet et se caractérise par le fait qu'il n'est pas accessible à l'aide des moteurs de recherche. Une grande partie de ces pages sont exclusivement destinées à un groupe limité de personnes, une autre partie du Web profond utilise de techniques de programmation qui ne permettent pas l'indexation, une troisième groupe se compose de pages que les algorithmes des moteurs de recherche rejètent quasi automatiquement et, finalement, il y a une quatrième catégorie de pages qui font partie du Web invisible qui ne sont pas correctement optimisées ou qui sont bannées à cause de l'emploi de la Black Hat SEO. Dans le dernier cas on fait encore une distinction entre le Web opaque et le Web invisible.

Le Web invisible et les bases de données

Les pages qui se basent uniquement sur de bases de données où le contenu change chaque fois que la page s'ouvre dans un navigateur ne peuvent pas être indexées par les moteurs de recherche et font donc toujours partie du Web invisible. A cause de ce fait, les grands sites commerciales utilisent donc quelques pages stables et optimisées et proposent ensuite leurs produits dans de pages dynamiques entièrement gérées par les bases de donnes ou ils créent, lors de la structuration du site, un système optimisé qui permet l'indexation de chaque page qui se sert de la base de données.

Utiliser une base de données ne signifie donc pas automatiquement à atterrir dans le Web invisible. < i lang="en">Amazon, par exemple, crée, à l'aide des bases de données, exclusivement de pages stables, contrairement à beaucoup d'autres entreprises qui utilisent de bases données qui restent cachées dans le Web profond. Pour éviter l'invisibilité dans le Web profond il suffit parfois déjà à appliquer les règles de l'optimisation.

Le Web invisible à cause de sessions et de mots de passe

Il est logique qu'une page qui change, à cause de la technique de sessions, sans cesse l'adresse ne puisse, normalement, pas être indexée et se perd donc dans le Web invisible. Il est également normal que les robots ne puissent pas deviner les mots de passe nécessaires à l'accès des certains forums, ou autres pages Web, et seront donc également bloqués dans un tel endroit.

Un Webmaster professionnel connaît cet effet, probablement voulu, et utilise donc pour de tels pages un propre dossier et empêche les robots, à l'aide du fichier robots.txt à rencontrer cette barrière et à encaisser de points négatifs par les moteurs de recherche.

Le Web invisible et les langages de programmation

Un nombre assez important de pages atterrit dans le Web invisible parce que les Webmasters utilisaient un langage dynamique comme PHP, ASP ou JSP sans savoir comment les optimiser pour le référencement.

Comme les moteurs de recherche ne lisent pas les codesd'une page dynamique mais le résultat en HTML ou xhtml qui s'affiche dans les navigateurs il est important à vérifier que les scripts produisent de codes valides et de pages optimisées pour qu'elles ne se retrouvent pas dans le Web profond.

Une page qui est crée après qu'un internaute a rempli un formulaire fait, sauf que les pages suivantes et leur accès ne soient pas correctement optimisés pour le référencement, de toute manière partie du Web invisible.

JavaScript et Flash dans le Web invisible

Robots ne sont pas capable à suivre les liens gérés par JavaScript ou Flash. Ces pages ont donc le même destin que les pages qui ne sont ciblés, par de liens, par aucune autre page Web. Une navigation "dernier cri" ne produit donc souvent rien d'autre que de la poubelle qui disparaît dans le Web invisible parmi d'autres pages que personne ne peut trouver en utilisant un moteur de recherche.

Le Web invisible et les extensions

Un moteur de recherche n'est pas capable à reconnaître chaque extension et même une extension comme .pdf n'est pas indexé par tous les moteurs existants. Mais souvent il s'agit seulement de l'incompétence du Webmaster qui crée ainsi de pages pour le Web invisible. L'utilisation correcte des attributs et valeurs dans la balise de liens suffit quelquefois à fournir une explication aux moteurs qui leur permet à indexer un fichier avec une extension autre que .html, .php etc.

Les catégories du Web invisible

Les auteurs Web anglophone distinguent, selon l'origine de l'invisibilité, plusieurs catégories du web invisible.

- Le Web invisible par manque de liens de retour et de problèmes de navigation interne du site.
- Le Web invisible par l'emploi de formulaires pour la création de pages dynamiques.
- Le Web privé invisible dont l'accès demande un login ou une autre méthode d'indentification.
- Le Web contextuel qui fournit un autre contenu selon le pays d'origine de l'internaute, de la langue du navigateur ou d'une autre méthode que les moteurs de recherche considèrent comme cloaking.
- Le Web à accès limité par de raisons techniques de programmation, par exemple par l'utilisation de CAPTCHAs ou l'utilisation du fichier robots.txt.
- Le Web invisible à cause de l'emploi de scripts pour créer de liens, par exemple à l'aide de JavaScript, AJAX ou Flash.
- Le Web profond à cause de l'emploi des fichiers non HTML, donc de fichiers vidéo, du son ou l'emploi d'autres extensions non reconnues par un moteur de recherche.

Les liens suivants proposent des explications complémentaires sur le Web invisible :
Le web profond ou web invisible
Outils et techniques pour explorer le web invisible
Aspects du Web invisible dans les pages du Web visible
The deep Web, also called Deepnet, the invisible Web, dark Web or the hidden Web
Internet Tutorials - The Deep Web
Searching the invisible web (deep web, hidden web): WebLens search