Les méthodes utilisées

L’analyse des logs du serveur web

De nombreux logiciels d’analyse des fichiers de logs des serveurs web sont disponibles. L’un des plus connu et le plus utilisé est incontestablement le logiciel awstats. Ces programmes traitent les fichiers logs et permettent ainsi de ne prendre en compte que l’information pertinente.

Comment ça marche ?

Chaque serveur web enregistre les appels de fichiers opérés par chaque visiteur dans les fichiers ou journaux de logs. Les principales données pour chaque visite sont l’adresse IP du visiteur, les fichiers appelés et les horaires. Ces données brutes sont difficilement exploitables [lien popup journaux de log ] et doivent être traitées par l’outil d’analyse.

Le logiciel de traitement va “mouliner” les données pour en proposer une analyse la plus claire et la plus utile possible. Le logiciel va organiser l’information et créer des graphiques sur un rapport visible à travers une interface de consultation [Exemple : l’interface d’awstats ]

Les limites de cette méthode :

Le phénomène d’indexation:

Sur n’importe quel site, certaines visites ne sont pas réellement le fait de visiteurs humains mais de robots qui parcourent le web.

Ces robots peuvent être issus des moteurs de recherche, de services de veille automatique utilisés pour détecter les changements sur un site, ou même de moteur de traduction automatique.

Le phénomène de cache

Pour limiter le volume de données transitant sur le réseau, les fournisseurs d’accès ou gestionnaires de réseaux d’entreprises ont mis en place des serveurs proxys qui vont stocker les pages les plus demandées par les utilisateurs. Dans ce cas, l’appel d’une page stockée sur le proxy ne se fera plus sur le serveur du site et ne pourra être comptabilisé dans les fichiers logs.

Un phénomène de cache peut également se produire sur le navigateur de l’utilisateur. Une page médiane d’un site peut être ainsi visualisé plusieurs fois mais être comptabilisé comme vue une seule fois côté serveur.

Selon les sources, la minoration d’audience provenant du phénomène de caching est estimée entre 20 et 50 %. Cet éventail très large regroupe en fait différents cas de figure qui dépendent de la nature du site mais également des pages considérées.

Le rapatriement des fichiers logs

Lorsque le traitement des fichiers logs se fait sur un ordinateur distant du serveur, ceux ci doivent être rapatriés sur le poste ou se trouve l’outil de mesure d’audience. Bien que ce rapatriement puisse être programmé, il peut être contraignant en fonction du volume d’audience et donc du volume des fichiers à récupérer. Le recueil peut également se compliquer lorsque les données proviennent de différents serveurs.

La difficulté de mesurer l’audience d’une partie du site :

Le traitement s’effectuant sur l’ensemble des accès du site, il relève souvent de l’exploit de pouvoir analyser une zone particulière du site.

Ajoutez un commentaire

0
Fuzz

Voter