Post Populaire



Aspirateur de site gratuit

HTTrack est un logiciel d'aspiration de site web LIBRE et GRATUIT (en "opensource")
Ce freeware d'aspiration de sites web, très simple à utiliser , dispose d'un assistant.
Il permet de copier sur votre disque dur un site web complet, en récupérant tous les fichiers html, les images et autres fichiers nécessaires.
HTTrack réorganise la structure des liens en relatif.
Ouvrez simplement une page du site "aspiré" dans votre navigateur, et vous pourrez naviguer librement à l'intérieur, comme si vous étiez connecté (alors que vous êtes en local et hors connexion) .
Vous pouvez transférer (miroir) plusieurs sites ensembles de façon à pouvoir passer de l'un à l'autre librement.
Vous pouvez également mettre à jour un site existant, ou continuer un transfert interrompu. Le robot est entièrement configurable, avec une aide intégrée.
Httrack permet sans aucune configuration d'aspirer le contenu d'un site web (sans aucun lien "externes au site). IL dispose d'un module d'OPTIONS intéressantes (règles de filtrages,limites, programmation de l'heure d'aspiration, etc.) certaines sont complexes et peu utiles, c'est pourquoi dans ce tutoriel, seules les options fondamentales sont explicitées.

D'abord télécharger le logiciel (3 Mo) :
Adresse du site http://www.httrack.com pour télécharger.
Choisir la version convenant à votre systeme d'exploitation : par exemple, si vous posséder Windows, cliquer sur l'un des 3 liens proposés (format en .exe). Le téléchargement commence, indiquer où mettrele fichier (il est utile d'avoir préparer un dossier telechargement).
Ensuite, àpartir del'explorateur windows, retrouver le fichier... puis double cliquer : l'installation démarre, accepter, par défaut, toutes les propositions pour l'installation. (très rapide)



Lancer HTTrack : en principe vous avez une fenêtre vous invitant à choir la langue d'utilisation.
Si ce n'est pas le cas, procéder ainsi :



puis sélectionner:



Comment définir des options ?

Sur l'écran précédent, cliquer sur DEFINIR LES OPTIONS

cliquer sur

Vous obtenez une fenêtre avec plusieurs onglets. Seuls les 2 plus importants et utiles sont présentés:

Règles de filtrage : c'est l'option la plus importante !

- types de fichiers afin d'inclure(+) ou exclure (-) certains formats de fichiers. En effet, peut-être n'avez vous pas besoin d'aspirer certains fichiers (inutiles, trop lourds... commes des sons, des vidéos, des fichiers zippés...)
Par défaut "tout est aspiré" !

Les 3 cases à cocher permettent d'inclure ou d'exclure, les 3 séries de fichiers concernés : images / zippés / vidéos.
Vous pouvez exclure d'autres fichiers, par exemple
-les fichiers textes doc pdf
-les fichiers exe (souvent dangereux)
- les sons en .mp3 wav

Exemple (fortement conseillé), vous voulez exclure les fichiers zippés et pdf et exe ainsi que les vidéos. (cocher comme dans l'exemple avec le signe -)
-*.pdf -*.zip -*.exe ...


-dossiers ou liens en définissant des "règles" qui utilisent + - * avec la possibilité d'inclure/exclure certains "mots" (utiliser les boîtes de dialogue "liens à inclure/exclure")

Exemple, dans le site que vous aspirez vous ne voulez pas du dossier boite :
-*/boite/*

Attention :
-la dernière règle est prioritaire par rapport aux règles précédentes
-Vous devez obligatoirement conserver les fichiers de base constituant les page web : htm html css jpeg jpg gif




Limites de la capture : c'est encore une option importante !

Profondeur maximum
Définis la profondeur d'aspiration dans le site. Cette option n'est pas remplie par défaut : la profondeur interne est infinie. L'aspirateur reste sur le site.

Profondeur externe maximum
Définis la profondeur dans des sites externes, ou sur des adresses qui étaient interdites.
Normalement, HTTRACK n'ira pas sur des sites externes, c'est l'option par défaut soit 0 (sauf par autorisation des filtres).. Vous pouvez outrepasser ce comportement, et aspirer N niveaux "externes". Employer cette option avec grand soin, 1 semble un maximum raisonnable.
dans l'exemple, seule la première page des sites externes sera capturée


Taille maxi d'un fichier HTM
Définir la taille maxi du plus fichier html à aspirer.
Cette option vous permet d'éviter les gros fichiers

Taille maxi d'un fichier non HTM
Définir la taille maxi du plus fichier non html (image, zip) à aspirer
Cette option vous permet d'éviter les gros fichiers
dans l'exemple, la taille des fichiers autres que htm est limitée à 0,75 ko
(se limiter à 600.000 bits soit 75.000 octets soit environ 75 ko est largement suffisant pour des images du web)
Taille maxi du site
Cette option limite le montant total d'octets qui peuvent être aspirés

Suspendre copie après
Cette option permet de faire une pause après avoir atteint une taille spécifique indiquée. Vous pourrez décider quoi faire ensuite



Temps Maximum de capture
Cette option limite le temps total de l'aspiration
dans l'exemple, 7200secondes soit 120mn soit 2 heures
Taux maxi
Cette option limite le débit

Maximum de connexions à la sec
Cette option limite le nombre de connexions simultanées
Par défaut :10, mais vous pouvez le modifier

Nombre maximum de liens
Le nombre maximum de liens à analyser. Ne pas établitr une limite trop basse car l''aspiration arrête aussitôt (ni trop haute ....)
100.000 liens (par défaut) est généralement assez.



Il est conseillé de ne pas modifier les autres onglets, sauf si vous êtes un "expert".Voir l'aide fournie (en anglais)

Par exemple, il est important de "conserver la structure du site"

Quelques pistes complémentaires :

L'on peut choisir d'autres options que "Copie automatique de site web" action par défaut pour aspirer un site.
En particulier :
-demander à télécharger des fichiers spécifiques : ex toutes les images d'un site
-reprendre une copie interrompue
-Mettre à jour une copie existante (très utile !)




Que faire du site aspiré ?
Si vous n'avez modifié les options de l'onglet "Structure", le site aspiré a conservé la structure (arborescence des dossiers) du site d'origine. L'ensemble est stocké sur votre disque dur dans le dossier choisi au départ.(par défaut : Mes sites web


En cliquant sur le fichier index.htm ou default.htm vous aurez accès au site sans être connecté.
Attention : ne pas modifier/supprimer les nouveaux dossiers /fichiers créés :
-le dossier hts-cache contient des fichiers nécessaires pour la mise à jour ultérieure du site.
-le fichier hts-log.txt contient également des références indispensables sous forme d'unfichier texte
Dans un établissement scolaire, vous pourrez mettre ce site en intranet en copiant ce dossier en entier.
(Attention aux droits d'auteur: demandez les autorisations nécesaires)

Que faire en cas de difficulté ?
- tous les sites ne peuvent pas être aspirés (certains auteurs l'ont protégé)
-attention, votre logiciel "anti pop-up" peut faire échouer une capture (le désactiver)
-certains sites sont très volumineux, il n'est pas judicieux de vouloir tout capturer : le visiter et sélectionner les sous dossiers qui vous intéressent.
-il faut mieux utiliser Internet Explorer en version récente (avec tous ses plug-in) pour visualiser les sites aspirés car très souvent, ils sont conçus pour être visualisés avec ce navigateur
-il se peut que certains fichiers/dossiers ne soient pas ou mal aspirés : là, il faut être un spécialiste du web (et du code html) pour trouver une solution (voir les sites ci dessous)
Article sous licence:

Creative Commons License

- sebdelkil 2009-2015 - Aucun droit réservé -