Comment Archivarix agit-il?

Publié par: 2019-12-03

Le système Archivarix est conçu pour télécharger et restaurer les sites qui ne sont plus accessibles à partir de Web Archive et ceux qui sont actuellement en ligne. C'est la principale différence avec le reste des «téléchargeurs» et des «analyseurs de site». L'objectif d'Archivarix n'est pas seulement de télécharger, mais également de restaurer le site Web sous une forme qui le rendra accessible sur votre serveur.

Commençons par le module qui télécharge des sites Web à partir de Web Archive. Ce sont des serveurs virtuels situés en Californie. Leur emplacement a été choisi de manière à obtenir la vitesse de connexion maximale possible avec Web Archive elle-même, car ses serveurs sont situés à San Francisco. Une fois les données saisies dans le champ approprié de la page du module https://fr.archivarix.com/restore/, une capture d'écran du site Web archivé et l'adresse de l'API Web Archive pour demander une liste des fichiers contenus à la date de récupération spécifiée. 

Ayant reçu une réponse à la demande, le système génère un message avec l'analyse des données reçues. L'utilisateur n'a qu'à appuyer sur le bouton de confirmation dans le message reçu pour commencer à télécharger le site Web.

L'utilisation de l'API Web Archive offre deux avantages par rapport au téléchargement direct lorsque le script suit simplement les liens du site Web. Premièrement, tous les fichiers de cette récupération sont immédiatement connus, vous pouvez estimer le volume du site Web et le temps nécessaire pour le télécharger. En raison de la nature du fonctionnement de l'archive Web, elle fonctionne parfois de manière très instable, de sorte que des interruptions de connexion ou des téléchargements de fichiers incomplets sont possibles. Par conséquent, l'algorithme du module vérifie constamment l'intégrité des fichiers reçus. Dans ce cas, il tente de télécharger le contenu en se reconnectant à le serveur d'archives Web. Deuxièmement, en raison des particularités de l'indexation de sites Web par Web Archive, tous les fichiers de sites Web ne peuvent pas comporter de liens directs. En d'autres termes, lorsque vous essayez de télécharger un site Web simplement en suivant ces liens, ils ne sont pas disponibles. Par conséquent, la restauration via l’API d’archive Web utilisée par Archivarix permet de restaurer le maximum de contenu de site Web archivé pour une date donnée.

Une fois l'opération terminée, le module de téléchargement de Web Archive transfère les données au module de traitement. Il forme un site Web à partir des fichiers reçus, pouvant être installé sur un serveur Apache ou Nginx. Le fonctionnement du site Web est basé sur la base de données SQLite. Par conséquent, pour commencer, il vous suffit de le télécharger sur votre serveur. Aucune installation de modules supplémentaires, de bases de données MySQL et de création d'utilisateurs n'est requise. Le module de traitement optimise le site Web créé; il comprend l'optimisation de l'image, ainsi que la compression CSS et JS. Cela peut augmenter considérablement la vitesse de téléchargement du site Web restauré, par rapport au site Web d'origine. La vitesse de téléchargement de certains sites Wordpress non optimisés comportant de nombreux plug-ins et des fichiers multimédias non compressés peut être considérablement accrue après traitement par ce module. Il est évident que si le site Web avait été optimisé initialement, cela ne donnerait pas une augmentation importante de la vitesse de téléchargement.

Le module de traitement supprime les publicités, les compteurs et les analyses en comparant les fichiers reçus à une base de données étendue de fournisseurs de publicité et d’analyses. La suppression des liens externes et des contacts cliquables s'effectue simplement par code de contrôle. En général, cet algorithme effectue un nettoyage assez efficace du site Web des «traces du propriétaire précédent», bien que parfois cela n'exclue pas la nécessité de corriger manuellement quelque chose. Par exemple, un script Java auto-écrit redirigeant un utilisateur de site Web vers un certain site Web de monétisation ne sera pas supprimé par l'algorithme. Parfois, vous devez ajouter des images manquantes ou supprimer des résidus inutiles, en tant que livre d'or spammé. Par conséquent, il est nécessaire de recruter un éditeur du site Web résultant. Et ça existe déjà. Son nom est Archivarix CMS.

Il s'agit d'un système de gestion de contenu simple et compact conçu pour l'édition de sites Web créés par le système Archivarix. Il permet de rechercher et de remplacer du code sur l'ensemble du site à l'aide d'expressions régulières, d'éditer le contenu dans l'éditeur WYSIWYG, d'ajouter de nouvelles pages et de nouveaux fichiers. Archivarix CMS peut être utilisé avec n'importe quel autre CMS sur un site Web.

Parlons maintenant d’un autre module utilisé pour télécharger des sites Web existants. Contrairement au module de téléchargement de sites Web à partir de l’archive Web, il est impossible de prédire le nombre et le nombre de fichiers à télécharger. Les serveurs du module fonctionnent donc de manière complètement différente. Server Spider suit simplement tous les liens présents sur un site Web que vous allez télécharger. Pour que le script ne tombe pas dans le cycle de téléchargement sans fin d'une page générée automatiquement, la profondeur de lien maximale est limitée à dix clics. Et le nombre maximal de fichiers pouvant être téléchargés à partir du site Web doit être spécifié à l'avance.

Pour le téléchargement le plus complet possible du contenu dont vous avez besoin, plusieurs fonctionnalités ont été inventées dans ce module. Vous pouvez sélectionner un autre spider de service User-Agent, par exemple, Chrome Desktop ou Googlebot. Referrer for cloaking bypass - si vous devez télécharger exactement ce que l'utilisateur voit lorsqu'il est connecté à partir de la recherche, vous pouvez installer un référent Google, Yandex ou un autre site Web. Pour vous protéger contre les interdictions par IP, vous pouvez choisir de télécharger le site Web à l'aide du réseau Tor, pendant que l'adresse IP de l'araignée de service change de manière aléatoire sur ce réseau. D'autres paramètres, tels que l'optimisation de l'image, la suppression des publicités et les analyses, sont similaires aux paramètres du module de téléchargement à partir de l'archive Web.

Une fois le téléchargement terminé, le contenu est transféré dans le module de traitement. Ses principes de fonctionnement sont complètement similaires à ceux du fonctionnement avec le site Web téléchargé à partir des archives Web décrites ci-dessus.

Il convient également de mentionner la possibilité de cloner des sites Web restaurés ou téléchargés. Il arrive parfois que lors de la récupération, on ait choisi d'autres paramètres que ceux qui se sont avérés nécessaires à la fin. Par exemple, il était inutile de supprimer les liens externes et si vous en aviez besoin, vous n'avez pas besoin de recommencer à télécharger. Vous devez simplement définir de nouveaux paramètres sur la page de récupération et commencer à recréer le site.

 

L'utilisation de matériel d'article n'est autorisée que si le lien vers la source est publié: https://fr.archivarix.com/blog/how-does-it-works/

Dernières actualités:
2020.01.23
Une autre méga-mise à jour d'Archivarix CMS!

Ajout d'outils très utiles qui permettent de cliquer sur un bouton:
- nettoyer tous les liens internes rompus,
- supprimer les images manquantes,
- définissez rel = "nofollow" pour tous les liens externes.

Désormais, une récupération supplémentaire peut être importée directement à partir du CMS lui-même. Vous pouvez combiner différentes récupérations en un seul site de travail.

Pour ceux qui travaillent avec de grands sites ou utilisent un hébergement médiocre - toutes les actions qui pouvaient auparavant s'arrêter au moment de votre hébergement seront désormais divisées en parties et continueront automatiquement jusqu'à ce qu'elles soient terminées. Vous voulez faire un remplacement dans le code de 500 mille fichiers? Importer une récupération de plusieurs gigaoctets? Tout cela est désormais possible sur n'importe quel hébergement, même très bon marché. Le délai d'expiration (par défaut, 30 secondes) peut être modifié dans le paramètre ACMS_TIMEOUT.

Notre chargeur (index.php) fonctionne désormais sur les protocoles http et https, quels que soient les paramètres de construction. Vous pouvez forcer le protocole en modifiant la valeur du paramètre ARCHIVARIX_PROTOCOL.
2020.01.07
La prochaine mise à jour du CMS Archivarix avec l'ajout de nouvelles fonctionnalités. Maintenant, n'importe quel ancien site peut être correctement converti en UTF-8 en cliquant sur un bouton. Le filtrage des recherches est devenu encore meilleur, car Maintenant, les résultats peuvent être filtrés par type MIME.
2019.12.20
Nous avons publié la mise à jour tant attendue d'Archivarix CMS. Dans la nouvelle version, en plus de diverses améliorations et optimisations, il existe une fonctionnalité très utile pour un filtrage supplémentaire des résultats de recherche et une prise en charge complète de l'arborescence des URL pour les récupérations avec un grand nombre de fichiers. Plus de détails peuvent être trouvés dans le journal des modifications apportées au script CMS Archivarix .
2019.11.27
Notre plugin Archivarix External Images Importer a été publié. Le plugin importe des images de sites Web tiers, dont les liens sont situés dans des publications et des pages, dans la galerie WordPress. Si l'image est actuellement indisponible ou supprimée, le plugin en télécharge une copie à partir des archives Web.
2019.11.20
Nous avons ajouté une nouvelle section de notre site - Blog Archivarix . Vous pouvez y lire des informations utiles sur le fonctionnement de notre système et sur la restauration de sites à partir d'Archive.org.