Comment transférer du contenu de la Wayback Machine (archive.org) vers Wordpress?

Publié par: 2019-12-04

En utilisant l'option «Extraire du contenu structuré», vous pouvez facilement créer un blog Wordpress à partir du site présent sur les archives Web et de tout autre site. Pour ce faire, commencez par rechercher le site source, puis cochez la case "Extraire du contenu structuré" dans l'outil "Restaurer le site" ou "Télécharger le site". Entrez vos options (email, timestamps, etc.) et commencez le téléchargement.


Lorsqu'un processus de téléchargement de site Web est terminé, le système le déploie sur notre serveur et commence à extraire le contenu. Lors de la création d'une archive d'articles, notre analyseur ne prend en compte que le contenu pertinent, à l'exclusion des articles, contrôles et pages de service en double, ne laissant que les articles avec formatage enregistré prêts à être importés sur votre site Web. Une fois le processus d'extraction des articles terminé, vous recevrez une lettre de confirmation, l'ouvrirez et téléchargerez le contenu - le bouton "Articles (.zip)".


L'archive zip contient le contenu extrait dans divers formats, à partir duquel un fichier portant l'extension .wxr est sélectionné. Sur votre site Web Wordpress, démarrez l'importation de contenu - (dans le panneau d'administration de Wordpress - Outils - Importer - Wordpress - Démarrer l'importation).


Si le contenu extrait contient des images, des liens vers celles-ci seront contenus dans le fichier article. Pour les importer dans votre site Wordpress, vous devez utiliser notre plug-in Archivarix External Images Importer. Dans l'onglet "Paramètres de téléchargement" du plug-in, vous pouvez définir le paramètre "Démarrer le téléchargement" sur "Immédiatement". Cela signifie que lors de l’importation d’un fichier avec des articles, le plugin téléchargera immédiatement toutes les images externes dans la galerie multimédia de Wordpress. Si vous avez beaucoup d'images, vous pouvez utiliser l'importation en arrière-plan. Dans le même onglet, choisissez "Mettre en file d'attente", puis cliquez sur le bouton "Exécuter le traitement en arrière-plan". Après un certain temps, tous les fichiers multimédia disponibles seront importés sur votre site.

L'utilisation de matériel d'article n'est autorisée que si le lien vers la source est publié: https://fr.archivarix.com/blog/convert-archiveorg-to-wordpress/

Dernières actualités:
2020.02.14
Nouveau vendredi, nouvelles mises à jour!
Beaucoup de nouveautés et d'utilités ont été réalisées dans Archivarix CMS:
- Dans Rechercher et remplacer, vous pouvez désormais filtrer par date d'URL.
- Désormais, les liens externes de toutes les pages du site peuvent être supprimés en cliquant sur un bouton. Les ancres sont conservées.
- Un nouveau paramètre ACMS_SAFE_MODE, qui interdit de modifier les paramètres Loader / CMS et de charger des fichiers personnalisés, il est également interdit pour les importations d'importer des paramètres et des fichiers personnalisés.
- Paramètres du chargeur et du CMS Les fichiers JSON peuvent maintenant être téléchargés sur votre ordinateur et téléchargés sur le CMS à partir d'un fichier sur votre ordinateur. Ainsi, le transfert des paramètres vers d'autres sites est devenu encore plus facile.
- La création de règles personnalisées est devenue plus pratique, il existe souvent des modèles que vous pouvez choisir.
- De nouveaux fichiers personnalisés peuvent être créés dans le gestionnaire de fichiers sans avoir à télécharger le fichier.
- L'arborescence d'URL pour le domaine principal vient toujours en premier.
- Si vous masquez l'arborescence des URL du domaine / sous-domaine, ce paramètre est enregistré lorsque vous travaillez avec le CMS.
- Au lieu de deux boutons, ouvrez / réduisez l'arborescence des URL, maintenant celui qui peut faire les deux.
- La création d'une nouvelle URL a été simplifiée et lors de la création, vous pouvez immédiatement spécifier le fichier depuis l'ordinateur.
- Dans la disposition mobile, la partie principale de travail vient en premier.
- Après chaque manipulation du fichier, sa taille est mise à jour dans la base de données.
- Boutons fixes pour les annulations sélectives de l'historique.
- Correction de la création de nouvelles URL pour les sous-domaines contenant des numéros dans le nom de domaine.
2020.02.07
Nouvelle portion de mises à jour!
Il n'est pas nécessaire de modifier quoi que ce soit dans le code source des fichiers maintenant.
- Vous pouvez désormais télécharger des sites sur le serveur en téléchargeant sur le serveur un seul script à partir de notre CMS Archivarix.
- Pour changer quelque chose dans les paramètres du CMS, vous n'avez plus besoin d'ouvrir son code source. Vous pouvez définir un mot de passe ou des limites inférieures directement à partir de la section Paramètres.
- Pour connecter vos compteurs, trackers, scripts personnalisés, un dossier séparé "comprend" est désormais utilisé dans le dossier .content.xxxxxx. Vous pouvez également télécharger des fichiers personnalisés directement via le nouveau gestionnaire de fichiers dans CMS. L'ajout de compteurs et d'analyses à toutes les pages du site est également devenu pratique et compréhensible.
- Les importations prennent en charge une nouvelle structure de fichiers avec des paramètres et le dossier "comprend".
- Ajout de raccourcis clavier pour travailler dans l'éditeur de code.

Ces améliorations et bien d'autres dans la nouvelle version. Le chargeur a également été mis à jour et fonctionne avec les paramètres créés par le CMS.
2020.01.23
Une autre méga-mise à jour d'Archivarix CMS!

Ajout d'outils très utiles qui permettent de cliquer sur un bouton:
- nettoyer tous les liens internes rompus,
- supprimer les images manquantes,
- définissez rel = "nofollow" pour tous les liens externes.

Désormais, une récupération supplémentaire peut être importée directement à partir du CMS lui-même. Vous pouvez combiner différentes récupérations en un seul site de travail.

Pour ceux qui travaillent avec de grands sites ou utilisent un hébergement médiocre - toutes les actions qui pouvaient auparavant s'arrêter au moment de votre hébergement seront désormais divisées en parties et continueront automatiquement jusqu'à ce qu'elles soient terminées. Vous voulez faire un remplacement dans le code de 500 mille fichiers? Importer une récupération de plusieurs gigaoctets? Tout cela est désormais possible sur n'importe quel hébergement, même très bon marché. Le délai d'expiration (par défaut, 30 secondes) peut être modifié dans le paramètre ACMS_TIMEOUT.

Notre chargeur (index.php) fonctionne désormais sur les protocoles http et https, quels que soient les paramètres de construction. Vous pouvez forcer le protocole en modifiant la valeur du paramètre ARCHIVARIX_PROTOCOL.
2020.01.07
La prochaine mise à jour du CMS Archivarix avec l'ajout de nouvelles fonctionnalités. Maintenant, n'importe quel ancien site peut être correctement converti en UTF-8 en cliquant sur un bouton. Le filtrage des recherches est devenu encore meilleur, car Maintenant, les résultats peuvent être filtrés par type MIME.
2019.12.20
Nous avons publié la mise à jour tant attendue d'Archivarix CMS. Dans la nouvelle version, en plus de diverses améliorations et optimisations, il existe une fonctionnalité très utile pour un filtrage supplémentaire des résultats de recherche et une prise en charge complète de l'arborescence des URL pour les récupérations avec un grand nombre de fichiers. Plus de détails peuvent être trouvés dans le journal des modifications apportées au script CMS Archivarix .