Copiar una web entera con HTTrack

En ocasiones, debemos trabajar de manera offline con un sitio web, por x razon . Para ello utilizaremos HTTrack un programa bajo licencia GPL que recorre de forma recursiva toda la web (o partes si le indicamos) y nos baja a nuestra pc todos los ficheros (lease hojas de estilo, imagenes, .httaccess, .html, etc, NO php por obvias razones)
Como lo instalamos?, fácil. nos dirigimos a la sección de Descargas donde encontramos una versión para Window$ llamada WinHTTrack y otra para Linux/OSX/BSD/Unix sources version WebHTTrack.
Si usas alguna distro basada en Debian, mediante los repositorios…
chuecko@zarpele ~ $ sudo apt-get install webhttrack
Luego buscamos la aplicación en el menu o desde consola
chuecko@zarpele ~ $ webhttrack
Se nos abrirá nuestro browser por defecto y listo.
Los primeros pasos los resumo en un párrafo ya que son sencillos, debemos elegir primero nuestro idioma, el nombre del proyecto, una categoría (opcional) y la ruta de descarga.
Aquí añadimos la URL de la pagina a bajar, noten también podemos pasarle un txt con muchas URL para que nos descargue
Luego nos preguntara, si queremos guardar la configuración y volver después o realizar el volcado ahora…
Vemos como descarga los ficheros, el método es mas o menos así, entra en http://www.zarpele.com.ar y de ahí va recorriendo los enlaces internos, luego hace lo mismo con el siguiente y vuelve a recorrer enlaces internos, por eso este numero puede variar durante el proceso de volcado.
Voy 46 mins bajando Zarpele y no termina (67 MB), esto es mas para pequeñas web’s, no se atrevan a volcar Taringa o algún sitio zarpado por que van a estar 3 millones de anos.
Obviamente cancele el volcado de Zarpele, pero una vez terminado nos deberia mostrar esta pantalla.
Saludos…
Puedes seguir cualquier respuesta a esta entrada mediante el canal RSS 2.0. Puedes dejar un comentario o enviar un trackback desde tu propio sitio.





















especial para hacer pishin
lo mismo pensé, pero desde hace mucho existe wget
pero el wget descarga solo el .html no las imagenes