Inicio > Informática > Como descargar una página web completa con Wget

Como descargar una página web completa con Wget

WGET, según wikipedia, es una herramienta de Software Libre que permite la descarga de contenidos desde servidores web de una forma simple. Entre las características más destacadas que ofrece wget está la posibilidad de descargar fácilmente páginas web, pudiendo tener así una copia de una página web completa en nuestro equipo.

Es un programa que soporta conexiones lentas o inestables, esperando en el caso de que se corte la conexión a que se vuelva a restablecer para continuar la descarga, etc. Y, además, soporta IPv6.

Lo más fácil es descargarnos la página principal de un sitio web: wget http://www.eliasbrasa.com

wget1

Con ese comando nos habremos descargado la página principal (index.html) de http://www.eliasbrasa.com PERO al intentar verla desde nuestro ordenador, nos aparecerá algo como esto:

wget2

Esto es debido a que index.html tiene contenido que ha de estar junto a él para poder visualizar la página web. Podremos descargarnos todo el contenido con el comando: wget -r -l 0 http://www.eliasbrasa.com/

wget3

Si nos da problemas, podremos descargarnos el contenido de una web completa haciéndonos pasar por un navegador: wget -r -p -e robots=off -U mozilla http://www.eliasbrasa.com/

Si aún así nos sigue dando problemas, podremos establecer pausas aleatorias para pasar totalmente desapercibidos como un navegador: wget –random-wait -r -p -e robots=off -U mozilla http://www.eliasbrasa.com (delante de random hay dos guiones)

Lo que estamos haciendo es:
–random-wait significa que entre un pedido y otro al website, que espere un tiempo aleatorio, para así no pedir demasiadas páginas y archivos uno detrás de otro y alarmar a algún sistema de seguridad.

-e robots=off significa que wget no debe prestar atención al archivo robots.txt que indica cuáles páginas no deben accederse por un navegador web.

-r significa que queremos todo de manera recursiva.

-p indice que descargue todos los archivos para desplegar adecuadamente una página HTML.

-U mozilla significa que se haga pasar por un navegador de la familia Mozilla (como Firefox).

PARA REALIZAR DESCARGAS DESDE RAPIDSHARE CON WGET:

Lo primero que hay que tener en cuenta es que tenemos que tener una cuenta premium en rapidshare. Para poder realizar las descargas con Wget, accederemos a nuestra cuenta premium y en el panel de configuración seleccionar la opción de descargas directas.

Ahora lo que debemos hacer ahora es descargar la cookie que se encargará de autenticar nuestra información cada vez que queramos realizar una descarga. Creamos un directorio llamado cookies en nuestro home: mkdir ~/.cookies (Nota: Al ponerle el punto delante .cookies, el directorio se creará como oculto)

Ahora obtendremos la cookie: wget –save-cookies ~/.cookies/rapidshare –post-data “login=USUARIO&password=CONTRASEÑA” –no-check-certificate -O – https://ssl.rapidshare.com/cgi-bin/premiumzone.cgi > /dev/null Pero sustituyendo USUARIO por nuestro usuario y CONTRASEÑA por nuestra contraseña. NOTA: delante de save y de no-check-certificate hay dos guiones.

Ahora cada vez que queramos realizar una descarga bastaría con ejecutar wget con el parametro –load-cookies cookie, de la siguiente manera: wget -c –load-cookies ~/.cookies/rapidshare URL (hay dos guiones delante de load-cookies y URL lo sustituiremos por la dirección web de la descarga)

Nota: También se usa el parámetro -c para continuar la descarga en caso de que haya sido interrumpida.

Fuentes: Wikipedia, AlberTUX, MuyLinux y DragonJAR.

Anuncios
Etiquetas: , , ,
  1. anasus666
    1 noviembre 2009 en 17:47

    Antes de nada, no lo he probado. Pero tengo una duda. ¿Te puedes descargar todo el contenido absoluto de dicha pagina web? Me refiero a que, no es lo mismo descargarse una pagina web normal que contenga fotos, a otra que contenga multitud de videos como por ejemplo una que se dedique a colgar peliculas.

    Imagino que eso no interferirá en las paginas enlazadas que llevan hasta dichas peliculas, pero como no lo sé…eh ahi mi duda.

    Saludines! XD

    • 1 noviembre 2009 en 17:53

      Pues si te soy sincero no lo he probado hasta tal punto, pero buscando por la red me he encontrado que si le ponemos el comando: wget -r -A=.jpg,.png http://www.eliasbrasa.com
      Debería bajarse todo el contenido que tenga formato jpg y png, si pusiesemos .mp3 se descargaría los mp3 y los vídeos deberíamos ponerle su extensión…
      Fuente: Paraiso Linux.

  1. No trackbacks yet.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: