¿Cómo construir un rastreador web básico para extraer información de una página web (parte 1)

Vídeo: Tutorial Web Scrapping fácil con PHP Simple HTML DOM Parser

Rastreadores web, a veces llamados raspadores, escanear automáticamente en Internet tratando de recoger contexto y el significado del contenido que encuentran. La web no podría funcionar sin ellos. Rastreadores son la columna vertebral de los motores de búsqueda que, junto con algoritmos inteligentes, funciona de la relevancia de su página a un conjunto de palabras clave dada.

Vídeo: Rastreador gps automotriz rastrea tu auto en cualquier momento con un sms

El rastreador web de Google entrará en su dominio y escanear cada página de su sitio web, la extracción de los títulos de página, descripciones, palabras clave y enlaces - luego informar a la sede de Google y añadir la información a su enorme base de datos.

Hoy en día, me gustaría que le enseñe cómo hacer su propio rastreador básica - no uno que escanea todo el Internet, sin embargo, pero uno que es capaz de extraer todos los enlaces de una página web determinada.


En general, usted debe asegurarse de que tiene permiso antes de raspado de sitios web al azar, como la mayoría de las personas consideran que es un espacio jurídico muy gris. Sin embargo, como digo, la tela podría no funcionar sin este tipo de rastreadores, así que es importante entender cómo funcionan y lo fácil que es hacer.

Para hacer un rastreador simple, estaremos usando el lenguaje de programación más común de internet - PHP. No se preocupe si usted nunca ha programado en PHP - Voy a tomar en cada paso y explicar la función de cada parte. Voy a asumir un conocimiento básico de HTML absoluta, sin embargo, suficiente para que usted entienda cómo se añade un enlace o imagen a un documento HTML.

Antes de empezar, se necesita un servidor para ejecutar PHP. Usted tiene un número de opciones aquí:

  • Si aloja su propio blog con WordPress, ya tiene uno, por lo que subir los archivos se escriben a través de FTP y ejecutar desde allí. Matt nos mostró algunos clientes FTP gratuitos para Windows usted podría utilizar.
  • Si no tiene un servidor web, pero sí tienen un PC antiguo sentados alrededor, entonces se podría seguir el tutorial de David aquí para convertir un viejo PC en un servidor web.
  • Sólo un equipo? No se preocupe - Jeffry nos mostró cómo podemos ejecutar un servidor local dentro de Windows o Mac.

Empezando

Vamos a utilizar una clase de ayuda llamada simple HTML DOM. Descargar este archivo zip, descomprimirlo, y cargar el simple_html_dom.php archivo de contenido dentro de su sitio web en primer lugar (en el mismo directorio se le ejecuta sus programas de). Contiene funciones que vamos a utilizar para recorrer los elementos de una página web con más facilidad. Ese archivo zip también contiene código de ejemplo de hoy.

En primer lugar, vamos a escribir un programa sencillo que comprobará si PHP está funcionando o no. También vamos a importar el archivo de ayuda que va a utilizar más tarde. Hacer un nuevo archivo en su directorio web, y lo llaman example1.php - el nombre real no es importante, pero el .php final es. Copia y pega el código en él:

? Lt; phpinclude_once ( `simple_html_dom.php`) - phpinfo () - gt?;

Acceder al archivo a través de su navegador de Internet. Si todo ha ido bien, debería ver una gran página de depuración azar y la información del servidor impreso, como a continuación - todo desde la pequeña línea de código! En realidad no es lo que estamos buscando, pero al menos sabemos que todo está funcionando.

rastreador web

Las primeras y últimas líneas simplemente indicar al servidor que vamos a estar utilizando el código PHP. Esto es importante ya que podemos incluir en realidad el estándar HTML en la página también, y va a hacer muy bien. La segunda línea de tira en la simple ayudante DOM HTML que va a utilizar. los phpinfo () - la línea es la que imprime toda esa información de depuración, pero se puede seguir adelante y eliminar ese momento. Tenga en cuenta que en PHP, cualquier comando que tenemos se deben acabar con dos puntos (-). El error más común de cualquier principiante PHP es olvidar que poco de puntuacion.

Vídeo: Rastreador de Señal AF 2.

Una de las tareas típicas que Google lleva a cabo es para tirar todos los enlaces de una página y ver los sitios que están apoyando. Pruebe el siguiente código siguiente, en un nuevo archivo si lo desea.

lt;? phpinclude_once ( `simple_html_dom.php`) -

$ Target_url = “https://tokyobit.com/"-
$ Html = new simple_html_dom () -
$ Html-gt; load_file ($ target_url) -
foreach ($ html-gt; find ( ‘a `) como $ link) {
echo $ link-gt; href “.
“-
}
?gt;

Usted debe conseguir una página completa de direcciones URL! Maravilloso. La mayoría de ellos serán los enlaces internos, por supuesto. En una situación real, Google podría ignorar los enlaces internos y simplemente mirar lo que otros sitios web va a asociar a, pero eso es fuera del alcance de este tutorial.

Si se está ejecutando en su propio servidor, seguir adelante y cambiar el target_url variable para su propia página web o cualquier otro sitio web desea examinar.

Ese código era bastante un salto desde el último ejemplo, así que vamos a ir a través de pseudo-código para asegurarse de que entiende lo que está pasando.

Incluir una vez que el archivo simple ayudante DOM HTML.

Establecer la dirección URL de destino como https://tokyobit.com.

Crear un nuevo objeto simple DOM HTML para almacenar la página de destino

Cargar nuestra dirección URL de destino en ese objeto

Para cada enlace que encontramos en la página de destino

- Imprimir el atributo HREF

Vídeo: Rastreador de Señal AF. (casero)

Eso es todo por hoy, pero si desea un poco de desafío - tratar de modificar el segundo ejemplo de manera que en lugar de buscar enlaces ( elementos), se agarra imágenes en lugar (). Recuerda el src atributo de una imagen especifica la dirección URL de la imagen, no HREF.

¿Quieres aprender más? Déjame saber en los comentarios si usted está interesado en la lectura de una parte 2, o incluso si desea un tutorial básico copias de PHP (completa con solución tarea!) - y voy a crujir uno la próxima vez para usted. Te advierto sin embargo - una vez a empezar con la programación en PHP, podrás empezar a hacer planes para crear el próximo Facebook, y todos esos deseos latentes para dominar el mundo pronto se consumen. La programación es divertido.

Artículos Relacionados