¿Cómo funcionan los buscadores?

Para muchas personas, Google ES La Internet. Es la página de inicio por defecto y el primer puerto de escala antes de acceder a cualquier sitio. Podría decirse que es el invento más importante ya que la propia Internet. Sin motores de búsqueda, el contenido sería recogido todos sean parte - al igual que los periódicos y revistas. Y mientras que los motores de búsqueda han cambiado mucho desde los primeros inicios humildes - y Google ciertamente no es el solamente motor de búsqueda por ahí - los principios subyacentes son los mismos que siempre fueron.

Hacer tú saber cómo funcionan los motores de búsqueda? Hay tres etapas básicas para un motor de búsqueda de rastreo: - donde el contenido es indexado discovered-, donde es analizada y almacenada en gran databases- y recuperación, donde una consulta de un usuario obtiene una lista de páginas relevantes.

arrastrándose

El gateo es donde empieza todo - la adquisición de datos sobre un sitio web. Esto implica la exploración del sitio y obtener una lista completa de todo lo que hay en - el título de la página, imágenes, palabras clave que contiene, y cualquier otra página que enlaza - en un mínimo. rastreadores modernos pueden almacenar en caché una copia de toda la página, así como buscar alguna información adicional, como el diseño de la página, donde las unidades de publicidad son, donde los enlaces están en la página (un lugar destacado en el texto del artículo, o escondido en el ¿pie de página?).

¿Cómo se rastrea un sitio web exactamente? Un robot automatizado - una araña - visitas cada página, al igual que usted o que lo haría, sólo se muy con rapidez. Incluso en los primeros días, Google informó que estaban leyendo unos pocos cientos de páginas por segundo. Si desea aprender cómo hacer su propio rastreador web básica en PHP - fue uno de los primeros artículos que escribí aquí y vale la pena tener un ir en (sólo no esperar para hacer el próximo Google).Cómo construir un rastreador web básico para extraer información de un sitio web (Parte 1)Cómo construir un rastreador web básico para extraer información de un sitio web (Parte 1)Lee mas

El rastreador continuación, añade todos los nuevos enlaces que se ha encontrado a una lista de lugares que arrastrarse al lado -, además de un nuevo rastreo sitios de nuevo para ver si algo ha cambiado. Es un proceso sin fin, de verdad.

Cualquier sitio que está vinculado al de otro sitio ya indexada, o cualquier sitio que pidió manualmente para ser indexados, con el tiempo se arrastró - algunos sitios con mayor frecuencia que otros y algunos en mayor profundidad. Si el sitio es enorme y con contenido oculto muchos clics de la página principal, los robots de orugas pueden en realidad se dan por vencidos. Hay maneras de pedir los motores de búsqueda no indexar un sitio, aunque esto rara vez se utiliza para bloquear un sitio web completo.

Incluso hubo un momento en que gran parte de la Internet eran esencialmente invisibles para los motores de búsqueda - el llamado “red profunda”- pero esto es raro ahora. sitios web TOR-organizada (¿Cuál es la cebolla de enrutamiento?), Por ejemplo, permanecen no indexados por Google, y sólo se puede acceder mediante la conexión a la red Tor y conociendo la dirección.10 motores de búsqueda para explorar la Web Invisible10 motores de búsqueda para explorar la Web InvisibleNo, no es la última herramienta de eslinga web de araña, pero algo que es más del mundo real. Al igual que la World Wide Web.Lee mas

¿cómo funcionan los motores de búsqueda

Indexación

Usted sería perdonado por pensar que esto es un paso fácil - la indexación es el proceso de tomar todos esos datos que se tiene de un rastreo, y colocándola en una gran base de datos. Imagine que trata de un hacer una lista de todos los libros de su propiedad, su autor y el número de páginas. El paso por cada libro es el rastreo y la escritura de la lista es el índice. Pero ahora imagina que no es sólo una habitación llena de libros, pero todas las bibliotecas del mundo. Eso es más o menos una pequeña-versión a escala de lo que hace Google.

Toda esta información se almacena en vasto centros de datos con miles de petabytes por valor de unidades. Aquí hay un pico disimulado dentro de uno de Google de:

Clasificación & Recuperación

El último paso es lo que se ve - se escribe en una consulta de búsqueda, y el motor de búsqueda intenta mostrar los documentos más relevantes que encuentra que coincide con la consulta. Este es el paso más complicado, pero también el más relevante para usted o yo, ya que los desarrolladores web y usuarios. También es el área en la que los motores de búsqueda se diferencian (sin embargo, hay algunas pruebas de que Bing fue realmente copiando algunos resultados de Google) .Algunos trabajo con palabras clave, algunos Dejarlo hacer una pregunta, y algunos incluyen características avanzadas como la proximidad de palabras clave o el filtrado según la edad del contenido.10 frescos usos de Wolfram Alpha Si usted leer y escribir en el idioma Inglés10 frescos usos de Wolfram Alpha Si usted leer y escribir en el idioma InglésMe tomó un tiempo para hacerme a Wolfram Alfa y las consultas que utiliza a salir un chorro de esos resultados. Usted tiene que sumergirse profundamente en Wolfram Alpha para explotar realmente lo que ...Lee mas

El algoritmo de clasificación comprueba la consulta de búsqueda contra mil millones de páginas para determinar la relevancia de cada uno es. Esta operación es tan compleja que las empresas guardan estrechamente sus propios algoritmos de clasificación como secretos industriales patentados. ¿Por qué? ventaja competitiva para un comienzo - con tal de que le están dando los mejores resultados de búsqueda, que puede permanecer en la cima del mercado. En segundo lugar, para evitar que los juegos del sistema y dar una ventaja injusta a un sitio u otro.

Una vez que la metodología interna de cualquier sistema está completamente entendido, siempre habrá aquellos que tratan de “hack” que - descubrir los factores de clasificación y explotarlos para obtener beneficios económicos.

Vídeo: El Mapa Digital - Como funciona un buscador Web.

Explotar el algoritmo de clasificación ha sido un lugar común, de hecho, desde que comenzaron los motores de búsqueda, pero en los últimos 3 años más o menos Google realmente ha hecho tan difícil. Originalmente, los sitios fueron clasificados según el número de veces que se menciona una palabra clave determinada. Esto llevó a “relleno de palabras clave”, donde las páginas se llenan de sentido sobre todo con tal de que incluye la palabra clave en todas partes.

A continuación, se introdujo el concepto de importancia sobre la base de la vinculación - los sitios más populares estarían más vinculados a, obviamente - pero esto dio lugar a una proliferación de enlaces afectados incoar toda la web. Ahora cada enlace está determinada a tener un valor diferente, dependiendo de la “autoridad” del sitio en cuestión. Si un alto nivel enlaces agencia gubernamental para usted, es mucho más valioso que un enlace que se encuentra en un país libre para todos “directorio de enlaces”.

Salida SEOFailBlog.com para más ejemplos de SEO idas salvajes.

Vídeo: ¿Cómo funciona un buscador?

Hoy en día, la comprensión del algoritmo exacto es aún más misterio que nunca, y el oscuro arte de “Search Engine Optimization” en gran parte se ha paralizado - el consejo ahora es centrarse en proporcionar el mejor contenido, con una gran experiencia de usuario ( lo loco, ¿no ?!). Teniendo en cuenta que casi el 60% de todas las búsquedas terminan haciendo clic en el primer resultado, es fácil ver por qué el ranking de su página así es tan importante.

¿Qué sigue para los motores de búsqueda?

Ah, ahora hay una pregunta interesante. La respuesta es - semántica - el significado y el tipo de contenido de una página contiene. Para obtener más información al respecto, lea mi artículo sobre De marcado semántico y cómo va a cambiar para siempre la Web.Lo semántica de marcado Es & Cómo se cambiará para siempre Internet [Tecnología Explicación]Lo semántica de marcado Es & Cómo se cambiará para siempre Internet [Tecnología Explicación]Lee mas

Aquí está el ejemplo más fácil - en este momento, podría buscar para las galletas sin gluten, pero las páginas que encuentra en realidad no puede ser una receta para el gluten galletas- libres que podrían tener una cookie puede regular con un poco de texto que dice “Esta receta no es libre de gluten“. En un mundo con la semántica, se puede buscar recetas de galletas y luego retirar la harina regular de su lista de ingredientes aceptables. Posteriormente, se podría eliminar cualquier con nueces, porque no estás particularmente interesado en los frutos secos. Posteriormente, se podría limitar la búsqueda a sólo recetas con una puntuación de la crítica de 4/5 o mayor, y un tiempo total de preparación de menos de media hora. Ese estaría bien fría?

Bien tu puedes. Sólo la cabeza a Google.com (versiones internacionales pueden no funcionar), buscar una receta, y utilizar las herramientas de búsqueda para limitar la búsqueda a sólo los resultados que son recetas. A continuación encontrará un filtro de ingredientes, y mucho más!