Para la posición que una web ocupa en los resultados de un búsqueda utiliza el PageRank, el cual es un indicador que refleja la importancia de una web y que se obtiene de una ecuación de 500 millones de variables y más de 2.000 millones de términos.
El algoritmo, según se lee en 86400 desde Seomoz, para puntuar una página. es el siguiente, aunque los pesos que se le da a cada variable cambian en función de las tendencias de Internet:
GoogScore = (Uso de palabras clave en los contenidos * 0.3) + (Relevancia del dominio * 0.25) + (Calidad de los links entrantes * 0.25) + (Comportamiento de los usuarios * 0.1) + (Calidad del contenido * 0.1) + (Puntuación manual) – (Penalidades)
Personalmente creo que el algoritmo real es bastante más complejo, aunque nos sirve para explicar aquellos aspectos a los que Google otorga cierto peso.
Uso de palabras clave en los contenidos:
- En el título
- En los Headers
- En el texto
- En links internos apuntando a la página
En el dominio o en la URL Relevancia del dominio:
- Historia de registro de dominio
- Tiempo de vida del dominio
- Fuerza de los links apuntando a ese dominio
- Vecindario del dominio basado en links entrantes y salientes
- Patrón de uso a lo largo de la vida de un dominio
- Tipo de dominio (.gov, .edu, etc)
Calidad de los links entrantes:
- Tiempo de existencia los links
- Calidad de los dominios que linkean
- Calidad de los documentos que linkean
- Texto que se usa para linkear (anchor text)
- Texto alt que se usa en los links entrantes
- PageRank de los links
- Tema de los sitios que mandan links
Comportamiento de los usuarios:
- CTR histórico del documento en los resultados de búsqueda
- Tiempo que los usuarios pasan en la página hasta que hacen otra búsqueda
- Búsquedas del dominio
- Todo tipo de datos de comportamiento de los usuarios venidos de su Toolbar, Analytics, alianzas, etc.
Calidad del contenido:
- Calificación puesta a mano por analistas que potencialmente trabajarían para Google
- Sentido del contenido (procesamiento del lenguaje natural)
- Metadata (tipo de contenido)
- Aumentos manuales en los resultados (ej: wikipedia)
Penalidades (restan):
- Sandbox (muchos enlaces entrantes en las primeras semanas de vida de una web o dominio).
- Sobre-optimización
- Técnicas Black Hat (técnicas ilegales para posicionarse en los buscadores pero que sirven para adquirir una mejor posición en los resultados de los buscadores)
- Penalizaciones manuales
A continuación se muestran unos videos ilustrativos de como se realizan la indexación de páginas web por Google.