Cómo encontrar contenido duplicado en mi web
- Detalles
- Categoría: Web y Servidores
- Última actualización el Martes, 24 Enero 2012 16:18
- Escrito por cybnet
- Visto: 907
Es sabido que el contenido duplicado puede afectar negativamente a los resultados en los principales motores de búsqueda. Por ello, si te dispones a realizar una optimización SEO de tu web deberías buscar y eliminar el contenido duplicado de tu web. He dicho eliminar el contenido duplicado pero esto no es del todo cierto pues hay otras técnicas, como puede ser la implementación de URL canonical para indicar que página es la principal dentro de un conjunto de páginas de tu sitio que muestran el mismo contenido o contenido muy parecido.
Ahora bien, si tu web es pequeña te será fácil saber dónde está el contenido duplicado, pero si una web con 10 mil artículos puede que tome bastante tiempo. Para encontrar el contenido duplicado de tu web de forma algo más fácil y metódica puede serte útiles los siguientes consejos. Un buen punto de partida es comenzar a mirar cuántas páginas de tu web están actualmente indexadas comparadas con cuántas páginas pueden ser consideradas como duplicadas, vamos a ver cómo:
- En google, escribe el comando "site:dominio.com" en el cuadro de búsqueda (usando el dominio de tu web, claro) y pulsa "Buscar". Se buscarán todas las páginas indexadas de tu sitio.
- Cuándo aparezcan los resultados de búsqueda ve hacia el final de la página y haz clic sobre el mayor número de página, normalmente 10. Así vas a la página número 10 de los resultados. Al hacer esto, puede que el número de resultados se re-calcule y aparezca un número diferente en la parte superior de la página, dónde se muestran el número de resultados encontrados.
- Fíjate en el número de resultados, dónde dice "1-10 de aproximadamente XXXX".
- El número que aparece en "aproximadamente XXXX" es el número total aproximado de páginas de tu sito que están indexadas.
- Navega hasta la última página de resultados.
- El número que se muestra en la última página representa los resultados filtrados. La diferencia entre el número anterior, y el número que aparece en la última página de los resultados se puede decir que es la aproximación del número total de páginas que Google ve cómo duplicadas.
Por razones de rendimiento, Google no muestra todas las páginas indexadas y omite aquellas que, a su juicio, no son relevantes, estas son casi seguro las que ve como duplicadas. Si realmente quieres ver todas las páginas indexadas de un determinado dominio haz de ir a la última página de los resultados de búsqueda y hacer clic sobre el enlace que se muestra al final "Repetir la búsqueda incluyendo los resultados omitidos", aunque incluso haciendo esto Google solo mostrará 1000 resultados como máximo.
Entonces, se pueden detectar cuántas páginas son vistas como duplicadas para sitios pequeños-medianos pero dadas las limitaciones de los resultados de Google esto no vale para sitio grandes. Lo que puedes hacer entonces es repetir los pasos realizados con la búsqueda en Google con el comando "site:dominio.com" añadiendo una palabra o frase clave (tras escribir el dominio pones un espacio y la palabra o frase a buscar), buscará esa frase o palabra sólo en tu sitio. Así, se puede ir afinando la cantidad de contenido duplicado que Google ve en tu sitio. La opción alternativa es utilizar las herramientas de Google para webmasters e intentar solventar la mayor parte posible de los avisos mostrados en el apartado "Sugerencias HTML".
Finalmente, para asegurarte que una página no tiene duplicadas puedes utilizar esta herramienta. Ojo, esta herramienta chequea varias versiones de una url y con sólo 1 se debería obtener el código de respuesta del servidor "200 OK". Esta herramienta no comprueba que existan otras url de aspecto diferente que ofrezcan el mismo contenido. Por ejemplo, comprueba dominio.com/index.html, dominio.es/index.php, etc, sólo una de estas versiones debe dar el código 200, pero si muestra el mismo contenido en dominio.com/index.html y dominio.com/categoria/index.html, esta herramienta no te sirve.
¿Y que hago con el contenido duplicado?
Cómo dije al principio tienes varias opciones:
- Eliminar el contenido duplicado y dejar sólo la url original.
- Hacer una redirección 301 de la página con contenido duplicado a la página con el contenido original.
- Implementar url canonical en las páginas de contenido duplicado que apunten a la url con la versión original. La url canonical se implementa en introduciendo un elemento
<link>en la cabecera de tu web (entre<head>y</head>) de esta forma:
<html>
<head>
....
<link href="http://dominio.com/pagina-original.html" rel="canonical" />
...
</head>
<body>
.....
</body>
</html>
Espero que estos consejos sobre el contenido duplicado te sirvan un poco para mejorar la optimización SEO de tu web.
En realidad estaba buscando un herramienta parecida a la de copyscape.com que me dice si hay contenido repetido en otras webs comparandolo con el tuyo, probe la de cuwhois.com Y me da resultadoso buenos, por lo menos supe que no tengo fallas en mi web. ...alguien sabe de otra parecida a la de copyscape..
Saludos y gracias por el aporte.
Muchas gracias por la info. Cybnet. Seguiré pendiente a tu blog con las nuevas cosas sobre SEO que publiques! Te quería hacer otra pregunta, pero sobre otro tema, me gustaría iniciarme en las redes sociales pero nose muy bien como empezar, puedes indicarme algunas pequeñas pautas a tener en cuenta.
Muchas gracias y un saludo.

Citando "Pedro" : http://www.dominio.com y http://dominio.com devuelven el mismo código.
Esto es incluso aconsejable para que se pueda acceder a tu sitio tanto si el usuario escribe las 3w o no. Si pones la url canonical mejor, también puedes configurar en las herramientas de google para webmasters la versión del dominio que prefieres, con o sin wwww, o dejar que Google decida. No obstante, a nivel de dominio principal no es gran problema, ni siquiera desde un punto de vista SEO. Eso sí, pueden aparecer otros problemas más técnicos como tuve yo y al final opté por redirigir del dominio sin www al dominio con www para todas las páginas de mi sitio.
Muy buenas Cybnet.Acabo de realizar la prueba para ver si mi página web duplica algún contenido y me ha encontrado 4 páginas que aprecene con un problema de código 200. http://www.dominio.com y http://dominio.com devuelven el mismo código.
Para solucionar esto, ¿debo copiar ese código de url canonical y pegarlo en el código de mi página?
Un saludo

Saludos Pedro,Gracias por tu comentario, me ha servido mucho pues alguna vez he necesitado servicios de una empresa como Independent Publishing y la verdad que la he ojeado y ojalá la hubiése conocido antes.
De todas formas en el post no hablo de contenido original o contenido copiado, sino de contenido duplicado en una web, esto es, contenido que aún siendo original, se muestra a través de varias url, por ejemplo, a este post puedes acceder con:
http://www.bloogie.es/tecnologia/web-y-servidores/269-como-encontrar-contenido-duplicado-en-mi-web
http://www.bloogie.es/tecnologia/web-y-servidores/269
http://www.bloogie.es/tecnologia/web-y-servidores/269-como-encontrar-contenido-duplicado-en-mi-web?loquesea=algo
Todas esas url son url distintas, sin embargo muestran el mismo contenido y esto puede tener problemas desde un punto de vista SEO. Aunque Google u otro motor de búsqueda siempre rastrearánn todas, ¿cuál toman para los resultados de búsqueda? Puede que eligan aquella que precisamente tu no quieres que tomen. Para solucionar esto están las soluciones que comento en el post, yo me decanto por la url canonical o, en algunos casos específicos, la redirección 301.







RSS
Perfil
Artículos
RSS