En la entrada anterior hacíamos mención a la necesidad de configurar correctamente el archivo robots.txt para decirle a los buscadores el contenido que tiene que indexar y el que no tiene que indexar
Navegando por internet, llegué a un post de la ayuda de wordpress que habla acerga de la configuración más idónea para tu blog en Wordpress, os vamos a mostrar el post íntegro porque nos parece muy interesante y recomendable, de ésta forma, aunque muchas veces no p0demos controlar el azar a la hora de que Google y otros buscadores indexen nuestro contenido, (que por lo general son como una ruleta caprichosa), al menos sí podemos controlar lo que no queremos que indexe, y en ello entran archivos que empiezan por wp correspondientes a plantillas e includes, archivos con extensión PDF, comentarios en un blocg que se indexan o se posicionan antes que las misma página en cuestión, etc.
Incluso sería un buen ejercicio de limpieza si tienes una web, revisar si en la carpeta de tu sitio remoto en el FTP, tienes algún archivo que has subido por error de forma equivocada y no te interesa que esté accesible al público. Parece obvio, pero hay muchos webmasters a los que se “les cuela” un archivo de su copia local al sitio FTP, y pueden contener datos secretos o privados, como cuentas de correo, de banco, passwords, los precios de coste si se trata de un proveedor, cartas privadas, informes financieros y/o contables…etc. No pocas veces en los resultados de Google aparecen archivos indexados que para abrirlos se necesita el adobe, el excel o el word. Normalmente y por norma general, éste tipo de archivos no es habitual que se desee indexarlos, los webmasters suelen programar en HTML, en PHP, en ASP etc… pero esos formatos mencionados anteriormente no son habituales.
Además, aunque sí contengan una información que queramos enseñar públicamente, no es mejor método, ya que a muchos navegantes (por lo menos desde mi punto de vista personal) no les suele ser de agrado clickar en un resultado y que tengas que descargarte el programa si no lo tienes instalado, o si lo tienes, el navegador necesita abrir el programa y si es un documente un poco pesado, te ralentiza el ordenador y tienes que esperar un buen rato. Los navegantes siempre quieren que las páginas web sean fluídas y rápidas al abrirse, todo lo que sean tecnologías Flash y similares, y archivos que necesiten de programas externos, condiciona a que el navegante abandone la página antes de que se abra por aburrimiento.
A continuación, os adjuntamos el texto del archivo robots.txt perfecto para Wordpress:
”
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10 “
Fuente: http://ayudawordpress.com/robotstxt-perfecto-para-wordpress/#comment-47630