Archivo robots.txt perfecto para tu blog WordPress

0 comments

Posted on 19th Abril 2010 by admin in Consejos | Recomendados

, , ,

En la entrada anterior hacíamos mención a la necesidad de configurar correctamente el archivo robots.txt para decirle a los buscadores el contenido que tiene que indexar y el que no tiene que indexar

Navegando por internet, llegué a un post de la ayuda de wordpress que habla acerga de la configuración más idónea para tu blog en Wordpress, os vamos a mostrar el post íntegro porque nos parece muy interesante y recomendable, de ésta forma, aunque muchas veces no p0demos controlar el azar a la hora de que Google y otros buscadores indexen nuestro contenido, (que por lo general son como una ruleta caprichosa), al menos sí podemos controlar lo que no queremos que indexe, y en ello entran archivos que empiezan por wp correspondientes a plantillas e includes, archivos con extensión PDF, comentarios en un blocg que se indexan o se posicionan antes que las misma página en cuestión, etc.

Incluso sería un buen ejercicio de limpieza si tienes una web, revisar si en la carpeta de tu sitio remoto en el FTP, tienes algún archivo que has subido por error de forma equivocada y no te interesa que esté accesible al público. Parece obvio, pero hay muchos webmasters a los que se “les cuela” un archivo de su copia local al sitio FTP, y pueden contener datos secretos o privados, como cuentas de correo, de banco, passwords, los precios de coste si se trata de un proveedor, cartas privadas, informes financieros y/o contables…etc. No pocas veces en los resultados de Google aparecen archivos indexados que para abrirlos se necesita el adobe, el excel o el word. Normalmente y por norma general, éste tipo de archivos no es habitual que se desee indexarlos, los webmasters suelen programar en HTML, en PHP, en ASP etc… pero esos formatos mencionados anteriormente no son habituales.

Además, aunque sí contengan una información que queramos enseñar públicamente, no es mejor método, ya que a muchos navegantes (por lo menos desde mi punto de vista personal) no les suele ser de agrado clickar en un resultado y que tengas que descargarte el programa si no lo tienes instalado, o si lo tienes, el navegador necesita abrir el programa y si es un documente un poco pesado, te ralentiza el ordenador  y tienes que esperar un buen rato. Los navegantes siempre quieren que las páginas web sean fluídas y rápidas al abrirse, todo lo que sean tecnologías Flash y similares, y archivos que necesiten de programas externos, condiciona a que el navegante abandone la página antes de que se abra por aburrimiento.

A continuación, os adjuntamos el texto del archivo robots.txt perfecto para Wordpress:


# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10 “

Fuente: http://ayudawordpress.com/robotstxt-perfecto-para-wordpress/#comment-47630

Share and Enjoy:
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • Bitacoras.com
  • connotea
  • Diigo
  • LaTafanera
  • LinkaGoGo
  • LinkedIn
  • Live
  • Meneame
  • MisterWong
  • MSN Reporter
  • MySpace
  • Ping.fm
  • Reddit
  • Slashdot
  • StumbleUpon
  • Suggest to Techmeme via Twitter
  • Technorati
  • Tipd
  • Tumblr
  • Twitter
  • Yahoo! Bookmarks

Aún no hay comentarios.

Dejar un comentario

6 visitantes conectados ahora
6 visitantes, 0 miembros
Máx. de visitantes hoy: 7 a las 02:06 am UTC
Este mes: 7 a las 02-06-2012 02:06 am UTC
Este año: 23 a las 01-10-2012 07:26 am UTC
En total: 54 a las 08-20-2010 05:38 am UTC
clock plugin by toronto's financial accounting firms