Si tienes una web en la cual hay contenido que no deseas que aparezca en los resultados de Google, dispones de varias opciones para evitar que el buscador la indexe.
- Si se trata de contenido confidencial, te recomiendo que guardes la información en un directorio protegido con contraseña en el servidor, ni Googlebot y ni otras arañas podrán acceder al contenido. Si utilizas un servidor web Apache, puedes proteger el directorio en el servidor con contraseña editando el archivo .htaccess. Existen muchas herramientas en Internet que le permitirán hacer esto fácilmente.
- Otra forma de bloquear el paso a los motores de búsqueda es utilizar un archivo robots.txt, una señal electrónica de “Prohibido el paso” que le indica a Googlebot y a otros rastreadores qué archivos y directorios del servidor no deberían rastrearse. Para utilizar un archivo robots.txt, debes tener acceso al directorio raíz de su hosting (compruébalo con su proveedor de alojamiento web). Si no tiene acceso a la raíz de su dominio, puede utilizar la metaetiqueta de robots en cada página para bloquear a los motores de búsqueda.
Hay que tener en cuenta que incluso utilizando el archivo robots.txt Google podría descubrir ese contenido de otras formas y añadirlo a su índice. Por ejemplo, es posible que otros sitios sigan incluyendo enlaces a ese sitio. Como consecuencia, la URL de la página y otros datos disponibles públicamente podrían aparecer en los resultados de búsqueda de Google. Además, algunos emisores de spam y otros mal hechores pueden ignorar el archivo robots.txtrl. Por eso siempre es mejor proteger la información mediante contraseñas.
Te recomiendo usar la herramienta para webmaster de Google para generar un archivo robots.txt para crear un archivo robots.txt y probarlo con la herramienta de análisis de robots.txt.
- Otra manera es utilizando la metaetiqueta “noindex”. Cuando Google llega a una metaetiqueta “noindex” en una página, la elimina por completo de los resultados de búsqueda, incluso en el caso de que otras páginas enlacen con esta. Si el contenido se encuentra en el índice de Google, este lo eliminara tras el próximo rastreo. Para acelerar el proceso, puedes utilizar la herramienta de eliminación de URL que forma parte de las Herramientas para webmasters de Google.
