Sistemas de Información

Common Crawl: el archivo de la web con fines de investigación

Common Crawl es un rastreador de Internet que si te permite acceder a los datos y no los utiliza con ánimo de lucro como lo hace Google, Bing y el resto de buscadores.

Este rastreador es un proyecto sin ánimo de lucro que desde el año 2011 rastrea Internet y construye un archivo completamente accesible para todo el mundo. Cualquier persona o empresa puede descargar una copia y hacer lo que desee con ella.

En su última versión el CCBot basado en Nutch ha rastreado y almacenado la información de 2700 millones de páginas que ocupan 280 terabytes de peso. Una cifra de peso inmensa pero posible para una organización seria que desee investigar más a fondo Internet.

Desde sus inicios Common Crawl es un proyecto que ha proporcionado el insumo para llevar a cabo grandes investigaciones y documentación científica como:

También se han llevado a cabo investigaciones sobre: análisis de dominios, extracción de ofertas de empleo, análisis sobre publicidad en internet, búsqueda de tags, análisis de impacto de las noticias en los mercados y muchos más.

Common Crawl se comporta como cualquier otro rastreador y si no deseas que tu página web sea rastreada solo basta agregar en tu documento robots.txt el siguiente código:

User-agent: CCBot  Disallow: /

Si deseas que el rastreo se haga más despacio, introduce el siguiente código:

User-agent: CCBot  Crawl-Delay: 2

El rastreo es automático y pasa por los sitios web de forma periódica y al parecer solo extrae la información en texto.

Avatar

esteban

About Author

Quizá también te interese

Sistemas de Información

Qué son las TIC

¿Qué son las TIC? Básicamente, las Tecnologías de la Información y la Comunicación son un conjunto de tecnologías de software,
Sistemas de Información

Los componentes de las TIC

Los componentes de las Tecnologías de la Información y la Comunicación – TIC son los dispositivos físicos hardware, software de