Common Crawl: el archivo de la web con fines de investigación

Common Crawl es un rastreador de Internet que si te permite acceder a los datos y no los utiliza con ánimo de lucro como lo hace Google, Bing y el resto de buscadores.

Este rastreador es un proyecto sin ánimo de lucro que desde el año 2011 rastrea Internet y construye un archivo completamente accesible para todo el mundo. Cualquier persona o empresa puede descargar una copia y hacer lo que desee con ella.

En su última versión el CCBot basado en Nutch ha rastreado y almacenado la información de 2700 millones de páginas que ocupan 280 terabytes de peso. Una cifra de peso inmensa pero posible para una organización seria que desee investigar más a fondo Internet.

Desde sus inicios Common Crawl es un proyecto que ha proporcionado el insumo para llevar a cabo grandes investigaciones y documentación científica como:

Análisis de performance y costo del procesamiento de datos de gran escala utilizando AWS Lambda by Chris Madden, Aaron Bawcom (Candid Partners).
Extracción de texto de HTML en Python: un acercamiento muy rápido by Artem Golubin.
Obteniendo datos estructurados desde Internet — Jay M. Patel – Specrom Analytics, Ahmedabad, India.
The SAGE Handbook of Web History — Nils Brügger, Ian Milligan – Aarhus University, Denmark; University of Waterloo, Canada.

También se han llevado a cabo investigaciones sobre: análisis de dominios, extracción de ofertas de empleo, análisis sobre publicidad en internet, búsqueda de tags, análisis de impacto de las noticias en los mercados y muchos más.

Common Crawl se comporta como cualquier otro rastreador y si no deseas que tu página web sea rastreada solo basta agregar en tu documento robots.txt el siguiente código:

User-agent: CCBot  Disallow: /

Si deseas que el rastreo se haga más despacio, introduce el siguiente código:

User-agent: CCBot  Crawl-Delay: 2

El rastreo es automático y pasa por los sitios web de forma periódica y al parecer solo extrae la información en texto.