Common Crawl es un rastreador de Internet que si te permite acceder a los datos y no los utiliza con ánimo de lucro como lo hace Google, Bing y el resto de buscadores.
Este rastreador es un proyecto sin ánimo de lucro que desde el año 2011 rastrea Internet y construye un archivo completamente accesible para todo el mundo. Cualquier persona o empresa puede descargar una copia y hacer lo que desee con ella.
En su última versión el CCBot basado en Nutch ha rastreado y almacenado la información de 2700 millones de páginas que ocupan 280 terabytes de peso. Una cifra de peso inmensa pero posible para una organización seria que desee investigar más a fondo Internet.
Desde sus inicios Common Crawl es un proyecto que ha proporcionado el insumo para llevar a cabo grandes investigaciones y documentación científica como:
- Análisis de performance y costo del procesamiento de datos de gran escala utilizando AWS Lambda by Chris Madden, Aaron Bawcom (Candid Partners).
- Extracción de texto de HTML en Python: un acercamiento muy rápido by Artem Golubin.
- Obteniendo datos estructurados desde Internet — Jay M. Patel – Specrom Analytics, Ahmedabad, India.
- The SAGE Handbook of Web History — Nils Brügger, Ian Milligan – Aarhus University, Denmark; University of Waterloo, Canada.
También se han llevado a cabo investigaciones sobre: análisis de dominios, extracción de ofertas de empleo, análisis sobre publicidad en internet, búsqueda de tags, análisis de impacto de las noticias en los mercados y muchos más.
Common Crawl se comporta como cualquier otro rastreador y si no deseas que tu página web sea rastreada solo basta agregar en tu documento robots.txt el siguiente código:
User-agent: CCBot Disallow: /
Si deseas que el rastreo se haga más despacio, introduce el siguiente código:
User-agent: CCBot Crawl-Delay: 2
El rastreo es automático y pasa por los sitios web de forma periódica y al parecer solo extrae la información en texto.