Common Crawl: el archivo de la web con fines de investigación

Poresteban 21 octubre, 20211 junio, 2023

Common Crawl es un rastreador de Internet que si te permite acceder a los datos y no los utiliza con ánimo de lucro como lo hace Google, Bing y el resto de buscadores.

Este rastreador es un proyecto sin ánimo de lucro que desde el año 2011 rastrea Internet y construye un archivo completamente accesible para todo el mundo. Cualquier persona o empresa puede descargar una copia y hacer lo que desee con ella.

En su última versión el CCBot basado en Nutch ha rastreado y almacenado la información de 2700 millones de páginas que ocupan 280 terabytes de peso. Una cifra de peso inmensa pero posible para una organización seria que desee investigar más a fondo Internet.

Desde sus inicios Common Crawl es un proyecto que ha proporcionado el insumo para llevar a cabo grandes investigaciones y documentación científica como:

Análisis de performance y costo del procesamiento de datos de gran escala utilizando AWS Lambda by Chris Madden, Aaron Bawcom (Candid Partners).
Extracción de texto de HTML en Python: un acercamiento muy rápido by Artem Golubin.
Obteniendo datos estructurados desde Internet — Jay M. Patel – Specrom Analytics, Ahmedabad, India.
The SAGE Handbook of Web History — Nils Brügger, Ian Milligan – Aarhus University, Denmark; University of Waterloo, Canada.

También se han llevado a cabo investigaciones sobre: análisis de dominios, extracción de ofertas de empleo, análisis sobre publicidad en internet, búsqueda de tags, análisis de impacto de las noticias en los mercados y muchos más.

Common Crawl se comporta como cualquier otro rastreador y si no deseas que tu página web sea rastreada solo basta agregar en tu documento robots.txt el siguiente código:

User-agent: CCBot  Disallow: /

Si deseas que el rastreo se haga más despacio, introduce el siguiente código:

User-agent: CCBot  Crawl-Delay: 2

El rastreo es automático y pasa por los sitios web de forma periódica y al parecer solo extrae la información en texto.

Sistemas de Información

¿Qué es un datacenter? y ¿Cómo funciona? Microsoft te explica en un tour digital
Poresteban 21 octubre, 20211 junio, 2023

A través de tu teléfono o de tu computador personal, Microsoft te ofrece un tour virtual para que conozcas qué es un datacenter y cómo funciona. Si pasas de vez en cuando por este blog, seguramente eres de esas personas que quiere saber qué son y cómo funcionan las cosas. Para algunas personas será obvio,…

Leer más ¿Qué es un datacenter? y ¿Cómo funciona? Microsoft te explica en un tour digital
Sistemas de Información

Características de las TIC
Poresteban 14 octubre, 20211 junio, 2023

Las características de las TIC Las hace diferentes de otro tipo de tecnologías; estas las hace diferenciarse y evolucionan constantemente para convertirse en herramientas cada vez más sofisticadas. Inmaterialidad Indica que es un producto que existe pero no de una manera palpable al tacto, es información inmaterial pero puede ser transportada a lugares lejanos. Interactividad…

Leer más Características de las TIC
Sistemas de Información

Los componentes de las TIC
Poresteban 14 octubre, 20211 junio, 2023

Los componentes de las Tecnologías de la Información y la Comunicación – TIC son los dispositivos físicos hardware, software de cómputo y tecnologías de conectividad de redes y telecomunicaciones. Estos componentes son fundamentales para el correcto funcionamiento de cualquier herramienta basada en TIC. Y cada una de estas partes desempeñan un papel único en su…

Leer más Los componentes de las TIC
Sistemas de Información

Qué son las TIC
Poresteban 14 octubre, 20211 junio, 2023

¿Qué son las TIC? Básicamente, las Tecnologías de la Información y la Comunicación son un conjunto de tecnologías de software, hardware y telecomunicaciones que facilitan el desarrollo de procesos para la generación de información y su posterior transmisión. Sin embargo, Las Tecnologías de la Información y la Comunicación o comúnmente también denominadas TIC, son un…

Leer más Qué son las TIC

Publicaciones Similares