

Archivo de Internet | |
---|---|
Tipo | ONG |
Base | 1996 |
sede | ![]() |
área de acción | Preservación digital |
Presidente | Brewster Kahle |
Lema | acceso universal a todos los conocimientos |
Sitio web | |
Sitio web del archivo de Internet | |
---|---|
URL | archivo.org/ |
tipo de sitio | Libreria digital |
Lengua | inglés |
Registro | opcional |
Lucro | No |
Creado por | Brewster Kahle |
Lanzar | mayo de 1996 |
Estado actual | activo |
Eslogan | acceso universal a todos los conocimientos |
Internet Archive es una biblioteca digital sin fines de lucro que tiene el propósito declarado de permitir el "acceso universal al conocimiento" [1] [2] . Ofrece un espacio digital permanente para el acceso a diversos tipos de recursos: por ejemplo, sitios web, audio, imágenes en movimiento (videos) y libros. El Archivo de Internet fue fundado por Brewster Kahle en 1996 y es parte del Consorcio Internacional de Preservación de Internet (IIPC ). [3] Además de su función principal de archivo, Internet Archive es una organización que lucha por una Internet libre y abierta y es una asociación sin fines de lucro.reconocido oficialmente en los Estados Unidos de América .
Las oficinas administrativas están ubicadas en San Francisco mientras que los centros de procesamiento de datos están ubicados en San Francisco, Redwood City y Mountain View , California . La colección digital más masiva de la biblioteca es el archivo web, una especie de colección de "imágenes fijas" de la World Wide Web catalogadas por fecha de adquisición. Para garantizar la estabilidad y seguridad de los datos archivados, toda la colección tiene un espejo en los servidores de la Bibliotheca Alexandrina en Alejandría, Egipto . El archivo permite al público cargar y descargar material digital desde y hacia sus servidores sin costo alguno.
También brinda acceso a uno de los proyectos de archivo de libros digitales más grandes que existen, es parte de la Asociación Estadounidense de Bibliotecas y está reconocida oficialmente por el estado de California como biblioteca pública. [4] La empresa cuenta con 200 empleados, muchos de los cuales se dedican a escanear volúmenes en papel en centros especializados. La oficina principal de San Francisco tiene treinta empleados. Internet Archive tiene un presupuesto anual de aproximadamente $ 10 millones, en gran parte derivado de una variedad de fuentes: ingresos de servicios de rastreo web , asociaciones, subvenciones, donaciones y la Fundación Kahle-Austin. [5]
Según el sitio web de Internet Archive, "muchas sociedades otorgan importancia a la preservación de artefactos relacionados con su herencia cultural. Sin estos artefactos, la civilización no tiene memoria y no tiene forma de aprender de sus éxitos y fracasos. Nuestra cultura ahora siempre produce más productos. en forma digital. La misión de Internet Archive es ayudar a preservar estos artefactos y crear una biblioteca digital en Internet para investigadores, historiadores y académicos".
Historia
Brewster Kahle fundó Internet Archive en 1996, casi al mismo tiempo que fundó la empresa Alexa Internet , una empresa dedicada a los servicios de rastreo web . Internet Archive comenzó a archivar la World Wide Web desde 1996, pero no se pudo acceder a la colección hasta 2001 , cuando se desarrolló Wayback Machine. En 1999, Internet Archive se expandió al agregar otras colecciones, incluido Prelinger Archive . Actualmente, Internet Archive incluye, entre otras cosas, texto, audio, imágenes en movimiento y software. Alberga una serie de otros proyectos, incluido un archivo de imágenes de la NASA , un servicio de indexación Archive-It y una biblioteca abierta, un catálogo de volúmenes que se pueden editar utilizando un software similar a wiki.
El 25 de marzo de 2020, a raíz de la pandemia de COVID-19 , The Internet Archive lanzó la Biblioteca Nacional de Emergencia, una iniciativa que permite el acceso gratuito en modo de texto completo a toda la colección digital que cuenta con más de 1 millón de títulos en el catálogo. [6] [7]
Proyectos
Máquina de regreso
![]() | Máquina Wayback . |
Wayback Machine es la interfaz web utilizada por Internet Archive para extraer datos de archivos en sitios web. Los sitios archivados representan una especie de "imágenes fijas" recopiladas cuando las páginas se adquieren a través del software de indexación de Internet Archive. El nombre "Wayback Machine" proviene del término " WABAC Machine " utilizado en una de las historias de la serie animada Rocky and Bullwinkle . [8] El servicio, gracias a la araña Alexa , memoriza los cambios y evoluciones de los distintos sitios web a lo largo del tiempo . Para sitios más pequeños no tiene almacenamiento en caché frecuente ,
Es un servicio útil en los siguientes casos:
- estudio de la evolución de los sitios web;
- recuperación de páginas y sitios perdidos;
- buscar evidencia una vez publicada y luego eliminada.
El servicio le permite acceder a versiones archivadas de páginas web del pasado, una especie de "archivo tridimensional" en palabras de Internet Archive. Millones de sitios web con sus respectivos datos (imágenes, texto, documentos vinculados, etc.) se almacenan en una base de datos gigante . No todos los sitios web están disponibles debido a la elección de muchos propietarios de sitios de excluir sus sitios de la indexación. Además, como ocurre con todos los sitios basados en datos de rastreadores web , faltan grandes áreas de la web por diversas razones técnicas. A lo largo de los años finalmente se han encontrado varios problemas legales relacionados con el archivo y la cobertura o no de los sitios, aunque estos no son el resultado de acciones deliberadas. [9]
El uso del término "Wayback Machine" en el contexto de Internet Archive se ha vuelto tan común que "Wayback Machine" e "Internet Archive" se han convertido casi en sinónimos en la cultura de masas ; por ejemplo, en la serie de televisión Law & Order: Criminal Intent (en el episodio "Legacy", emitido por primera vez el 3 de agosto de 2008, titulado Virtual love en la contraparte italiana), uno de los protagonistas del episodio utiliza el "Wayback Machine" para encontrar una copia archivada de un sitio web. Las "instantáneas" de los sitios archivados durante los diversos pasajes del rastreador se vuelven públicamente accesibles generalmente después de 6 a 18 meses.
Ejemplos de sitios web archivados por Internet Archive y vistos a través de Wayback Machine:
- Internet Archive ( archivo recursivo )
- Wikipedia , en web.archive.org .
- Google , en web.archive.org .
Internet Archive utiliza el protocolo Estándar de Exclusión de Robots (a través del archivo robots.txt ) para la exclusión voluntaria de sitios de su base de datos. Internet Archive respeta las directivas del archivo robots.txt asegurándose de que sus bots no indexen las páginas. Por esta razón, Internet Archive ha hecho que varios sitios web no estén disponibles y que sean completamente inaccesibles a través de Wayback Machine. En caso de sitios bloqueados, solo se almacena el archivo robots.txt .
Internet Archive aplica las reglas de robots.txt de forma retroactiva: si un sitio bloquea la araña de Internet Archive a través del archivo robots.txt, entonces todas las páginas que ya archivó el dominio dejarán de estar disponibles. Además, se reserva el mismo comportamiento para todos los sitios web que lo soliciten explícitamente: por esta razón, cada vez que el propietario de un sitio solicita que se lo excluya del índice, accede a la solicitud [10] , no siendo "Internet Archive". [...] interesados en preservar u ofrecer acceso a sitios web u otros documentos en Internet propiedad de personas que no quieren que sus materiales estén en nuestra colección". [11]
Por ejemplo, la dirección https://web.archive.org/*/https://www.ubuntu-it.org , muestra las copias de búsqueda de la página
- https://www.ubuntu-it.org ,
- dividido según la fecha de guardado en Internet Archive.
biblioteca abierta
Open Library , cuyos fundadores también incluyen al activista digital Aaron Swartz [12] , es una biblioteca digital creada con el objetivo de recopilar fichas de todos los libros publicados y catalogarlos en una única base de datos; una especie de versión de código abierto de WorldCat , creada en contraste con el proyecto de digitalización de Google Books [13] (en italiano, Google Books ). El proyecto nació en 2007 e incluye unos pocos millones de fichas de catálogo y libros digitalizados de dominio público que son totalmente accesibles y descargables. [14] Open Library es un proyecto basado en software libre y de código abierto, el código fuente es completamente accesible desde el sitio de referencia. A partir de junio de 2010, Open Library también ofrece un servicio de préstamo de libros electrónicos llevado a cabo en colaboración con el distribuidor estadounidense de contenido digital OverDrive y las bibliotecas estadounidenses [15] .
Archive-It
Desarrollado en 2006, Archive-It es un servicio que permite a instituciones y entidades individuales construir y preservar colecciones de material digital. [16] A través de una aplicación web, los suscriptores del servicio pueden recopilar, catalogar, indexar y, en el transcurso de 24 horas, acceder al archivo en su totalidad. Las colecciones están alojadas en servidores de Internet Archive y son accesibles al público a través de búsquedas de texto completo . Todo el material digital se mantiene por duplicado (uno primario y otro de respaldo ), se indexa periódicamente en el archivo general de Internet Archive y se puede enviar una copia de los datos a los suscriptores que lo soliciten. A partir de 2009 Archive-It cuenta con 125 instituciones asociadasen 42 estados americanos y 11 países para un total de 1.500 millones de URL y 963 colecciones públicas. Las instituciones que se han suscrito al servicio Archive-It son en su mayoría bibliotecas universitarias y universitarias , archivos estatales, instituciones federales, museos y organizaciones culturales, incluida la Organización de Literatura Electrónica , los Archivos del Estado de Carolina del Norte , la Comisión de Bibliotecas y Archivos del Estado de Texas , Stanford University , la Biblioteca Nacional de Australia , el Grupo de Bibliotecas de Investigación (RLG) y muchos otros.
Imágenes de la NASA
El proyecto Imágenes de la NASA se creó gracias a un Acuerdo de la Ley Espacial entre Internet Archive y la NASA para hacer que los archivos de imágenes, videos y audio producidos por la agencia a lo largo de los años sean accesibles al público a través de un único archivo completamente indexado y utilizable a través de búsquedas. El sitio web se lanzó en julio de 2008 y ha llegado a contener más de 100.000 archivos.
Colecciones de recursos multimedia
Además de los archivos web, Internet Archive mantiene grandes colecciones de activos multimedia digitales reconocidos, por quienes los subieron al sitio, en el dominio público en los Estados Unidos o distribuidos con una licencia que permite la redistribución gratuita, como las licencias Creative Commons . . Los activos se clasifican según el tipo de soporte (imágenes en movimiento, audio, texto) y en otras subclasificaciones según diversos criterios.
colección de imágenes en movimiento
La colección de imágenes en movimiento de Internet Archive incluye: noticieros; dibujos animados clásicos; propaganda de guerra; el Archivo Prelinger , un archivo especial que contiene material considerado "efímero", como películas patrocinadas por empresas y organizaciones, películas educativas y películas caseras, anuncios y otro material cuyos derechos de autor han expirado. Las colecciones de recursos digitales son muchas y varían según el tema y la fuente de recuperación; la colección brickfilm , por ejemplo, contiene numerosas películas stop-motion rodadas con ladrillos Lego; otra colección se refiere a las elecciones presidenciales estadounidenses de 2004 y la campaña electoral relacionada. La colecciónIndependent News incluye varias colecciones, incluida la del concurso World At War de Internet Archive de 2001 , para el cual los concursantes crearon cortometrajes para demostrar la importancia del acceso a la información y la historia. El archivo sobre el atentado a las Torres Gemelas del 11 de septiembre de 2001 contiene material de archivo producido por las principales cadenas de televisión mundiales sobre el hecho y retransmitido en directo ese día.
Película
En las colecciones de películas también hay versiones originales de películas famosas, que incluyen:
- el club de los 39
- El acorazado Potemkin
- El nacimiento de una nación
- lirio roto
- El siglo del yo
- Farsa
- revuelta de colombia
- dos horas mas
- En el agarre de los rieles
- El Gabinete del Doctor Caligari
- Lo que se debe y lo que no se debe hacer en las citas
- Desvío
- Agachate y cubrete
- Escapar de Sobibor
- Isabel de Inglaterra
- Cómo gané la guerra
- Rapacidad
- Cáñamo para la victoria
- Intolerancia
- el mocoso
- viaje a la luna
- Labios mentirosos [ poco claro ]
- M - El monstruo de Düsseldorf
- El hombre que sabía demasiado
- Manos: Las manos del destino
- Consentimiento de fabricación: Noam Chomsky y los medios
- Noche de los muertos vivientes
- Nosferatu the Vampire (no es de dominio público fuera de los Estados Unidos)
- Plano 9 del espacio exterior
- El poder de las pesadillas (no en el dominio público)
- Corbata shan gong zhu
- Locura por el porro
- locura sexual
- señora lou
- El triunfo de la voluntad
- Los siete episodios de Why We Fight
colección de audio
La colección de audio incluye música, audiolibros, noticias, transmisiones de radio antiguas y una gran variedad de otros archivos de audio. La colección Live Music Archive incluye más de 50,000 grabaciones de conciertos de artistas independientes y establecidos y conjuntos musicales que tienen regulaciones laxas sobre la grabación de sus conciertos, como Grateful Dead y Smashing Pumpkins .
colección de textos
La colección incluye textos de libros digitalizados de varias bibliotecas de todo el mundo, así como muchas colecciones especiales. Internet Archive tiene 23 centros de escaneo en cinco países, digitalizando aproximadamente 1 000 libros por día, financiados por bibliotecas y fundaciones. [17] En noviembre de 2008, cuando había alrededor de 1 millón de textos, la colección completa ocupaba alrededor de 0,5 petabytes , incluidas imágenes sin procesar, archivos PDF, OCR y datos sin procesar. [18]
Entre 2006 y 2008 Microsoft Corporation colabora con Internet Archive a través de su proyecto Live Search Books , escaneando más de 300.000 libros que se han sumado a la colección, así como apoyo económico y equipos de escaneo. El 23 de mayo de 2008, Microsoft anunció que pondría fin al proyecto Live Book Search y al escaneo de nuevos libros. [19] Microsoft puso a disposición los libros escaneados sin restricciones contractuales y donó su equipo de escaneo a su antiguo socio .
En octubre de 2007, los usuarios de Internet Archive comenzaron a cargar libros de dominio público de Google Books . [20] Desde enero de 2010, se han recopilado 900.000 libros escaneados por Google , lo que representa más de la mitad del total de libros disponibles en archive.org. Los libros son idénticos a las copias que se encuentran en Google y están disponibles para su uso y descarga ilimitados , como todos los materiales de Internet Archive.
Internet Archive es miembro de Open Book Alliance , una organización que ha sido de las más críticas con el acuerdo entre la American Publishers Association y Google para la digitalización de libros.
En 2016, también tras el escándalo de las elecciones presidenciales , Internet Archive inició una colaboración con versiones de Wikipedia en varios idiomas, desarrollando un programa para reemplazar automáticamente los enlaces rotos en las plantillas de citas. En su reemplazo, Internet Archive Bot [21] inserta la URL de la copia digital de la fuente en Internet Archive, con una vista previa de dos páginas para contextualizar la cita. [22]
Nota
- ^ Preguntas frecuentes de Internet Archive Archivado el 15 de abril de 2013 en Wikiwix .
- ^ Archivo de Internet : acceso universal a todo el conocimiento Archivado el 13 de octubre de 2013 en Internet Archive .
- ^ Miembros Archivado el 13 de junio de 2010 en Internet Archive . (Consorcio Internacional para la Preservación de Internet)
- ^ " Internet Archive oficialmente una biblioteca" Archivado el 1 de septiembre de 2016 en Wikiwix. El 2 de mayo de 2007 .
- ^ CabinetMagazine.org Archivado el 19 de marzo de 2013 en Internet Archive .
- ^ Palmer Haasch, The Internet Archive lanzó una biblioteca pública digitalizada sin esperas de más de 1 millón de libros que normalmente solo están disponibles para escuelas y bibliotecas , su insider.com .
- ^ Anunciando la Biblioteca Nacional de Emergencia , en archive.org . Consultado el 26 de marzo de 2020 ( archivado el 26 de marzo de 2020) .
- ^ Brezo verde , _Una biblioteca tan grande como el mundo: Brewster Kahle tiene la tecnología para ensamblar el archivo definitivo del conocimiento humano. ¿Qué lo detiene? Leyes restrictivas de derechos de autor, Business Week Online, 28 de febrero de 2002. Consultado el 25 de junio de 2007 ( archivado el 1 de junio de 2002) .
- ^ Thelwall , M. y Vaughan, L. (2004). ¿Una historia justa de la Web? Examen del equilibrio del país en Internet Archive, Library & Information Science Research , 26 (2), 162-176.
- ^ Algunos sitios no están disponibles debido a Robots.txt u otras exclusiones . Archivado el 15 de abril de 2011 en Internet Archive .
- ^ ¿Cómo puedo eliminar las páginas de mi sitio de Wayback Machine ? Archivado el 10 de octubre de 2013 en Internet Archive .
- ^ Aaron Swartz El proyecto de biblioteca abierta , en openlibrary.org . Consultado el 2 de mayo de 2019 ( archivado el 27 de junio de 2015) .
- ^ Antonio Gonsalves , _Internet Archive reclama avances contra la iniciativa de bibliotecas de Google, InformationWeek, 20 de diciembre de 2006. Consultado el 5 de enero de 2007 ( archivado el 14 de octubre de 2007) .
- ^ ( ES ) La biblioteca abierta hace su debut en línea, Chronicle of Higher Education, The Wired Campus, 19 de julio de 2007. Consultado el 26 de enero de 2013 (archivado desde el original el 30 de septiembre de 2007) .
- ^ Pequeños movimientos: la biblioteca abierta integra el préstamo digital , en blog.openlibrary.org . Consultado el 26 de enero de 2013 .
- ^ Stefanie Olsen, Preserving the Web one group at a time , CNet News.com, 1 de mayo de 2006.
- ^ Books Scanning to be Publicly Funded Archivado el 24 de septiembre de 2009 en Internet Archive . Anuncio de Brewster Khale, 23 de mayo de 2008.
- ^ " Acceso masivo a OCR para 1 millón de libros" Archivado el 6 de diciembre de 2008 en Internet Archive , vía Open Library Blog, por raj, 24 de noviembre de 2008.
- ^ " Búsqueda de libros terminando" Archivado el 20 de agosto de 2008 en Internet Archive . , Live Search Blog. Anuncio oficial de Microsoft. Último acceso 23 de mayo de 2008.
- ^ Google Books en Internet Archive . Archivado el 3 de octubre de 2013 en Internet Archive .
- ^ También puede consultar la discusión IABot blue linking to Internet archive books del 14 de noviembre de 2019, presente en la versión en inglés de Wikipedia
- ^ The Internet Archive Is Making Wikipedia More Reliable , en wired.com , 11 de marzo de 2019. Consultado el 24 de noviembre de 2019 ( archivado el 24 de noviembre de 2019) .
Artículos relacionados
- proyecto Gutenberg
- Archivo web
- Preservación digital
- PANDORA
- cita web
- rastreador web
- Internet 3.0
- hathiconfianza
Otros proyectos
Wikimedia Commons contiene imágenes u otros archivos en Internet Archive
enlaces externos
- ( EN ) Sitio oficial , en archive.org .
- ( ES ) Blog oficial , en blog.archive.org .
- Internet Archive (canal), en YouTube .
- ( ES ) Internet Archive , en GitHub .
- ( EN ) Internet Archive , en MusicBrainz , MetaBrainz Foundation.
- Brewster Kahle, Archiving the Internet , en Scientific American , marzo de 1997 (archivado desde el original el 11 de octubre de 1997) .
- Leonard Berberi, The Ark of Memory , en Corriere della Sera (archivado desde el original el 22 de julio de 2014) .
- ( ES ) Guía para consultar recursos en Internet Archive , en WikiHow .
- Otros proyectos y recursos
- ( ES ) Servicio de captura y archivo de páginas de Internet , en archive.is .
- ( EN ) Servicio de archivo e investigación avanzada de publicaciones científicas , en datacite.org .
- ( EN ) Informe del laboratorio de innovación de la biblioteca de Harvard , en perma.cc .
- ( EN ) Servicio de archivo de material científico y educativo en webcitation.org .
- ( EN ) US NDIIPP y negociación de contenido , en mementoweb.org . (servicio de búsqueda avanzada)
- ( ES ) Las 11 mejores alternativas de Wayback Machine en 2017 para consultar el historial de los sitios web , en pingzic.net . Consultado el 13 de mayo de 2018 (archivado desde el original el 13 de mayo de 2018) .
control de autoridad | VIAF ( EN ) 123343900 ISNI ( EN ) 0000 0004 9260 2112 LCCN ( EN ) N2001062537 GND ( DE ) 1222513323 BNF ( FR ) CB170635025 ( datos ) J9U ( EN , HE ) 987007594621105171 ( TEMA ) _ _ _ _ |
---|
![]() |