En este Día Mundial de la Preservación Digital, se invitó al DPC a realizar una presentación sobre preservación digital y cambio climático en la RIPDASA. Esta entrada del blog es una transcripción de la presentación que realicé. Un enorme agradecimiento a William Kilbride por escribir la versión original para mí en inglés, y a Jenny Mitcham y Michael Popham por acompañarme y prestarme su experiencia en el seminario web. Gracias tambien, como siempre, a la RIPDASA por la oportunidad y la cálida bienvenida. Siempre es un placer trabajar juntos.
Al principio ... El Manual de Preservación Digital describe la preservación digital como "la serie de actividades gestionadas necesarias para garantizar el acceso continuo a los materiales digitales durante el tiempo que sea necesario".
Esto no significa mantener "todo en todas partes y para siempre".
Hablamos de preservación, pero eso también implica que podemos eliminar cosas. Por lo tanto, para reducir tu huella digital, escribe una política que defina qué necesitas realmente conservar.
Sin embargo, el tamaño de un conjunto de datos no indica directamente su impacto ambiental. La preservación digital implica acceso a materiales digitales, pero no especifica qué tipo de acceso: eso depende de ti.
A menudo pensamos que acceder a archivos digitales significa hacerlo en línea, pero ¿qué pasa si diseñamos el acceso pensando solo en la cantidad de carbono que se consume? ¿Es mejor, desde el punto de vista ambiental, proporcionar acceso inmediato por Internet o un acceso más lento mediante la transferencia física de materiales?
Miremos los servicios de streaming como Netflix o Amazon. Han crecido muy rápido, pero lo sorprendente es que han mantenido o incluso reducido sus emisiones de carbono. En 2020, se estimó que una hora de streaming en Europa consumía unos 55 g de CO2, y la variable más importante era el tamaño de la pantalla. Con la misma cantidad de CO2, un coche podría moverse 250 metros.
Este ejemplo muestra que podemos tomar decisiones en cada etapa de la preservación digital, y cada una afecta la huella de carbono.
Ahora llegamos a la preservación digital como una forma práctica de sostenibilidad. En la DPC usamos los Objetivos de Desarrollo Sostenible de la ONU como guía cuando hablamos de sostenibilidad, especialmente en relación con datos científicos y resiliencia cultural.
Datos
El ejemplo más claro de la relación entre preservación digital y los objetivos de desarrollo sostenible está en las ciencias ambientales. Los datos medioambientales están involucrados en casi la mitad de los Objetivos de Desarrollo Sostenible.
Por ejemplo, los datos científicos han mostrado la crisis climática, y el analisis de esos datos es la base para los objetivos de política pública que intentamos cumplir. Aquí hay un estudio de las emisiones de CO2 desde 1750 hasta ahora. El Acuerdo de París compromete a los gobiernos a “cero emisiones netas” para 2050, para limitar el aumento de la temperatura global a 1.5 grados para finales de 2100. Un objetivo intermedio es reducir las emisiones en un 50% para 2030.
Podemos debatir sobre la eficacia de estos objetivos y el compromiso real detrás de ellos: sabemos que China y Rusia han retrasado sus compromisos hasta 2060 y la India hasta 2070 . Esto es importante porque China, India y Rusia son los mayores productores de CO2, en primer, tercer y cuarto lugar respectivamente.
El Reino Unido está en el puesto 20 de los mayores productores de carbono y se estima que produjo 318.6 millones de toneladas de CO2 en 2022. En comparación, México está en el puesto 12 y produjo alrededor de 511.1 millones de toneladas de CO2 en el mismo año.
De todos modos, el Reino Unido comenzó la revolución industrial temprano, en parte por su fácil acceso a grandes reservas de carbón, y ya producía alrededor de 10 millones de toneladas de CO2 por año en 1750. Por eso, el total acumulado de CO2 producido en el Reino Unido es enorme. Esto es importante cuando vemos los desequilibrios de riqueza entre los que han causado la crisis climática y los que sufren más directamente.
Sin embargo, no se trata de una cuestión política.
Volvamos a la preservación digital: los datos son esenciales para la política y la planificación. No podemos responder a la crisis climática sin datos de investigación bien documentados y fundamentados. Las políticas públicas importantes a nivel mundial se basarán en estos datos y afectarán todos los aspectos de nuestras vidas y las de nuestros hijos y nietos. Los datos fiables, bien documentados y reutilizables sobre el cambio climático no son una idea de último momento. Serán una necesidad.
Pero la preservación digital no solo trata de datos científicos. También es importante para conservar el patrimonio cultural, especialmente en lugares amenazados por el daño ambiental.
Por ejemplo, en las islas del Pacífico, la preservación digital ayuda a conservar la cultura de comunidades que enfrentan un futuro incierto debido al aumento del nivel del mar.
PARADISEC (Archivo Regional y del Pacífico para Fuentes Digitales en Culturas en Peligro de Extinción) es un archivo digital que guarda registros de muchas pequeñas culturas e idiomas del Pacífico. Han creado modelos para asegurar que las comunidades puedan acceder a estos archivos.
Más de 2000 de los 6000 idiomas del mundo se hablan en Australia, las islas del Pacífico Sur y el sudeste asiático. En el próximo siglo, este número podría reducirse a unos pocos cientos. La mayoría de estos idiomas y sus expresiones culturales (como música y danza) están mal documentados. Incluso en los idiomas que se han empezado a documentar, muchas expresiones culturales (como canciones y rituales) nunca se han estudiado.
El archivo tiene alrededor de 16,000 horas de grabaciones de audio y 2,800 horas de video que podrían haberse perdido, incluyendo actuaciones, narraciones, cantos y otras tradiciones orales. Esto equivale a más de 220 terabytes y representa 1,370 idiomas, principalmente del Pacífico.
Casi toda la población del Pacífico podría verse gravemente afectada por el aumento del nivel del mar. Alrededor de 3 millones de isleños viven a menos de 10 km de la costa y podrían necesitar reubicarse antes de fin de siglo. La cadena de islas de Kiribati tiene una elevación media de 1.8 metros sobre el nivel del mar. Cualquier aumento significativo en el nivel del mar hace que estas islas y sus culturas sean muy vulnerables, por lo que las grabaciones deben preservarse.
Por lo tanto, es genial ver que el equipo detrás del proyecto está haciendo una investigación y desarrollo increíbles para asegurar la preservación de este contenido. Han trasladado la colección al formato RO-Crate y la han almacenado en Amazon S3. RO-Crate es un estándar que hace que los artículos sean más duraderos y menos dependientes de un catálogo que podría fallar. Cada vez que se guarda una entrada de catálogo, se escribe una nueva versión de RO-Crate para mantenerla actualizada.
Además, los metadatos integrados permiten distribuir la colección a través de redes de muy bajo ancho de banda. Han demostrado un flujo de trabajo en el que cargan elementos de la colección PARADISEC en un ordenador de baja potencia, un Raspberry Pi, que incluye un transmisor wifi y usa muy poca energía. Luego, se puede generar un simple archivo HTML como un catálogo que se puede ver en un teléfono móvil, usando una señal local del Raspberry Pi, sin necesidad de Internet. Estas adaptaciones inteligentes mejoran el acceso y la preservación.
¿Qué no te gusta? Son prácticas de preservación digital avanzadas que protegen el patrimonio cultural amenazado por el aumento del nivel del mar.
La preservación digital también consume energía y puede contribuir a las emisiones. Por eso, debemos monitorear y reducir esas emisiones cuando sea posible y encontrar formas de compensarlas. Si nuestros gobiernos se comprometen a alcanzar cero emisiones netas para 2050, nosotros también deberíamos estar preparados.
Quiero compartir unos ejemplos de cómo puedes empezar a progresar, basados en lo que otros están haciendo:
- Contabilidad del carbono: Discutiré cómo se calcula y atribuye el carbono en las empresas.
- La Nube: Examinaré las afirmaciones sobre la Nube y su impacto ambiental.
- Preservación digital: Señalaré algunos recursos útiles que aplican estas lecciones a nuestro trabajo.
- Aunque no es una revisión completa, el sector de la preservación digital ha reconocido este problema y están surgiendo recomendaciones prácticas.
Primero, si no has visto esto antes, hay un lenguaje emergente en la contabilidad para calcular y atribuir emisiones a las empresas. No está directamente relacionado con la preservación digital, pero es útil entender la terminología porque es el lenguaje de la gestión y los informes.
Los contadores calculan las emisiones de la industria en tres categorías o “alcances” y hay calculadoras en línea que permiten calcular las emisiones totales según ciertas actividades.
- Alcance Uno son emisiones directas de fábricas, oficinas o vehículos. Incluye cualquier cosa que genere emisiones, como calefacción de gas o motores de gasolina. Por ejemplo, puede reducir las emisiones viajando menos o usando vehículos eléctricos; o reemplazando una caldera de gas por una más eficiente o eléctrica, o mejorando el aislamiento de la oficina.
- Alcance Dos son emisiones indirectas que se pueden controlar, pero que ocurren en otros lugares, como la electricidad que compras. Para la preservación digital, esto es importante porque probablemente compras energía de la red. Reducir estas emisiones es más difícil, pero posible: puede cambiar a energías renovables o trabajar de manera más eficiente para reducir el consumo total de energía. Cambiar algunos flujos de trabajo de preservación digital puede afectar las emisiones de Alcance Dos. Aunque la diferencia puede ser pequeña, es importante en un sector que crece rápidamente.
- Alcance Tres: Todas las demás emisiones relacionadas con tu trabajo, antes y después de ti. Esto incluye viajes de negocios, desplazamientos de empleados, servicios contratados, gastos de capital y otros tipos de consumo de energía, incluso inversiones y pensiones. Estas emisiones son difíciles de rastrear y controlar, y los límites son difíciles de definir. Puede haber doble contabilidad o transferencias de responsabilidad entre agencias.
Animation
En general, la preservación digital se encuentra entre el Alcance Dos y el Alcance Tres. Si el trabajo es local, con almacenamiento de datos in situ y flujos de trabajo en equipos que controlas, el énfasis está en el Alcance Dos. Si trabaja en un entorno de nube con almacenamiento externo y flujos de trabajo en servidores remotos, es el Alcance Tres.
Llegaremos a las implicaciones para los servicios en la nube en un momento, pero hay dos problemas que enfrenta la preservación digital que debemos reconocer.
Primero, nuestros volúmenes de datos están creciendo. Esto significa que nuestro desafío no es solo reducir las emisiones mientras crecemos, lo cual es difícil. Mantenerse igual ya es un reto, y no nos llevará a cero emisiones netas.
Segundo, aunque la selección y evaluación ayudan a largo plazo, los factores que impulsan el crecimiento de los datos están fuera de nuestro control. Hasta que tratemos con los creadores de datos, no podemos hacer mucho para reducir los volúmenes de datos antes de la ingesta. Podemos comprometernos más con la selección y evaluación, pero eso también puede aumentar nuestras emisiones a corto plazo.
Por lo tanto, la preservación digital es responsable de las emisiones que genera, pero no puede controlar la cantidad de datos que se producen.
Ahora veamos las emisiones de alcance tres en la preservación digital usando la computación en la nube. Este análisis se basa en el trabajo de Matthew Addis de Arkivum, quien ha compartido sus ideas con la DPC.
Cuando los contadores hablan de emisiones, se refieren principalmente al dióxido de carbono y a seis gases de efecto invernadero, pero no incluyen otros impactos ambientales como el consumo de agua o la contaminación acústica.
La energía es un cálculo grande y fácil de hacer, especialmente para grandes empresas como Amazon o Google, que pueden influir en la combinación energética disponible. Amazon tiene más de 500 proyectos de energía eólica y solar en todo el mundo y planea usar 100% energía renovable para 2025. Google Cloud permite a los usuarios elegir una región de la nube según el precio, la latencia y la intensidad de carbono, ofreciendo opciones de almacenamiento de datos más limpias a cambio de una conexión más lenta o un precio más alto.
Estas cifras se utilizan para calcular las emisiones brutas y netas de los servicios de preservación digital.
Arkivum informa que las emisiones brutas para almacenar un petabyte de datos de imagen son aproximadamente 7.8 toneladas de CO2 y para la ingesta son 1.6 toneladas. Para un conjunto de datos más pequeño, como 1 millón de documentos de Microsoft Office, el almacenamiento es mucho menor, alrededor de 5.5 kg de CO2, pero la ingesta es de aproximadamente 40 kg.
Esto muestra diferencias importantes entre las etapas de ingesta y almacenamiento para diferentes tipos de datos:
- Ingestar un conjunto de datos muy grande pero uniforme produce mucho menos carbono que almacenarlo durante un año, aproximadamente 5 veces menos.
- Ingestar un conjunto de datos más pequeño pero variado genera mucho más carbono que almacenarlo, aproximadamente 25 veces más.
Sin embargo, como Arkivum almacena y procesa sus datos con una configuración de carbono cero en la nube de Google, las emisiones netas son cero. Así que todo se convierte en un ejercicio teórico.
Esto suena como una buena noticia, y ciertamente lo es. Arkivum nos anima a entender lo que esto significa realmente para las emisiones. También necesitamos entender las emisiones incorporadas asociadas con la infraestructura de TI.
El estandare ISO 14040 describe cómo evaluar el ciclo de vida de productos y servicios: la energía usada durante el funcionamiento de los equipos es solo una parte del panorama. La energía también se usa para crear y desmantelar las plataformas en la nube, lo que genera emisiones. Estos costos del ciclo de vida son difíciles de precisar y no se incluyen en la evaluación del uso de energía de los proveedores de la nube.
Puede abordar esta cuestión observando los costos del ciclo de vida de los equipos individuales y haciendo conjeturas informadas. Por ejemplo, Dell proporciona información sobre los servidores que fabrican y el carbono incorporado en los discos de almacenamiento. Pero es difícil ver dentro de un centro de datos y ser preciso sobre las herramientas y servicios utilizados. No está claro con qué frecuencia se reemplazan los servidores y qué proporciones se reciclan.
La cuestión es que las emisiones netas del uso de energía pueden reducirse a cero comprando energía verde, pero la huella de carbono incorporada no puede reducirse de la misma manera. Por lo tanto, existen soluciones para las emisiones de las operaciones de los centros de datos, pero no podemos controlar los costos incorporados. Ahí es donde debe estar nuestra atención.
Hasta ahora, esta presentacion ha sido general y no ha tratado sobre las prácticas de trabajo de preservación digital. Antes de terminar, quiero compartir ejemplos de trabajos actuales que aplican estos conceptos a la preservación digital práctica.
- El primer trabajo importante sobre preservación digital y sostenibilidad ambiental fue en 2019 por Keith Pendergrass y otros. Argumentaron que la preservación digital debe tomar más en serio los asuntos ambientales. Ofrecieron sugerencias para reducir los impactos negativos usando tecnología, como la evaluación, permanencia y disponibilidad. También invitaron a debatir sobre niveles aceptables de pérdida, número de copias redundantes, formatos de archivo, y comprobación de integridad y autenticidad. No dieron respuestas específicas, pero presentaron una lista de preguntas útiles.
- En 2022, Alex Kinnaman y Alan Munshower desarrollaron estas preguntas y las aplicaron a la preservación digital en Virginia Tech, los Estados Unidos. Evaluaron la cantidad de electricidad usada en procesos como la creación de valores ‘hash’ y decisiones sobre servidores y almacenamiento. Esto les permitió hacer recomendaciones precisas: reducir los controles de fijeza de 90 a 120 días y usar diferentes estrategias de muestreo para reducir el consumo de energía. También propusieron archivos de menor resolución y tamaño.
- Kinnaman y Munshower hablaron sobre el consumo de energía, pero no sobre el carbono incorporado, que es difícil de controlar. En 2021, la Red Holandesa de Patrimonio Digital incluyó el carbono incorporado en sus cálculos y lanzó una campaña para alertar a las agencias y fomentar un mejor intercambio de información.
- Finalmente, el proyecto DIMPACT está examinando la huella de carbono y la sostenibilidad de la preservación digital desde otro ángulo. Comenzó en la industria de la impresión, ayudando a las grandes corporaciones de noticias y publicaciones a evaluar y mejorar su desempeño ambiental. Esto llevó a analizar los impactos ambientales de la publicación electrónica. Recientemente, se ha hecho una evaluación detallada de las emisiones de la preservación de revistas electrónicas, específicamente el servicio CLOCKSS, que puede aplicarse de manera más general.
Creo que Jenny esta compartiendo estos enlaces en el chat...y puedo compartir estas diapositivas para que puedas acceder a estos enlaces.
Y estoy seguro de que hay informes en español que también podemos traducir y de los que podemos aprender.
En resumen, ¿que podemos hacer?
Podemos...
- Preservar menos: Desarrollar mejores métodos de selección para saber qué realmente necesitamos preservar y qué no.
- Aumentar la eficiencia: Usar plataformas compartidas para archivos comunitarios y reducir la duplicación innecesaria entre departamentos y instituciones.
- Aceptar limitaciones: No todo se puede preservar. Debemos aceptar la “negligencia benigna” y evitar el “pánico moral” por no hacer lo suficiente.
- Hacer menos con los contenidos: Ser más cuidadosos y selectivos con lo que preservamos
- Cambiar expectativas de acceso: No necesitamos acceso inmediato a todo en todas partes. Podemos ser más flexibles con el acceso.