Sarah Middleton

Sarah Middleton

Last updated on 25 November 2024

[An English version follows]

En este Día Mundial de la Preservación Digital, se invitó al DPC a realizar una presentación sobre preservación digital y cambio climático en la RIPDASA. Esta entrada del blog es una transcripción de la presentación que realicé. Un enorme agradecimiento a William Kilbride por escribir la versión original para mí en inglés, y a Jenny Mitcham y Michael Popham por acompañarme y prestarme su experiencia en el seminario web. Gracias tambien, como siempre, a la RIPDASA por la oportunidad y la cálida bienvenida. Siempre es un placer trabajar juntos. 

Al principio ... El Manual de Preservación Digital describe la preservación digital como "la serie de actividades gestionadas necesarias para garantizar el acceso continuo a los materiales digitales durante el tiempo que sea necesario".

Esto no significa mantener "todo en todas partes y para siempre".

Hablamos de preservación, pero eso también implica que podemos eliminar cosas. Por lo tanto, para reducir tu huella digital, escribe una política que defina qué necesitas realmente conservar.

Sin embargo, el tamaño de un conjunto de datos no indica directamente su impacto ambiental. La preservación digital implica acceso a materiales digitales, pero no especifica qué tipo de acceso: eso depende de ti.

A menudo pensamos que acceder a archivos digitales significa hacerlo en línea, pero ¿qué pasa si diseñamos el acceso pensando solo en la cantidad de carbono que se consume? ¿Es mejor, desde el punto de vista ambiental, proporcionar acceso inmediato por Internet o un acceso más lento mediante la transferencia física de materiales?

Miremos los servicios de streaming como Netflix o Amazon. Han crecido muy rápido, pero lo sorprendente es que han mantenido o incluso reducido sus emisiones de carbono. En 2020, se estimó que una hora de streaming en Europa consumía unos 55 g de CO2, y la variable más importante era el tamaño de la pantalla. Con la misma cantidad de CO2, un coche podría moverse 250 metros.

Este ejemplo muestra que podemos tomar decisiones en cada etapa de la preservación digital, y cada una afecta la huella de carbono.

Ahora llegamos a la preservación digital como una forma práctica de sostenibilidad. En la DPC usamos los Objetivos de Desarrollo Sostenible de la ONU como guía cuando hablamos de sostenibilidad, especialmente en relación con datos científicos y resiliencia cultural.

Datos

El ejemplo más claro de la relación entre preservación digital y los objetivos de desarrollo sostenible está en las ciencias ambientales. Los datos medioambientales están involucrados en casi la mitad de los Objetivos de Desarrollo Sostenible.

Por ejemplo, los datos científicos han mostrado la crisis climática, y el analisis de esos datos es la base para los objetivos de política pública que intentamos cumplir. Aquí hay un estudio de las emisiones de CO2 desde 1750 hasta ahora. El Acuerdo de París compromete a los gobiernos a “cero emisiones netas” para 2050, para limitar el aumento de la temperatura global a 1.5 grados para finales de 2100. Un objetivo intermedio es reducir las emisiones en un 50% para 2030.

Podemos debatir sobre la eficacia de estos objetivos y el compromiso real detrás de ellos: sabemos que China y Rusia han retrasado sus compromisos hasta 2060 y la India hasta 2070 . Esto es importante porque China, India y Rusia son los mayores productores de CO2, en primer, tercer y cuarto lugar respectivamente.

El Reino Unido está en el puesto 20 de los mayores productores de carbono y se estima que produjo 318.6 millones de toneladas de CO2 en 2022. En comparación, México está en el puesto 12 y produjo alrededor de 511.1 millones de toneladas de CO2 en el mismo año.

De todos modos, el Reino Unido comenzó la revolución industrial temprano, en parte por su fácil acceso a grandes reservas de carbón, y ya producía alrededor de 10 millones de toneladas de CO2 por año en 1750. Por eso, el total acumulado de CO2 producido en el Reino Unido es enorme. Esto es importante cuando vemos los desequilibrios de riqueza entre los que han causado la crisis climática y los que sufren más directamente.

Sin embargo, no se trata de una cuestión política.

Volvamos a la preservación digital: los datos son esenciales para la política y la planificación. No podemos responder a la crisis climática sin datos de investigación bien documentados y fundamentados. Las políticas públicas importantes a nivel mundial se basarán en estos datos y afectarán todos los aspectos de nuestras vidas y las de nuestros hijos y nietos. Los datos fiables, bien documentados y reutilizables sobre el cambio climático no son una idea de último momento. Serán una necesidad.

Pero la preservación digital no solo trata de datos científicos. También es importante para conservar el patrimonio cultural, especialmente en lugares amenazados por el daño ambiental.

Por ejemplo, en las islas del Pacífico, la preservación digital ayuda a conservar la cultura de comunidades que enfrentan un futuro incierto debido al aumento del nivel del mar.

PARADISEC (Archivo Regional y del Pacífico para Fuentes Digitales en Culturas en Peligro de Extinción) es un archivo digital que guarda registros de muchas pequeñas culturas e idiomas del Pacífico. Han creado modelos para asegurar que las comunidades puedan acceder a estos archivos.

Más de 2000 de los 6000 idiomas del mundo se hablan en Australia, las islas del Pacífico Sur y el sudeste asiático. En el próximo siglo, este número podría reducirse a unos pocos cientos. La mayoría de estos idiomas y sus expresiones culturales (como música y danza) están mal documentados. Incluso en los idiomas que se han empezado a documentar, muchas expresiones culturales (como canciones y rituales) nunca se han estudiado.

El archivo tiene alrededor de 16,000 horas de grabaciones de audio y 2,800 horas de video que podrían haberse perdido, incluyendo actuaciones, narraciones, cantos y otras tradiciones orales. Esto equivale a más de 220 terabytes y representa 1,370 idiomas, principalmente del Pacífico.

Casi toda la población del Pacífico podría verse gravemente afectada por el aumento del nivel del mar. Alrededor de 3 millones de isleños viven a menos de 10 km de la costa y podrían necesitar reubicarse antes de fin de siglo. La cadena de islas de Kiribati tiene una elevación media de 1.8 metros sobre el nivel del mar. Cualquier aumento significativo en el nivel del mar hace que estas islas y sus culturas sean muy vulnerables, por lo que las grabaciones deben preservarse.

Por lo tanto, es genial ver que el equipo detrás del proyecto está haciendo una investigación y desarrollo increíbles para asegurar la preservación de este contenido. Han trasladado la colección al formato RO-Crate y la han almacenado en Amazon S3. RO-Crate es un estándar que hace que los artículos sean más duraderos y menos dependientes de un catálogo que podría fallar. Cada vez que se guarda una entrada de catálogo, se escribe una nueva versión de RO-Crate para mantenerla actualizada.

Además, los metadatos integrados permiten distribuir la colección a través de redes de muy bajo ancho de banda. Han demostrado un flujo de trabajo en el que cargan elementos de la colección PARADISEC en un ordenador de baja potencia, un Raspberry Pi, que incluye un transmisor wifi y usa muy poca energía. Luego, se puede generar un simple archivo HTML como un catálogo que se puede ver en un teléfono móvil, usando una señal local del Raspberry Pi, sin necesidad de Internet. Estas adaptaciones inteligentes mejoran el acceso y la preservación.

¿Qué no te gusta? Son prácticas de preservación digital avanzadas que protegen el patrimonio cultural amenazado por el aumento del nivel del mar.

La preservación digital también consume energía y puede contribuir a las emisiones. Por eso, debemos monitorear y reducir esas emisiones cuando sea posible y encontrar formas de compensarlas. Si nuestros gobiernos se comprometen a alcanzar cero emisiones netas para 2050, nosotros también deberíamos estar preparados.

Quiero compartir unos ejemplos de cómo puedes empezar a progresar, basados en lo que otros están haciendo:

  • Contabilidad del carbono: Discutiré cómo se calcula y atribuye el carbono en las empresas.

  • La Nube: Examinaré las afirmaciones sobre la Nube y su impacto ambiental.

  • Preservación digital: Señalaré algunos recursos útiles que aplican estas lecciones a nuestro trabajo.

  • Aunque no es una revisión completa, el sector de la preservación digital ha reconocido este problema y están surgiendo recomendaciones prácticas.

Primero, si no has visto esto antes, hay un lenguaje emergente en la contabilidad para calcular y atribuir emisiones a las empresas. No está directamente relacionado con la preservación digital, pero es útil entender la terminología porque es el lenguaje de la gestión y los informes.

Los contadores calculan las emisiones de la industria en tres categorías o “alcances” y hay calculadoras en línea que permiten calcular las emisiones totales según ciertas actividades.

  • Alcance Uno son emisiones directas de fábricas, oficinas o vehículos. Incluye cualquier cosa que genere emisiones, como calefacción de gas o motores de gasolina. Por ejemplo, puede reducir las emisiones viajando menos o usando vehículos eléctricos; o reemplazando una caldera de gas por una más eficiente o eléctrica, o mejorando el aislamiento de la oficina.

  • Alcance Dos son emisiones indirectas que se pueden controlar, pero que ocurren en otros lugares, como la electricidad que compras. Para la preservación digital, esto es importante porque probablemente compras energía de la red. Reducir estas emisiones es más difícil, pero posible: puede cambiar a energías renovables o trabajar de manera más eficiente para reducir el consumo total de energía. Cambiar algunos flujos de trabajo de preservación digital puede afectar las emisiones de Alcance Dos. Aunque la diferencia puede ser pequeña, es importante en un sector que crece rápidamente.

  • Alcance Tres: Todas las demás emisiones relacionadas con tu trabajo, antes y después de ti. Esto incluye viajes de negocios, desplazamientos de empleados, servicios contratados, gastos de capital y otros tipos de consumo de energía, incluso inversiones y pensiones. Estas emisiones son difíciles de rastrear y controlar, y los límites son difíciles de definir. Puede haber doble contabilidad o transferencias de responsabilidad entre agencias.

Animation

En general, la preservación digital se encuentra entre el Alcance Dos y el Alcance Tres. Si el trabajo es local, con almacenamiento de datos in situ y flujos de trabajo en equipos que controlas, el énfasis está en el Alcance Dos. Si trabaja en un entorno de nube con almacenamiento externo y flujos de trabajo en servidores remotos, es el Alcance Tres.

Llegaremos a las implicaciones para los servicios en la nube en un momento, pero hay dos problemas que enfrenta la preservación digital que debemos reconocer.

Primero, nuestros volúmenes de datos están creciendo. Esto significa que nuestro desafío no es solo reducir las emisiones mientras crecemos, lo cual es difícil. Mantenerse igual ya es un reto, y no nos llevará a cero emisiones netas.

Segundo, aunque la selección y evaluación ayudan a largo plazo, los factores que impulsan el crecimiento de los datos están fuera de nuestro control. Hasta que tratemos con los creadores de datos, no podemos hacer mucho para reducir los volúmenes de datos antes de la ingesta. Podemos comprometernos más con la selección y evaluación, pero eso también puede aumentar nuestras emisiones a corto plazo.

Por lo tanto, la preservación digital es responsable de las emisiones que genera, pero no puede controlar la cantidad de datos que se producen.

Ahora veamos las emisiones de alcance tres en la preservación digital usando la computación en la nube. Este análisis se basa en el trabajo de Matthew Addis de Arkivum, quien ha compartido sus ideas con la DPC.

Cuando los contadores hablan de emisiones, se refieren principalmente al dióxido de carbono y a seis gases de efecto invernadero, pero no incluyen otros impactos ambientales como el consumo de agua o la contaminación acústica.

La energía es un cálculo grande y fácil de hacer, especialmente para grandes empresas como Amazon o Google, que pueden influir en la combinación energética disponible. Amazon tiene más de 500 proyectos de energía eólica y solar en todo el mundo y planea usar 100% energía renovable para 2025. Google Cloud permite a los usuarios elegir una región de la nube según el precio, la latencia y la intensidad de carbono, ofreciendo opciones de almacenamiento de datos más limpias a cambio de una conexión más lenta o un precio más alto.

Estas cifras se utilizan para calcular las emisiones brutas y netas de los servicios de preservación digital.

Arkivum informa que las emisiones brutas para almacenar un petabyte de datos de imagen son aproximadamente 7.8 toneladas de CO2 y para la ingesta son 1.6 toneladas. Para un conjunto de datos más pequeño, como 1 millón de documentos de Microsoft Office, el almacenamiento es mucho menor, alrededor de 5.5 kg de CO2, pero la ingesta es de aproximadamente 40 kg.

Esto muestra diferencias importantes entre las etapas de ingesta y almacenamiento para diferentes tipos de datos:

  • Ingestar un conjunto de datos muy grande pero uniforme produce mucho menos carbono que almacenarlo durante un año, aproximadamente 5 veces menos.

  • Ingestar un conjunto de datos más pequeño pero variado genera mucho más carbono que almacenarlo, aproximadamente 25 veces más.

Sin embargo, como Arkivum almacena y procesa sus datos con una configuración de carbono cero en la nube de Google, las emisiones netas son cero. Así que todo se convierte en un ejercicio teórico.

Esto suena como una buena noticia, y ciertamente lo es. Arkivum nos anima a entender lo que esto significa realmente para las emisiones. También necesitamos entender las emisiones incorporadas asociadas con la infraestructura de TI.

El estandare ISO 14040 describe cómo evaluar el ciclo de vida de productos y servicios: la energía usada durante el funcionamiento de los equipos es solo una parte del panorama. La energía también se usa para crear y desmantelar las plataformas en la nube, lo que genera emisiones. Estos costos del ciclo de vida son difíciles de precisar y no se incluyen en la evaluación del uso de energía de los proveedores de la nube.

Puede abordar esta cuestión observando los costos del ciclo de vida de los equipos individuales y haciendo conjeturas informadas. Por ejemplo, Dell proporciona información sobre los servidores que fabrican y el carbono incorporado en los discos de almacenamiento. Pero es difícil ver dentro de un centro de datos y ser preciso sobre las herramientas y servicios utilizados. No está claro con qué frecuencia se reemplazan los servidores y qué proporciones se reciclan.

La cuestión es que las emisiones netas del uso de energía pueden reducirse a cero comprando energía verde, pero la huella de carbono incorporada no puede reducirse de la misma manera. Por lo tanto, existen soluciones para las emisiones de las operaciones de los centros de datos, pero no podemos controlar los costos incorporados. Ahí es donde debe estar nuestra atención.

Hasta ahora, esta presentacion ha sido general y no ha tratado sobre las prácticas de trabajo de preservación digital. Antes de terminar, quiero compartir ejemplos de trabajos actuales que aplican estos conceptos a la preservación digital práctica.

  1. El primer trabajo importante sobre preservación digital y sostenibilidad ambiental fue en 2019 por Keith Pendergrass y otros. Argumentaron que la preservación digital debe tomar más en serio los asuntos ambientales. Ofrecieron sugerencias para reducir los impactos negativos usando tecnología, como la evaluación, permanencia y disponibilidad. También invitaron a debatir sobre niveles aceptables de pérdida, número de copias redundantes, formatos de archivo, y comprobación de integridad y autenticidad. No dieron respuestas específicas, pero presentaron una lista de preguntas útiles.

  2. En 2022, Alex Kinnaman y Alan Munshower desarrollaron estas preguntas y las aplicaron a la preservación digital en Virginia Tech, los Estados Unidos. Evaluaron la cantidad de electricidad usada en procesos como la creación de valores ‘hash’ y decisiones sobre servidores y almacenamiento. Esto les permitió hacer recomendaciones precisas: reducir los controles de fijeza de 90 a 120 días y usar diferentes estrategias de muestreo para reducir el consumo de energía. También propusieron archivos de menor resolución y tamaño.

  3. Kinnaman y Munshower hablaron sobre el consumo de energía, pero no sobre el carbono incorporado, que es difícil de controlar. En 2021, la Red Holandesa de Patrimonio Digital incluyó el carbono incorporado en sus cálculos y lanzó una campaña para alertar a las agencias y fomentar un mejor intercambio de información.

  4. Finalmente, el proyecto DIMPACT está examinando la huella de carbono y la sostenibilidad de la preservación digital desde otro ángulo. Comenzó en la industria de la impresión, ayudando a las grandes corporaciones de noticias y publicaciones a evaluar y mejorar su desempeño ambiental. Esto llevó a analizar los impactos ambientales de la publicación electrónica. Recientemente, se ha hecho una evaluación detallada de las emisiones de la preservación de revistas electrónicas, específicamente el servicio CLOCKSS, que puede aplicarse de manera más general.

Creo que Jenny esta compartiendo estos enlaces en el chat...y puedo compartir estas diapositivas para que puedas acceder a estos enlaces.

Y estoy seguro de que hay informes en español que también podemos traducir y de los que podemos aprender.

En resumen, ¿que podemos hacer?

Podemos...

  • Preservar menos: Desarrollar mejores métodos de selección para saber qué realmente necesitamos preservar y qué no.

  • Aumentar la eficiencia: Usar plataformas compartidas para archivos comunitarios y reducir la duplicación innecesaria entre departamentos y instituciones.

  • Aceptar limitaciones: No todo se puede preservar. Debemos aceptar la “negligencia benigna” y evitar el “pánico moral” por no hacer lo suficiente.

  • Hacer menos con los contenidos: Ser más cuidadosos y selectivos con lo que preservamos

  • Cambiar expectativas de acceso: No necesitamos acceso inmediato a todo en todas partes. Podemos ser más flexibles con el acceso.


     

The impact of digital preservation on our carbon footprint

1. Digital preservation

So, to start at the beginning …  The Digital Preservation Handbook describes digital preservation as “the series of managed activities necessary to ensure continued access to digital materials for as long as necessary.”

This does not mean keeping ‘everything everywhere and forever’. 

We talk about preservation, but that brings implied permission to dispose. So, if you want an easy way to reduce your digital footprint, write a preservation policy about what you really need to keep. 

However, it is not true that the size of a data set is a direct measure of the size of its environmental impact. Digital preservation assumes access to digital materials, but it doesn’t specify what kind of access: that’s up to you. 

We tend to assume that access to digital archives means online access to servers, but what if we take user expectations out of the equation, and designed access purely around the amount of carbon consumed. Is it better, from an environmental perspective, to provide immediate access through the Internet or slower access by physically transferring materials on offline media? 

Let’s look at streaming services like Netflix or Amazon for comparison.  These services have grown surprisingly quickly but perhaps more surprising is that these organisations tell us that they kept their carbon emissions level or even marginally reduced them, as they have grown. 

In 2020 it was estimated that one hour of streaming television in Europe consumed something like 55g of CO2 and the largest single variable there was the size of the screen. For the same amount of CO2 emissions, you could get a car to move about 250m… 

This example shows that we can make choices at every stage in any digital preservation workflow and every one of them has an impact on the carbon footprint. 

2. Digital Preservation as Sustainability

Now we come to the question of digital preservation as a practical form of sustainability. At the DPC we use the UN’s Sustainable Development Goals as a reference when we talk about sustainability, particularly scientific data and cultural resilience. 

The most clear-cut example of digital preservation and the sustainable development goals relate to environmental sciences.  Environmental data of one form or another is implicated in almost half of the UN Sustainable Development Goals. 

For example, scientific data has described the nature of the climate crisis, and analysis of that data is the basis for the sorts of public policy goals which we are struggling to meet. Here’s a study of CO2 emissions from 1750 to the present.  The Paris agreement commits our governments to ‘net zero’ by 2050 to limit global temperature rises to 1.5 degrees by the end of 2100.  There’s a milestone towards that goal – to reduce emissions by 50% by 2030. 

One can argue about the effectiveness of these targets and the true commitment that underpins them: we know that China and Russia have pushed their commitments back to 2060 and India to 2070.  That matters because China, India and Russia are respectively the 1st, 3rd and 4th largest producers of CO2 But there’s hard data behind it (https://ourworldindata.org/co2-emissions)

The UK is 20th on the list of carbon producers and is estimated to have produced 318.6m tonnes of CO2in 2022.  In comparison, Mexico is in 12th place and produced around 511.1m tonnes of CO2 in the same year.  But the UK entered the industrial revolution early, partly because of easy access to massive reserves of coal, and the UK was already producing around 10M tonnes of CO2 per year in 1750.  So the cumulative total of CO2 produced in the UK is enormous: and that is important when we look at relative wealth imbalances between those who have essentially caused the climate crisis and those who suffer most directly.

This is not a political point though.

Let us return to digital preservation: data is central to every aspect of policy and planning. There can be no response to climate crisis without properly documented and well-founded research data.  Globally important public policy will be based on data like this and that will affect every aspect of our lives and the lives of our children and grandchildren. Trustworthy, well-documented and reusable data about the changing climate is not an afterthought. It will be a necessary.

But the scientific record is not the whole story of digital preservation. The cultural record is important too, especially in contexts where digitization has been used to conserve and sustain cultural heritage in places most threatened by environmental damage. 

For example, in the pacific islands, digital preservation is an integral part of conserving the cultural heritage of communities that face a precarious future, not least because of rising sea levels.

PARADISEC (the Pacific And Regional Archive for Digital Sources in Endangered Cultures) is a digital archive of records of some of the many small cultures and languages of the Pacific. It has developed models to ensure that the archive can provide access to interested communities.

Over 2000 of the world’s 6000 different languages are spoken in Australia, the South Pacific Islands (including around 900 languages in New Guinea alone) and Southeast Asia. Within the next century this number is likely to drop to a few hundred. The majority of these 2000 languages and their associated cultural expressions (such as music and dance) are very poorly documented. Even in those languages that have begun to be documented many of the most developed cultural expressions (such as languages of song and ritual) have never been studied.

The resulting archive amounts to around 16,000 hours of audio recordings and 2,800 hours of video recordings that might otherwise have been lost, including performance, narrative, singing, and other oral traditions. This amounts to over 220 terabytes and represents 1,370 languages, mainly from the Pacific region. 

Nearly the entire population of the Pacific is likely to be severely affected by rising sea levels. Around 3 million Pacific islanders live within 6.2 miles (10 km) of the coast and, therefore, might need to relocate before the end of the century. The island chain of Kiribati has an average elevation of around 1.8metres above sea level.  Almost any significant rise in sea levels means these islands and their cultures are incredibly vulnerable and the recordings need to be preserved. 

So, it is very good to realise that the team behind the project are doing amazing research and development to ensure the preservation of this content.  Specifically, they have recently moved the collection to Research-Object Crate (RO-Crate) format and stored the collection in Amazon Simple Storage Service (S3). RO-Crate is a standard that allows the whole collection to contain self-describing items which are more durable over time, and less reliant on a catalogue that is at risk of failure, with consequent metadata loss. Every time an item’s catalogue entry is saved, it writes a new version of the RO-Crate, to ensure that it is current.

Even better, embedded metadata makes it possible to distribute the collection over incredibly low bandwidth networks.  They have demonstrated a workflow whereby they load items from the PARADISEC collection onto a low-powered computer, known as a Raspberry Pi, which includes a Wi-Fi transmitter. A simple HTML file can then be generated as a cut-down catalogue which can be retrieved on a mobile phone, from a local signal transmitted by the Raspberry Pi, without the need of internet access. Through these clever adaptations, access and preservation are both improved.

What’s not to like? Cutting edge digital preservation practices which safeguard cultural heritage that is massively imperilled by rises in sea level.

3. Digital Preservation and the Environment        

Digital preservation also consumes energy and therefore is at risk of contributing emissions.  Therefore, we also have an obligation to monitor and reduce those emissions where possible and find meaningful way to offset them. In other words, if our governments are committed to net zero by 2050 then we should be ready for that too.

This leads to the question whether digital preservation can become a net-zero sector?

I want to share 4 different examples of where and how you can begin to make progress based on what others are doing:

I will discuss carbon accounting in board terms; I will examine claims made about the Cloud; I will step back into Digital preservation and point to some useful resources that apply this learning to our own work. 

This is not complete literature review and there may well be other examples that you know about. However, the digital preservation sector has woken up to this issue in the last few years and actionable recommendations are emerging.

3.1 Counting emissions

Firstly, if you’ve not seen this before, there is an emerging language in accountancy for the calculation and attribution of emissions to business.  It’s not exactly related to digital preservation, but because it’s the language of management and reporting, it helps to understand the terminology.

Accountants calculate the emissions from industry in three categories or ‘scopes’ and there are simple online calculators that will let you work out total emissions against certain typical activities. 

Scope One emissions come direct from a factories or offices or vehicles.  This is very important for industrial facilities, but it includes anything that might create emissions such as gas heating or petrol engines.  For example, if you run a fleet of trucks then you can reduce emissions by travelling less or adopting electric vehicles; if your office is heated, either replace the old gas boiler for more efficient one, or an electric one, or insulate the space better.

Scope Two are indirect emissions that you can mostly control but which arise elsewhere.  This is typically the electricity you purchase from a utility.  For digital preservation, this is where it gets interesting because you are likely to be purchasing energy from the grid to manage your operations.  Driving down scope two emissions is harder but still possible: assuming you have some capacity to change the energy mix that is purchased you can move to renewables; or to work more efficiently and reduce your overall energy consumption.  There is a lot of attention and guidance on this from the energy companies who are keen to upsell apparently greener products while subtly absolving themselves from any responsibility. 

Changing some of our digital preservation workflows will change the overall scope two emissions.  It’s only likely to be a very marginal difference to the overall output, but the targets are tough so marginal differences will matter in a sector that is growing rapidly. 

Scope three emissions include all the other emissions that arise in your work – upstream and downstream.  This is very hard to track and there are many different categories to consider including business travel, employee commuting, contracted services, capital expenditure, and other types of energy consumption, even investments and pensions come into scope here. 

Scope three has been a lower priority for agencies until now but it is becoming a greater issue as companies have made progress on the first two.  The are much harder to calculate and even harder to control.  Also, the boundaries are harder to define. We could end up with a lot of double counting, or with agencies passing responsibility onto others, and trying to make them pay for their own costs. 

Digital preservation typically falls between scope two and scope three.  If the work is typically on premise, with onsite data storage and workflows executed on equipment that you control, the emphasis is on Scope Two.  If you are largely working in a cloud environment with storage offsite and workflows uploaded to a server farm somewhere then it’s scope three.

We’ll come to the implications for cloud services in a moment, but there are two problems faced by digital preservation that we need to acknowledge. 

Firstly, generally, our data volumes are expanding.  That means our challenge is not only to drive down emissions in the context of growth and that’s hard.  Just standing still is a challenge, and standing still is not going to lead to net zero.

Secondly, although selection and appraisal help in the long term, the drivers for data growth are outside our control. And, until we confront data creators, there’s almost nothing we can do to reduce the data volumes pre-ingest. We can commit more and more to the selection and appraisal processes, but that work is also likely to add to our emissions in the short term. So, digital preservation is responsible for the emissions it creates, but it can’t control how much data is being produced.

3.2 Cloud preservation

Now let’s look at scope three emissions for digital preservation through the lens of cloud computing. This passage uses the analysis which Matthew Addis of Arkivum has shared with DPC audiences in the last year or so, and you can find out more about this if you are interested.  Arkivum are one of the DPC’s Supporters and a vendor of digital preservation solutions.

Firstly, when accountants talk about emissions they are talking about a particular element of environmental impacts, and explicitly not about others.  So typically, the conversation covers carbon dioxide but it is often interpreted to include six of the most polluting greenhouse gases, but explicitly not other things.  Water consumption, noise pollution and other disruptions to the natural environment are not included and we know that these have been real issues. 

But energy is a big and easy calculation to make especially for the multinational organisations like Amazon or Google who are large enough to impact, and in some cases define the energy mix available.  Amazon has more than 500 wind and solar energy plants and projects globally and their stated target is to reach 100% renewable energy by 2025.  Google cloud allows users to select a cloud region based on price, latency and carbon intensity: so you can select clean data storage if you like, and offset that with either a slower connection or a higher price.

These figures find their way into the calculation of gross and net emissions from digital preservation services. 

Arkivum report the gross emissions for storing a petabyte of image data at about 7.8 tonnes of CO2 and the equivalent for ingest at 1.6 tonnes; for smaller data set of about 1m office documents, the storage is radically less, at about 5.5kg of CO2 but the ingest is about 40kg.  So we can see some important differences here between ingest and storge stages for different kinds of data:

  • Ingesting a very large but very regular data set produces considerably less carbon than storing it for a year – about 5 times less

  • Ingesting a smaller but mixed data set creates significantly more carbon than storing it – about 25 times more

BUT, because Arkivum stores and processes its data with a carbon-zero configuration of Google’s Cloud Platform, the net emissions are zero. So it all becomes a rather academic exercise.

This sounds like good news, and there certainly IS good news in here. In fact, Arkivum themselves encourage us to understand what this actually means for emissions.  We need also to understand the embedded emissions associated with the IT infrastructure. 

ISO14040 describes the principles for lifecycle assessment of products and services: energy consumed during the operation of equipment is only part of the picture. Energy is used to create the cloud platforms we use, and that creates emissions; and energy should be anticipated in the decommissioning of those platforms which also creates emissions.  These lifecycle costs are hard to pin down and are not part of the assessment of energy use provided by cloud providers.

You can approach this question by looking at the lifecycle costs of individual pieces of equipment and make some informed guesses based on that.  Dell, for example, provide insight into the rack servers that they manufacture and the embodied carbon also of storage disks.  But it’s very hard to see inside the data centre and be precise about the mix of tools and services that might be deployed.  For example, it’s not clear how frequently servers are replaced, and what proportions are recycled. 

The point is that the net emissions from energy use can be reduced to zero because it’s possible to buy green energy: but the embodied carbon footprint can’t be reduced in the same way. So there are working solutions for emissions from operations of data centres.  It’s the embodied costs that we cannot control.  That’s where our attention should be.

3.3 What this means for digital preservation?

This discussion so far has been very general and has not really talked about digital preservation working practices. Before we end, I want to share examples of current work which develop this work in the context of practical digital preservation.  

The earliest and most cited work in the topic of digital preservation and environmental sustainability was in 2019 by Keith Pendergrass and others.  This paper argued that digital preservation should be taking environmental matters more seriously.  It offers suggestions for reducing negative environmental impacts through altered technology use, especially key concepts like appraisal, permanence, and availability.  It also invites a discussion about acceptable levels of loss, the numbers of redundant copies, the choices about file format which impact on processing and storage capacities, choices about integrity checking and authenticity.  It doesn’t provide specific answers to these questions, but it presents a checklist of useful questions for discussion.

In an important paper in 2022, Alex Kinnaman and Alan Munshower developed the questions that Prendergrass et al had asked and applied them to digital preservation and digitisation at their own institution, Virginia Tech in the US.  Their assessment provides estimates for the amount of electricity consumed by processes like creating hash values, as well as decisions about servers and storage locations.  This kind of detailed assessment allowed them to make more precise operational recommendations: for example reducing fixity checks from a 90-day to 120-day cycle and to establish different sampling strategies to reduce energy consumption. They also explicitly propose lower resolution and smaller sized files.

Kinnaman and Munshower offer insights into energy consumption but not the embedded carbon which, as we’ve seen, is the area that is hardest to control.  In 2021 the Dutch Digital Heritage Network has moved this one step further by including the embodied carbon in calculations that draw from a wide range of agencies across the Netherlands, and then making this work into a campaign to alert agencies about the issues and to encourage better information sharing.  For example, they have introduced the idea of a ‘digital detox’ day to reduce and to change behaviours in the uses of IT.  This is leading to a roadmap and plan for greener digital heritage.

Finally, there is some important emerging work from the DIMPACT project which is examining the carbon footprint and sustainability of digital preservation from a different angle.  This work started in the print industry with publishers needing to work out the carbon footprint of paper publication.  It provided a set of tools and methods so that large news and publishing corporations could assess and improve their performance; that quickly introduced a discussion and analysis about the environmental impacts of electronic publishing and media, without paper.  Both of those assessments included a simple estimate of the costs of preservation, so recently a much more detailed assessment has examined used the same tools and calculators in a much more detailed way to estimate the emissions from e-journal preservation, specifically the CLOCKSS service which in turn is a case study that can be applied more generally.  This case study tended to reply some of the higher-level findings: for example the CLOCKSS node in Stanford University is able to draw on plentiful supplies of solar energy in California whereas other nodes depend on a mix of energy that is less clean.  In other words, patterns of emissions become embedded in the design of the network.

Next steps

  • We should keep less, which means developing better ways to do selection so that we better understand what we really need to preserve and what we don’t.

  • We need to increase efficiencies, for example shared platforms for community archives, and reducing unnecessary duplication across institutions.

  • We should accept that not everything will be preserved even if we wanted to. The panel referred to this is various ways such as accepting ‘benign neglect’ and not getting trapped in a ‘moral panic’ of feeling that we are not doing enough.

  • We need to do less with content, which means being parsimonious as Tim Gollins has being saying for over a decade now.

  • We need to change expectations on access. We do not need to access everything, everywhere, all at once - and certainly not instantly!



Scroll to top