Data Champion: Xuan Liu

SFB/TRR 196: MARIEXuan Liu: Wie kollaborative Projekte das FDM vor neue Herausforderungen stellen

Dr. Xuan Liu hat ihre Promotion über rekonfigurierbare MEMS-Reflectarrays für die Terahertz-Strahlführung im Rahmen des SFB MARIE abgeschlossen. Für ihre wertvollen Beiträge zur Entwicklung eines Metadatenschemas für den SFB und für das proaktive Teilen ihrer Forschungsdaten erhält sie den Data Champion Award. In unserem Interview spricht sie über die Herausforderungen im FDM bei der kollaborativen Arbeit, den Ablauf bei der Entwicklung eines Metadatenschemas und darüber, wie Forschende motiviert werden können, ihre FDM-Praxis zu verbessern.

RDS: Xuan, vielen Dank, dass du dir Zeit für dieses Interview genommen hast, und herzlichen Glückwunsch zu deinem Data Champion Award für MARIE!

XL: Danke!

RDS: Du bist ein Data Champion wegen deiner Arbeit mit Dataverse und deiner Beiträge zur Entwicklung von Metadatenbeschreibungen. Wie hast du Datenmanagement-Tools eingesetzt und davon profitiert?

XL: Datenmanagement ist für mich wichtig, weil ich bei meiner Forschung viele Daten generiere – sowohl Simulationsdaten als auch Messdaten, die ich für meine Dissertation und für spätere Veröffentlichungen benötige. Datenmanagement ist eine Frage guter wissenschaftlicher Praxis: Wir müssen unsere Daten für andere verständlich machen und wir müssen nachweisen können, wie wir gearbeitet haben.

Wie ich FDM-Tools in meiner täglichen Forschung benutze? Wenn ich Daten generiere, werden sie erstmal auf meinem lokalen Computer gespeichert, aber die meisten dieser Daten sind nicht nur das Ergebnis meiner eigenen Arbeit, sondern Teil einer Zusammenarbeit. MARIE ist ein Collaborative Research Center, also brauchten wir eine Plattform, um gemeinsam an Daten zu arbeiten, und ein Archiv, in dem wir unsere Daten speichern können, damit andere sie später für ihre eigene Forschung nutzen können.

Für MARIE haben wir daher FDM-Tools wie Nextcloud und Dataverse eingeführt, um die Zusammenarbeit zu erleichtern. Zum Beispiel verwenden wir Nextcloud für die gemeinsame Nutzung von hot data, d. h. von Daten, die wir noch bereinigen, verarbeiten und analysieren müssen, so dass mehrere Personen auf die für sie nützlichen Daten zugreifen, sie ändern und extrahieren können. Sobald wir mit der Verarbeitung der Daten fertig sind und unsere Ergebnisse veröffentlicht haben, sind die Daten kalt und müssen archiviert werden. Dafür verwenden wir Dataverse. Ich zum Beispiel verlasse MARIE und werde in der dritten Förderphase nicht mehr dabei sein – ich werde also in den nächsten zwei oder drei Jahren nicht mehr zur Verfügung stehen, um den Leuten, die meine Forschung fortsetzen oder meine Daten nutzen wollen, zu sagen, welche Formate ich verwendet habe und so weiter. Aber in Dataverse haben wir Metadatenschemata für alle Arten von Daten, so dass die Leute meine Datensätze leicht verstehen und sie für ihre eigene Forschung nutzen können.

RDS: Wenn du an die Entwicklung der Metadatenschemas zurückdenkst, was hast du als die größte Herausforderung bei der Beschreibung verschiedener Experimente, Simulationen und Messungen in MARIE wahrgenommen?

XL: Die größte Herausforderung war, dass es fast unmöglich ist, ein Metadatenschema zu entwickeln, das alles abdeckt. Man kann sich das vorstellen – wir haben über 20 Unterprojekte und mehr als 40 Doktoranden in MARIE. Wir kommen aus verschiedenen Bereichen: Einige kommen aus der Physik, einige aus der Photonik, einige aus der Elektronik, einige sind Ingenieure ... unsere Forschung ist sehr unterschiedlich und die Simulationen, die wir durchführen, sind auch sehr unterschiedlich.

Wir arbeiten zum Beispiel mit Simulationsdaten, und diese Daten werden mit einer Software erstellt, ja? Aber welche Software? Wenn man also die Software in die Metadaten aufnimmt, können andere besser verstehen, um welche Art von Simulation es sich handelt – ist es eine elektromagnetische Simulation oder eine numerische Simulation mit MATLAB? In den Metadaten kann man auch die Version der Software sehen, was wichtig ist, wenn jemand eine Simulation reproduzieren möchte.

Das sind ein paar der grundlegenden Metadaten, aber es ist unmöglich, alles zu erfassen. Aber wir können auch zusätzliche Informationen festhalten – am einfachsten ist es, eine Readme-Datei mit dem Datensatz hochzuladen, um anzugeben, was nicht durch das Dataverse-Metadatenschema abgedeckt werden kann. Deshalb wurden Readme-Dateien in allen Workshops empfohlen.

RDS: Genau, das war die wertvolle Arbeit, die ihr in den RDM-Workshops geleistet habt – ihr habt Standards diskutiert und zehn häufige oder gemeinsame Felder identifiziert, sodass ihr als Gruppe in MARIE einen Kompromiss finden konntet, um einen grundlegenden Standard zu schaffen. Aber weil Experimente so komplex sind, sind Readme-Dateien das richtige Werkzeug.

XL: An den Metadatenschema-Workshops haben Forschende aus vielen verschiedenen Gruppen teilgenommen. Wir haben alles aufgeschrieben, was für uns relevant war – und dann hat das RDS-Team alle Informationen gesammelt, bereinigt, das Wichtigste herausgezogen und ein Metadatenschema entwickelt. Danach ging das Dataverse in eine Beta-Phase, damit wir testen konnten, ob es für uns funktioniert und ob etwas verbessert werden muss. Vor der endgültigen Version ging es also ein paar Mal hin und her.

Durch diese drei Workshops sind jetzt die meisten Informationen, die wir brauchen, im Metadatenschema enthalten. In den Workshops hatten wir die Möglichkeit, unsere Meinung einzubringen – wir unterscheiden uns stark in unseren Forschungsthemen, unseren Perspektiven, den von uns verwendeten Tools und Geräten, unserer Denkweise und der Art und Weise, wie wir Dinge gestalten. Und wenn solche Workshops in der dritten Phase wieder stattfinden, kann das Metadatenschema vielleicht noch weiter verfeinert werden.

RDS: Danke! Es ist gut zu hören, die Workshops und der Austausch mit den Kolleg:innen für dich hilfreich war, weil das für die Zusammenarbeit so wichtig ist. Gibt es abschließend etwas, was dir persönlich noch fehlt? Etwas, das du dir gewünscht hättest, oder etwas, das FDM in Zukunft verbessern könnte?

XL: Ich glaube, dass die zur Verfügung stehenden Tools manchmal mehr sind, als die Forschenden zu nutzen bereit sind. Viele haben das Gefühl, dass die Eingabe von Metadaten zu viel Zeit in Anspruch nimmt, und denken: „Ich habe schon so viel zu tun, ich muss Paper veröffentlichen, ich muss Messungen durchführen, ich muss Übungen machen – und jetzt auch noch das.“

Metadaten müssen spezifisch und detailliert sein, also ja, sie nehmen Zeit in Anspruch, aber der Ablauf ist schon verbessert worden. Man kann zum Beispiel eine Maske verwenden, man kann ein Skript erstellen, damit man nicht jedes Mal jedes Feld ausfüllen muss, aber die Leute denken immer noch, es sei zu kompliziert. Sie müssen sich einfach die Zeit nehmen, es zu tun. Die Herausforderung besteht darin, sie zu motivieren und das Bewusstsein dafür zu schärfen, dass FDM zur guten wissenschaftlichen Praxis gehört, dass es nötig ist, um ein guter Forscher und Wissenschaftler zu sein. Eigentlich ist es gar nicht so kompliziert – es wurden schon so viele Funktionen implementiert, um die Arbeit zu vereinfachen. Was noch fehlt, muss von den Forschern selbst kommen.

Tatsächlich helfen Maßnahmen wie der Data Champion Award schon dabei – nach der Preisverleihung sind Leute zu mir gekommen und haben mich gefragt, was ich getan habe, um den Preis zu bekommen. Ich habe ihnen von den Workshops und vom Teilen meiner Daten erzählt. Außerdem wurden zwischen der Bekanntgabe des Preises und dem Tag der Preisverleihung viele Datensätze in Dataverse hochgeladen, das war also ein großer Motivator.

RDS: Das ist schön zu hören! Vielen Dank für das Interview und nochmals herzlichen Glückwunsch zu deinem Award!

Kontakt

Haben Sie Fragen? Schreiben Sie uns gern.

Zum Kontaktformular