Sie arbeiten beim Kompetenzzentrum des Bundes für Datenwissenschaft (DSCC) des Bundesamts für Statistik (BFS). Ein Thema, das die Datenwissenschaften auf Bundesebene aktuell umtreibt, ist die Sekundärnutzung von Daten. Wo liegen dabei die Herausforderungen?

Die grössten Herausforderungen im Zusammenhang mit der Sekundärnutzung von Daten bestehen darin, die Verwaltung der Daten, die durch den Bund gehalten werden, zu vereinfachen und ihr Potenzial besser auszuschöpfen, wobei die Privatsphäre des Einzelnen zu wahren ist. Eine bessere Nutzung von Daten aus dem Bildungsbereich kann beispielsweise dazu beitragen, individuelle Lernprofile zu identifizieren und die Berufs- und Laufbahnberatung zu optimieren. Im Weiteren kann eine genaue Ermittlung des Bildungsbedarfs zu einer besseren Zuweisung von Bildungsressourcen beitragen.

Das BFS hat unter anderem für die Sekundärnutzung von Daten die Plattform Lomas mitentwickelt. Können Sie kurz erklären, was Lomas ist und welche Ziele damit verfolgt werden?

Lomas ist eine neue Open-Source-Plattform, die vom Kompetenzzentrum für Datenwissenschaften des BFS entwickelt wurde. Sie soll das Potenzial der Daten öffentlicher Verwaltungen ausschöpfen und gleichzeitig den höchsten Datenschutzstandard gewährleisten. Langfristig hoffen wir, dass Lomas die Zusammenarbeit mit der Forschung stärken, bei der Bereitstellung objektiver Indikatoren für die öffentliche Politikgestaltung helfen und die Innovation in allen Sektoren fördern kann, während gleichzeitig die höchsten Standards für den Datenschutz angewendet werden.

Autorisierte Nutzerinnen und Nutzer können darauf Datensätze mit Algorithmen auswerten, ohne direkt auf die Daten zuzugreifen. Die erzielten Ergebnisse werden durch Differential Privacy geschützt. Dabei handelt es sich um eine Methodik, die verhindern soll, dass böswillige Dritte zuverlässig identifizierbare Informationen extrahieren können. Durch das Hinzufügen von kontrolliertem Rauschen zu den Ergebnissen quantifiziert und kontrolliert die Differential Privacy mathematisch das Risiko einer Offenlegung. Gleichzeitig sorgt die Methode für vollständige Transparenz darüber, wie die Daten geschützt und verwendet werden. Es handelt sich um eine konkrete Anwendung der Technologien zum Schutz der Privatsphäre (Privacy Enhancing Technologies, PET).

«  Differential Privacy quantifiziert und kontrolliert das Risiko einer Offenlegung und sorgt gleichzeitig für vollständige Transparenz darüber, wie die Daten geschützt und verwendet werden.  »

Wie und von wem kann Lomas genutzt werden?

Lomas ist als Open Source auf dem GitHub des DSCC verfügbar. Die Plattform befindet sich beim BFS noch im Stadium des «Proof-of-Concept (POC)». Um das Projekt zu fördern, arbeitet das DSCC mit dem Institut national de la statistique et des études économiques (INSEE) aus Frankreich zusammen, um Tests mit öffentlichen Daten durchzuführen und Lomas im Onyxia Datalab einzusetzen. Dank Lomas können autorisierte Nutzerinnen und Nutzer, wie beispielsweise anerkannte Forscherinnen und Forscher und Analystinnen und Analysten im Bildungsbereich, Wissen aus zuvor unzugänglichen Daten gewinnen. Langfristig könnte die Plattform auch die Analyse von Daten für Dritte unter Einhaltung der gesetzlichen Vorschriften und für nicht personenbezogene Zwecke wie Forschung, Planung und Statistik erleichtern.

«  Langfristig könnte die Plattform auch die Analyse von Daten für Dritte unter Einhaltung der gesetzlichen Vorschriften und für nicht personenbezogene Zwecke wie Forschung, Planung und Statistik erleichtern.  »

Welche weiteren technischen Lösungen für die Vereinfachung der Sekundärnutzung von Daten gibt es?

Auch zahlreiche technische Lösungen tragen dazu bei, die Wiederverwendung von Daten zu erleichtern. Die Plattform Open Government Data (OGD) des BFS zielt auf mehr Transparenz und Partizipation ab, indem sie die Daten der öffentlichen Verwaltungen gemäss dem Bundesgesetz über den Einsatz elektronischer Mittel zur Erfüllung von Behördenaufgaben (BETA) zugänglich macht. Die Interoperabilitätsplattform I14Y ist der nationale Datenkatalog der Schweiz. Öffentliche Verwaltungen können ihre Daten in Form von einem Wissensgraph veröffentlichen und über die LINDAS-Plattform zugänglich machen.

Die Ermöglichung der Sekundärnutzung von Daten, die sich im Besitz der Verwaltung befinden, bleibt ein äusserst komplexes Thema. Es ist von entscheidender Bedeutung, bei dieser Weiterverwendung von Daten das Recht auf Privatsphäre des Einzelnen zu gewährleisten und sicherzustellen, dass die Vorteile bei dieser sogenannten Sekundärnutzung von Daten nicht auf Kosten der Bürgerinnen und Bürger, Haushalte und Unternehmen gehen. Diese beiden Aspekte sind entscheidend für die politische und gesellschaftliche Akzeptanz.

Gesprächspartnerin 

Christine Choirat, Bundesamt für Statistik
Prof. Dr. Christine Choirat
Sektionschefin Datenwissenschaft und KI
Bundesamt für Statistik