Skip to content
Snippets Groups Projects
Commit 210cafa8 authored by Frederik Elwert's avatar Frederik Elwert
Browse files

Teile Frederik

parent abb76014
No related branches found
No related tags found
No related merge requests found
......@@ -2,5 +2,60 @@
<!-- Frederik -->
* Maschinenlesbare Daten: XLS, Access-Datenbanken, PhotoShop, Videospiele
* Struktur: Spalten/Zeilen, Records, …
## Der zweite Stern
![](bilder/5-star-steps_2.png)
## Menschenlesbare Daten
![Beispielseite de Jahresstatistik Spätaussiedler 2008](bilder/Beispielseite_Jahresbericht.svg)
## Maschinenlesbare Daten
| | 2000 | 2001 | 2002 | 2003 | 2004 | 2005 |
|:---------|------:|------:|------:|------:|------:|------:|
| ev | 49127 | 50859 | 44175 | 34346 | 26218 | 15517 |
| kath | 17751 | 18623 | 16328 | 12176 | 9520 | 5393 |
| orthodox | 12563 | 14688 | 16137 | 13690 | 12701 | 7797 |
| andere | 4376 | 4395 | 3618 | 3090 | 1927 | 1211 |
| keine | 7878 | 6656 | 7910 | 7660 | 7176 | 4116 |
| kA | 3920 | 3263 | 3248 | 1923 | 1551 | 1488 |
::: notes
* Eine PDF-Datei ist für den Druck und die Anzeige gedacht.
* Menschen können die Struktur erkennen, aber für einen Computer sind das erst einmal nur auf einer Fläche angeordnete Ziffern und Linien.
* Anders z.B. eine Excel-Datei: Hier kann der Computer die Struktur der Daten erkennen und damit z.B. Berechnungen anstellen.
* Maschinenlesbare Daten zeichnen sich also durch eine Struktur aus, die mit computationellen Methoden erkannt und transformiert werden kann.
:::
## Einheiten: Records
*Tabelle mit Zeile hervorgehoben*
::: notes
* Ein Datensatz besteht aus einer Reihe von Einträgen oder Records, in der Statistik würde man sagen: Fällen.
* Ein Record kann z.B. die Daten zu einer Person umfassen, oder zu einem Buch, oder zu einem Tweet.
:::
## Einheiten: Variablen
*Tabelle mit Spalte hervorgehoben*
::: notes
* Die einzelnen Datenfelder oder Variablen geben die Ausprägungen einer Eigenschaft in einem Fall an. Das kann z.B. das Alter einer Person oder das Erstellungsdatum eines Blogposts sein.
* In kompexeren Fällen können diese Felder wieder strukturiert sein, oder mehrere Einträge umfassen.
* Bsp: Mehrere Sprachen eines Textes
* Das lässt sich dann in Tabellen nicht mehr gut abbilden
:::
## Typische Probleme
*Beispiele ergänzen: Verbundene Zellen, Textformatierung, Alternativen*
Siehe auch <https://carpentries-incubator.github.io/spreadsheet-humanities-lesson/02-common-mistakes/index.html>
......@@ -2,6 +2,78 @@
<!-- Frederik -->
* Verknüpfte/verknüpfbare Daten
* Normdaten
* Linked Open Data
## Der fünfte Stern
![](bilder/5-star-steps_5.png)
## Verknüpfte/verknüpfbare Daten
* Daten wertvoll durch Verknüpfungen
* Z.B.: Abgleich mit Bevölkerungsgröße
* Erfordert Zusammenführen der Daten
## Ausgangsdaten
![Beispielseite de Jahresstatistik Spätaussiedler 2008](bilder/Beispielseite_Jahresbericht.svg)
## Beispiel: Destatis
| Bundesländer | männlich | weiblich | Insgesamt |
|:------------------|-----------:|---------:|----------:|
| Baden-Württemberg | 5285894 | 5463612 | 10749506 |
| Bayern | 6138101 | 6381627 | 12519728 |
| Berlin | 1680502 | 1751173 | 3431675 |
| Brandenburg | 1249312 | 1273181 | 2522493 |
| Bremen | 321814 | 340052 | 661866 |
Table: Bevölkerung nach Bundesland und Geschlecht, 2008, Datenquelle: © Statistisches Bundesamt (Destatis), 2021, [Datenlizenz Deutschland – Namensnennung – Version 2.0](https://www.govdata.de/dl-de/by-2-0); eigene Darstellung
::: notes
* Bevölkerung 2008 nach Bundesland und Geschlecht
* Wir müssen abgleichen: Bundesland und Geschlecht
* Bundesländer sind hier gleich benannt
* Aber Geschlecht: Hier männlich/weiblich, beim Bundesverwaltungsamt Männer/Frauen
* Noch schwieriger: Internationale Daten
:::
## Normdaten
* Idealzustand: Einheitliche Bezeichner über Datenquellen
* z.B. internationale Normen: ISO 3166 (Staaten), ISO/IEC 5218 (Geschlecht)
* Oder spezifische Normvokabulare: GND, Geonames, …
## Beispiel
| Bundesland | male | female | Total |
|:-----------|---------------:|---------------:|----------:|
| DE-BW | 5285894 | 5463612 | 10749506 |
| DE-BY | 6138101 | 6381627 | 12519728 |
| DE-BE | 1680502 | 1751173 | 3431675 |
| DE-BB | 1249312 | 1273181 | 2522493 |
| DE-HB | 321814 | 340052 | 661866 |
Zusätzlich Datensatzbeschreibung mit Verweis auf die verwendeten Normen!
## Linked Open Data
* Besser als standardisierte Bezeichner: URIs
* Bayern in der GND: <https://d-nb.info/gnd/4005044-0>
* Erlaubt Netzwerk von Daten und Metadaten
* Vereint Bezeichner + Dokumentation + Zusatzdaten
## Beispiel
```turtle
<https://d-nb.info/gnd/4005044-0> gndo:gndIdentifier "4005044-0";
gndo:abbreviatedNameForThePlaceOrGeographicName "BY";
gndo:preferredNameForThePlaceOrGeographicName "Bayern";
foaf:page <https://de.wikipedia.org/wiki/Bayern>;
owl:sameAs <https://sws.geonames.org/2951839>,
<http://viaf.org/viaf/125426357>,
<http://isni.org/isni/0000000123218078>,
<http://www.wikidata.org/entity/Q980>,
<http://id.loc.gov/rwo/agents/n81018373>;
```
......@@ -2,6 +2,35 @@
<!-- Frederik -->
* Verzeichnisstruktur und Dateinamen ([Beispiel](https://drivendata.github.io/cookiecutter-data-science/))
* [Versionskontrolle mit Git](https://www.w3schools.com/git/default.asp)
* Publikation und Archivierung
## Datendokumentation: Was ist drin?
* Dokumentieren Sie:
- Woher sind die Daten?
- Wie lese ich die Daten (Variablendefinitionen etc.)?
- Lizenzen
* Menschenlesbar (README) und/oder maschinenlesbar ([csv-metadata.json](https://www.w3.org/TR/tabular-data-primer/#documenting-csvs))
## Datenorganisation: Wo ist was?
── data
├── 00_external <- Data from third party sources.
├── 01_raw <- The original, immutable data dump.
├── 02_interim <- Intermediate data that has been transformed.
└── 03_processed <- The final, canonical data sets.
Ausführlicher: Cookiecutter, <https://drivendata.github.io/cookiecutter-data-science/>
## Datenversionierung: Wie war das nochmal?
* nicht: `daten_geändert.csv`, `daten_final.csv`, `daten_final_mit_gnd.csv`
* besser: `daten_v1.csv`, `daten_v2.csv`, `daten_v3.csv`
* oder: Versionsverwaltung, z.B. Git, <https://www.w3schools.com/git/>
* **Backups!**
## Datenpublikation und -archivierung: Wo bleibt’s?
* Computer werden ersetzt, USB-Sticks gehen verloren.
* Langfristige Speicherung:
- Mit einer Veröffentlichung
- In einem Forschungsdatenrepositorium
* Übersicht/Suche: https://www.re3data.org/
No preview for this file type
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment