2025-06-19 11:25:59 +02:00

160 lines
7.4 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "<Projektname>"
description: |
Kurze Beschreibung (2-3 Sätze), was für Daten hier liegen.
lang: de
date: 2025-01-01
type: data # code, data or writing
status: "initial planning..."
priority: 1 # value from 1 (low) to 5 (high)
urgency: 1 # value from 1 (low) to 5 (high)
authors:
- name: Your Name
institute:
- hu
- nfdi
email: name@hu-berlin.de
orcid: 0000-0000-0000-0000
roles: # CRediT-Roles - see https://credit.niso.org/
- Conceptualization
- Supervision
- Validation
# ... weitere Autor*innen
institute:
- hu: Humboldt-Universität zu Berlin
- nfdi: NFDI4Memory
---
Auf Wunsch Beschreibung noch einmal wiederholen
## Über dieses Repository
### Ziel / Zweck
Kurz das Ziel oder den Bedarf für diese Daten erläutern.
(Beispiel: „Dieser Datensatz besteht aus … und eignet sich als Benchmark um die
Performance der Named Entity Recognition zu testen.“)
Sind die Daten Final? Werden sie noch gesammelt? Wann wird mit Abschluss
gerechnet?
### Reproduktion
Kurz und präzise beschreiben, wie aus den Quelldaten der aktuelle Datensatz
erstellt wurde - also wie beiliegender Code und Scripte ausgeführt werden
müssen.
- Verweise ggf. auf ausführliche [INSTALL.md](INSTALL.md)
> [!warning]
>
> **Keine ausführliche Erklärung** von Standard-Tools (z.B. Python
> installieren), sondern verlinken auf offizielle Seiten
### Nutzung / Bekannte Einschränkungen
- Wann sollte ich den Datensatz nutzen?
- Wann sollte ich den Datensatz **nicht** nutzen?
- Welche **Biases** gibt es in den Daten?
### Struktur
```plain
Übersicht der Struktur z.b. generiert mittels
`tree -L2` oder `tree -L2 -d`
und anschließend überarbeitet
```
Ein Beispiel könnte sein:
```plain
.
├── raw/ # raw data
├── src/ # code to process raw/ into data/
├── data/ # processed data
├── CHANGELOG.md
├── CITATION.md # how to cite
├── CONTRIBUTING.md
├── INSTALL.md # instructions to reproduce
└── README.md # this file
```
- Kurze Beschreibung - entweder direkt im Tree oder hier in Prosa
- Ziel: Überblick über "Wo finde ich was". Wo ist Code? Wo ist ...?
> [!warning]
>
> **Keine Details**, die über 1 Satz pro Element hinaus gehen. Bei detailliertem
> Bedarf `README.md` im jeweiligen Verzeichnis.
## Meta-Informationen
### Verantwortlichkeiten
- Wer ist letztendlich verantwortlich für den Inhalt?
- Wer genehmigt/weist Inhalte ab?
### Wissenschaftlicher Hintergrund
Kurze Erklärung der wissenschaftlichen Grundlage (Methode, theoretischer Ansatz)
und Referenzen auf Publikationen oder Quellen.
> [!warning]
>
> **Keine ausführliche Theorie**, diese gehört in Paper oder eigene Datei
> ([BACKGROUND.md](BACKGROUND.md))
### Lizenz & Zitation
Kurz auf Lizenz verweisen (z.B. „siehe LICENSE“) und erklären, wie das Projekt
zu zitieren ist (z.B. DOI oder Verweis auf [CITATION.md](CITATION.md)).
---
## Empfohlene Dokumentations-Dateien
| **Dokuelement** | **Inhalt/Purpose** | **Format/Ort** | **Umfang** |
| ---------------------------------- | ----------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------- | ------------------------------------- |
| **README (Hauptdoku)** | Zweck der Software; Kurzbeschreibung; Installationsanleitung; einfaches Nutzungsbeispiel; Lizenz- und Kontaktinfo | Markdown im Root des Repos (statisch versioniert) | 12 Seiten |
| **Wissenschaftlicher Hintergrund** | Erläuterung der Methode, Theorie, Algorithmen; Verweise auf Literatur | README-Abschnitt "Hintergrund" oder separate Doku (BACKGROUND.md) | 0.51 Seite (plus Referenzen) |
| **Bekannte Limitationen** | Auflistung von Einschränkungen, Annahmen, bekannten Problemen; ggf. Workarounds | README-Abschnitt "Limitations" oder FAQ.md | 0.5 Seite |
| **Beispiel-Workflow (Tutorial)** | Schritt-für-Schritt Anleitung mit einem realistischen Anwendungsfall (ggf. mit Code und Screenshot) | Jupyter Notebook (`.ipynb`) im Repo `examples/` Ordner oder Markdown in docs/ | 13 Seiten / entsprechend Zellen |
| **CONTRIBUTING** | Anleitung für Beitragswillige: Code Style, Workflow, Tests, Kontakt | CONTRIBUTING.md im Repo | 0.51 Seite |
| **LICENSE** / **CITATION** | Rechtliche Infos (Lizenztext); Zitationsleitfaden (Bevorzugte Zitierweise, DOI) | Jeweils eigene Datei im Repo (Plain Text/Markdown) | Kurz (Standardtext bzw. Referenz) |
| **Release-Information** | Versionshinweise, Änderungsprotokoll (Changelog) | CHANGELOG.md oder Releases auf GitHub | fortlaufend pro Version (Stichpunkte) |
## Checklist
Es ist eine gute Idee die sich ändernden Punkte in ein Release-Template zu
kopieren.
- [ ] **Installation & Reproduzierbarkeit:** Sind alle Schritte, um die Daten
aus den Quelldaten erneut zu erstellen, dokumentiert (inkl. Dependencies,
evtl. mit Installationsbefehlen)? Ist ersichtlich, welche Umgebung nötig
ist (OS, Hardware)?
- [ ] **Grundlegende Nutzung:** Gibt es eine Anleitung oder Beispiele, wie man
die Daten verwendet (Daten -> Variablen in einer Programmiersprache)? Ist
mindestens ein typischer Workflow beschrieben, idealerweise mit
Beispielinput und -output?
- [ ] **Hintergrund & Referenzen:** Sind die wichtigsten Hintergründe oder
Referenzen über den Ursprung der Daten angegeben? Das muss kein Essay
sein, aber ein paar Sätze + Referenzen schaffen Vertrauen in die
wissenschaftliche Fundierung.
- [ ] **Kontakt & Weiterführung:** Ist angegeben, wie man Hilfe bekommt oder
Fehler melden kann (Issue-Tracker, E-Mail)? Gibt es Hinweise für Beiträge
(falls erwünscht) oder zumindest die Information, wer die Autor\*innen
sind?
- [ ] **Rechtliches & Zitation:** Liegt die Lizenz bei und wird sie genannt?
Sind Infos zum Zitieren der Software vorhanden (z.B. “Bitte zitieren Sie
DOI XYZ”)? Das stellt sicher, dass die Software nachnutzbar _und_
akademisch kreditiert wird.
- [ ] **Aktualität & Version:** Entspricht die Dokumentation der aktuellen
Softwareversion? (Check: Versionsnummern, Datumsangaben). Veraltete Doku
kann schlimmer sein als keine planen Sie also ein, die Doku mit jedem
Release kurz zu überprüfen.
- [ ] **Konsistenz & Stil:** Wird ein einheitlicher Ton und Stil durchgehalten?
(z.B. durchgehende Verwendung gleicher Begriffe für Konzepte, Sprache
entweder Deutsch oder Englisch einheitlich je nach Zielgruppe). Kleinliche
Fehler (Tippfehler, kaputte Links) sind auszumerzen, da sie Nutzer
abschrecken.