sample
Das sample
-Kommando zieht nach dem Zufallsprinzip gleichmäßig Datensätze aus der Eingabe.
Hinweis
Beim Aufruf des Kommandos ist die Anzahl der gültigen Datensätze nicht bekannt. Deshalb wird für die Stichprobenziehen das Verfahren Reservoir sampling eingesetzt. Hierfür wird während der Laufzeit Arbeitsspeicher proportial zum gewünschten Stichprobenumfang \(n\) verwendet. Datensätze am Anfang der Eingabe haben eine höhere Wahrscheinlichkeit in der Stichproben enthalten zu sein, als Datensätze am Ende.
Im folgenden Beispiel werden zufällig 200 Datensätze aus der Eingabe ausgewählt und in die Datei samples.dat
geschrieben:
$ pica sample 200 DUMP.dat.gz -o samples.dat
Optionen
-s
,--skip-invalid
- Überspringt jene Zeilen aus der Eingabe, die nicht dekodiert werden konnten.
-i
,--ignore-case
- Groß- und Kleinschreibung wird bei Vergleichen ignoriert.
--strsim-threshold <value>
-
Festlegen des Schwellenwerts beim Ähnlichkeitsvergleich von Zeichenketten mittels
=*
. -g
,--gzip
- Komprimieren der Ausgabe im [Gzip]-Format.
--seed <number>
- Initialisiert den Zufallszahlengenerator mit einem seed-Wert, um eine deterministische Auswahl zu erhalten.
-p
,--progress
- Anzeige des Fortschritts, der die Anzahl der eingelesenen gültigen sowie invaliden Datensätze anzeigt.
-o <path>
,--outdir <path>
- Angabe, in welches Verzeichnis die Partitionen geschrieben werden sollen. Standardmäßig wird das aktuelle Verzeichnis verwendet.
Beispiele
Zufällige PPN-Liste
In Kombination mit dem select
-Kommando kann eine zufällige PPN-Liste erzeugt werden:
$ pica sample 3 DUMP.dat.gz | pica select -H 'ppn' '003@.0' -o samples.csv