describe

Mithilfe des Kommandos describe lässt sich die Häufigkeitsverteilung von Unterfeldern ermitteln. Im folgenden Bespiel werden zuerst alle Datensätze aus der Eingabe (DUMP.dat.gz) auf die Satzarten Tpz und Tp1 gefiltert und anschließend auf die Felder, die mit 04 oder 06 beginnen und mit R enden, reduziert. Anschließend werden die Vorkommen der Unterfelder ausgezählt und als Tabelle ausgegeben:

$ pica describe -s -k '0[46].R' tests/data/DUMP.dat.gz --where '002@.0 in ["Tpz", "Tp1"]'
┌───────┬────┬────┬────┬────┬────┬────┬────┬───┐
│ field ┆ 0  ┆ 4  ┆ 7  ┆ 9  ┆ A  ┆ V  ┆ a  ┆ b │
╞═══════╪════╪════╪════╪════╪════╪════╪════╪═══╡
│ 041R  ┆ 16 ┆ 16 ┆ 16 ┆ 16 ┆ 16 ┆ 16 ┆ 16 ┆ 0 │
│ 060R  ┆ 0  ┆ 4  ┆ 0  ┆ 0  ┆ 0  ┆ 0  ┆ 4  ┆ 4 │
│ 065R  ┆ 7  ┆ 7  ┆ 7  ┆ 7  ┆ 7  ┆ 7  ┆ 7  ┆ 0 │
└───────┴────┴────┴────┴────┴────┴────┴────┴───┘

Optionen

-p, --progress: Anzeige des Fortschritts, der die Anzahl der eingelesenen gültigen sowie invaliden Datensätze anzeigt. Das Aktivieren der Option erfordert das Schreiben der Datensätze in eine Datei mittels -o bzw. --output.
-k, --keep: Es werden nur die Felder eines Datensatzes beibehalten, die in der Liste aufgeführt werden.
-d, --discard: Es werden die Felder eines Datensatzes verworfen, die in der Liste aufgeführt werden.
-o <filename>, --output <filename>: Angabe, in welche Datei die Ausgabe geschrieben werden soll. Standardmäßig wird die Ausgabe in die Standardausgabe stdout geschrieben. Endet die Datei mit der Endung .csv bzw. .tsv oder ist die Option --csv bzw. --tsv gesetzt, erfolgt die Ausgabe im CSV- bzw. TSV-Format. Standardmäßig erfolgt die Ausgabe im Apache Arrow-Format.

Filter-Optionen

-s, --skip-invalid: Überspringt jene Zeilen aus der Eingabe, die nicht dekodiert werden konnten.
-l <number>, --limit <number>: Eingrenzung der Ausgabe auf die ersten n Datensätze.
-i, --ignore-case: Groß- und Kleinschreibung wird bei Vergleichen ignoriert.
--strsim-threshold <value>: Festlegen des Schwellenwerts beim Ähnlichkeitsvergleich von Zeichenketten mittels =*.
-A <file>, --allow-list <file>: Es werden alle Datensätze ignoriert, die nicht explizit in der Positivliste auftauchen. Werden mehrere Positivlisten angegeben, wird die Mengenvereinigung aus allen Listen gebildet.
-D <file>, --deny-list <file>: Es werden alle Datensätze ignoriert, die in der Negativliste auftauchen. Werden mehrere Negativlisten angegeben, wird die Mengenvereinigung aus allen Listen gebildet.
--filter-set-column <column>: Legt den Spaltennamen fest, der die Referenzwerte einer Allow- bzw. Deny-Liste enthält. Wird die Option nicht angegeben, werden die Werte aus der Spalte ppn bzw. idn ausgelesen. Die idn-Spalte wird nur versucht zu lesen, wenn keine ppn-Spalte vorhanden ist.
--filter-set-path <path>: Ein Pfadausdruck, der zur Ermittlung der Vergleichswerte genutzt wird. Ist die Option nicht angegeben, wird von einem Vergleich mit der PPN im Feld 003@.0 eines Datensatzes ausgegen.
--where <expr>: Angabe eines Filters, um Datensätze aus der Eingabe auszuwählen.
--and <expr>: Hinzufügen eines zusätzlichen Filters mittels der booleschen &&-Verknüpfung. Der ursprüngliche Filterausdruck <filter> wird zum Ausdruck <filter> && <expr>.
--or <expr>: Hinzufügen eines zusätzlichen Filters mittels der booleschen ||-Verknüpfung. Der ursprüngliche Filterausdruck <filter> wird zum Ausdruck <filter> || <expr>.
--not <expr>: Hinzufügen eines zusätzlichen Filters. Der ursprüngliche Filterausdruck <filter> wird zum Ausdruck <filter> && !(<expr>).