... | ... | @@ -3,4 +3,17 @@ Sõnaveeb 2020 on kahes vormingus: |
|
|
1. vert (EKI spetsiifika) `.vert` lõpuga failides ja
|
|
|
2. prevert (lause real) `.prevert` lõpuga failides.
|
|
|
|
|
|
(1) on failis `sonaveeb_2020.vert` ja (2) failis `sonaveeb_2020.prevert` |
|
|
(1) on failis `sonaveeb_2020.vert` ja (2) failis `sonaveeb_2020.prevert`. Kummagi faili laused on `<s>` märgendite vahel. Atribuutideks on minimaalselt `corpus` ja `score`, kuid on ka teisi.
|
|
|
|
|
|
## Prevert
|
|
|
|
|
|
Failis on lause algus- ja lõpumärgendid, samuti sisu, kõik eraldi ridadel. Selleks, et hõlbustada sorteerimist ilma xml pathi kasutamata, on lause koos algus- ja lõpumärgendiga viidud kõik ühele reale järgmise skriptiga:
|
|
|
|
|
|
```
|
|
|
cat sonaveeb_2020.prevert |sed 's/%/\\%/g'| gawk -v ORS="" '/<s /{print $0}
|
|
|
/^[^<]/{print $0}
|
|
|
/<[/]s/{print $0; print "\n"}' > lausereal.prevert
|
|
|
```
|
|
|
|
|
|
|
|
|
Faili jupitamine on tehtud kõigepealt atribuudi `corpus` järgi. |