Task 2: Lemmatization of proper names and multi-word phrases

Task definition

The task consists in developing a tool for lemmatization of proper names and multi-word phrases. The generated lemmas should follow the KPWr guidelines.

Training data

The training dataset (DOWNLOAD) contains documents from the KPWr corpus and an index of phrases with lemmas. 

Document content with inline annotations (XML file):


<document id="100619">
Na finiszu obu <phrase id="420250">kampanii wyborczych</phrase> miały miejsce
wydarzenia, które mocno wpłynęły na emocje wyborców: wybuchy bomb w pociągach w 
<phrase id="40465">Madrycie</phrase>, w wyniku których zginęło 191 osób, a ponad 
1800 zostało rannych, oraz znalezienie 15 atrap bomb w <phrase
id="40464">Warszawie</phrase> na <phrase id="40497">Dworcu Centralnym</phrase>
i w metrze, co spowodowało sparaliżowanie na kilka godzin ruchu w <phrase
id="40463">Warszawie</phrase>.
[...]
</document>

Annotation index (TSV file):

[...]
420250	 100619	kampanii wyborczych	 kampanie wyborcze
40465	 100619	Madrycie      	 Madryt
40464	 100619	Warszawie     	 Warszawa
40497	 100619	Dworcu Centralnym	 Dworzec Centralny
40463	 100619	Warszawie     	 Warszawa
[...]

Each line in the TSV contains the following columns:

  1. Phrase id
  2. Document id
  3. Phrase orthographic form
  4. Phrase lemma

Test data

Set of XML files with inline annotations.

Evaluation procedure

The goal is to generate a single TSV file. The file should contain a line for each inline annotation in the test dataset. In the evaluation the annotations will be the value of lemma (4th column in the TSV file) in two variant: case sensitive comparison (AccCS) and case insensitive evaluation (AccCI).

Acc = POS/N

Score = 0.2 *AccCS+0.8*AccCI