Few Questions and Answers about the Two-Level Morphology

Here's my old inquiry concerning Kimmo Koskenniemi's dissertation which I posted to the Finnish newsgroup sfnet.tiede.kielitiede (sfnet.science.linguistics) in the summer of 1994, followed by the replies I got. My translation to English runs on the right hand side of the original text. BTW, I am not related to Lauri Karttunen mentioned in the replies.

Note that my old email address karttu@mits.mdata.fi doesn't work anymore, but you can still mail me.



Article 76 of sfnet.tiede.kielitiede:
Path: prime.mdata.fi!mits.mdata.fi!not-for-mail
From: karttu@mits.mdata.fi (Antti Karttunen)
Newsgroups: sfnet.tiede.kielitiede
Subject: Kimmo Koskenniemi: TWO-LEVEL MORPHOLOGY
Date: 13 Jun 1994 20:41:28 +0300
Organization: MITS, Helsinki, Finland
Lines: 51
Message-ID: <2ti5o8$21i@mits.mdata.fi>
NNTP-Posting-Host: mits.mdata.fi

Olen selaillut viime päivinä Kimmo Koskenniemen väitöskirjaa "TWO-LEVEL MORPHOLOGY: A General Computational Model for Word-Form Recognition and Production", joka on julkaistu jo vuonna 1983 Helsingin yliopiston yleisen kielitieteen laitoksen toimesta (ISBN 951-45-3201-5 ja ISSN 0355-7170). The last few days I have been reading the dissertation of Kimmo Koskennimi, "TWO-LEVEL MORPHOLOGY: A General Computational Model for Word-Form Recognition and Production", which was published in 1983 by the Department of General Linguistics of the University of Helsinki.
Muutamia mieleen nousseita kysymyksiä:

Few questions that have occurred to me:

1) Onko kirjassa esitetty tekniikka edelleenkin 'state-of-art' taivutettavien kielten (erityisesti suomen) sanojen parsimisessa ja tuottamisessa? Vai onko tämän jälkeen esitetty parempia malleja, tai edes parannuksia tähän malliin? Kuinka paljon löytyy tätä mallia käyttäviä 'tosielämän' sovellutuksia?

1) Is the technique introduced in the book still 'state-of-art' for parsing and producing words of the inflected languages (especially Finnish)? Has there been any better models published since then, or even any improvements to this model? How many "real-life" applications are there that use this model?

2) Onko vielä onnistuttu luomaan algoritmia, joka automaattisesti kääntäisi RPE:itä (Regular Pair Expressions) käyttävät kaksitasosäännöt (two-level rules) vastaaviksi tilakoneiksi (FSM, Finite State Machine)?

2) Has anybody accomplished to create an algorithm which would automatically translate the two-level rules that use RPE's (Regular Pair Expressions) to the corresponding state machines?

3) Miksi nuo kaksitasosäännöt pitää kääntää tilakoneiksi? Olisiko niiden suora tulkkaaminen paljonkin hitaampaa? Tai voitaisiinko ne kääntää joksikin muiksi, helpommin suoritettaviksi lausekkeiksi?

3) Why the two-level rules have to be translated to state machines? Would it be much slower to interpret them directly? Or would it be possible to translate them to any other kind of expressions, which might be evaluated more easily?

4) Mihin muihin kieliin tätä mallia on sovellettu? Joku mainitsi ranskan. Entä espanja? Koska malli mahdollistaa myös tavujen määrän laskemisen, niin painollisen tavun paikan löytämisen ei pitäisi tuottaa ylitsepääsemättömiä vaikeuksia? (Hieman hankalaa se kyllä voi olla...) Ainakin espanjan kielen ortografian tietyt erikoisuudet voidaan helposti esittää kaksitasosäännöillä (esim. sen että /k/ äänteellä on kaksi allograafia, 'qu' e:n ja i:n edessä, 'c' kaikissa muissa tapauksissa). Toisaalta, onko järkeä sotkea ortografiaa morfologiseen malliin?

4) What other languages has this model been applied to? Somebody mentioned French. What about Spanish? Because the model also allows counting of the syllables, the location of the accented syllable wouldn't be too hard to find? (It might not be so easy, however...) At least it would be easy to represent certain peculiarities of the Spanish orthography with two-level rules (e.g. that the sound /k/ has two allographs, 'qu' in the front of e and i, and 'c' in all other cases). On the other hand, is it sensible to mix orthography with the morphologic model?

Terveisin,Regards,


Antti Karttunen / karttu@mits.mdata.fi / $(B%"%s%C%F%#!!%+%k%C%H%%%M%s(B
"Joku on jo oksentanut, ja sen on hyvä olla, mutta toinen vasta alkaa
 antaa ylen." - V. Erofejev, Moskova - Petushki

Article 77 of sfnet.tiede.kielitiede:
Path: prime.mdata.fi!news.eunet.fi!news.csc.fi!news.helsinki.fi!news.helsinki.fi!jpiitula
From: jpiitula@tikkanen.helsinki.fi (Jussi Piitulainen)
Newsgroups: sfnet.tiede.kielitiede
Subject: Re: Kimmo Koskenniemi: TWO-LEVEL MORPHOLOGY
Date: 14 Jun 1994 10:59:06 GMT
Organization: University of Helsinki, Finland
Lines: 84
Message-ID: <JPIITULA.94Jun14135907@tikkanen.helsinki.fi>
References: <2ti5o8$21i@mits.mdata.fi>
NNTP-Posting-Host: tikkanen.helsinki.fi
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-1
Content-Transfer-Encoding: 8bit
In-reply-to: karttu@mits.mdata.fi's message of 13 Jun 1994 20:41:28 +0300

In article <2ti5o8$21i@mits.mdata.fi> karttu@mits.mdata.fi (Antti Karttunen) writes:

From: karttu@mits.mdata.fi (Antti Karttunen)
Date: 13 Jun 1994 20:41:28 +0300
Olen selaillut viime päivinä Kimmo Koskenniemen väitöskirjaa "TWO-LEVEL MORPHOLOGY: A General Computational Model for Word-Form Recognition and production".

1) Onko kirjassa esitetty tekniikka edelleenkin 'state-of-art' taivutettavien kielten (erityisesti suomen) sanojen parsimisessa ja tuottamisessa? Vai onko tämän jälkeen esitetty parempia malleja, tai edes parannuksia tähän malliin? Kuinka paljon löytyy tätä mallia käyttäviä 'tosielämän' sovellutuksia?

The last few days I have been reading the dissertation of Kimmo Koskennimi, "TWO-LEVEL MORPHOLOGY: A General Computational Model for Word-Form Recognition and production".

1) Is the technique introduced in the book still 'state-of-art' for parsing and producing words of the inflected languages (especially Finnish)? Has there been any better models published since then, or even any improvements to this model? How many "real-life" applications are there that use this model?

Onhan sitä kehitetty. Luulen kuitenkin, että Helsingin yliopistossa käytettävät jäsentimet ovat edelleen olennaisesti sitä samaa teknologiaa. En ole varma tästä.

Yes, the model has been developed further. However, I think that the parsers used in the Helsinki University are essentially based on the same technology. I am not sure about this.

Aiheesta on kirja tai pari, aika uusia. Itse en ole lukenut. Voin raapia noita viitteitä esiin aika helposti, jos olet kiinnostunut.

There exists a book or two about the subject, quite new ones. I haven't read them myself. I can give references to you if you are interested.

Kun kaksitasokoneet tulkitaan transduktoreiksi, niille voidaan tehdä toimitus nimeltä kompositio. Tämä on se kilpaileva malli, jossa automaatit ovat "peräkkäin" eivätkä "rinnakkain", kuten Koskenniemen järjestelmässä. Transduktoriteknologiaa on kehitetty edelleen (käsittääkseni ainakin Ron Kaplan ja Lauri Karttunen ovat kehittäneet). Jossain ACL:n kokouksessa oli äskettäin (amb 1992 1993) artikkeli aiheesta.

When two-level rules are interpreted as transductors, it is possible to apply a procedure called composition to them. This is the competing model where the automata are organized "serially", not "in parallel" as with the Koskenniemi's system. The transductor technology has been developed further (I think that at least by Ron Kaplan and Lauri Karttunen). There was recently an article about the subject in a meeting of ACL, when, I don't remember exactly (amb 1992 1993).

En tiedä, kuka niitä käyttää yliopiston ulkopuolella, mutta useita aidon tekstin morfologiseen jäsentämiseen kykeneviä koneita on olemassa. Suurin työ on epäilemättä kattavan leksikon laatiminen.

I don't know who uses them outside of the University, but there exists several machines capable of morphologically parsing authentic/real-life text. The biggest job is without doubt to compile an extensive lexicon.

2) Onko vielä onnistuttu luomaan algoritmia, joka automaattisesti kääntäisi RPE:itä (Regular Pair Expressions) käyttävät kaksitasosäännöt (two-level rules) vastaaviksi tilakoneiksi (FSM, Finite State Machine)?

2) Has anybody accomplished to create an algorithm which would automatically translate the two-level rules that use RPE's (Regular Pair Expressions) to the corresponding state machines?

Sellainen on. Ongelmallinen oli kai ainoastaan se sääntötyyppi, jossa parin sallitaan esiintyä jossain useasta vaihtoehtoisesta ympäristöstä
(x:y => a:b _ y:0 d:0 ; x:0 _,
tai jotain sellaista). Sääntö pitää kääntää yhdeksi koneeksi, ja käännösprosessissa eri ympäristöjen käännökset pitää pitää "samassa tahdissa" tavalla, jota ei voine pitää triviaalina. Menetelmän idean kehitti Ron Kaplan; en ole varma, onko sitä varsinaisesti julkaistu, mutta kirjallinen esitys on olemassa. (Toivottavasti tämä meni oikein. En ole perehtynyt yksityiskohtiin.)

There exists one. Problems arise only with those rules where a pair is allowed to exist in more than one alternative environment
(x:y => a:b _ y:0 d:0 ; x:0 _,
or something like that). One rule has to be translated to one machine, and in the translation process the translations of the different environments have to be kept "in the same pace" with a way which is not exactly trivial. The method was developed by Ron Kaplan; I am not sure whether it has actually been published, but there exists a written description of it. (I hope this is correct. I am not familiar with the details).

Computational Linguistics -lehdessä vuodelta noin 1991 tai 1992 numerossa se-ja-se on Graeme Ritchien artikkeli kaksitasokuvausten tuottamista kieliluokista. Siinä on tekstiä myös Kaplanin työstä.

Graeme Ritchie has an article about the classes of languages produced by two level mappings in the Computational Linguistics magazine, circa 1991 or 1992. There's also some text about the work of Kaplan.

3) Miksi nuo kaksitasosäännöt pitää kääntää tilakoneiksi? Olisiko niiden suora tulkkaaminen paljonkin hitaampaa? Tai voitaisiinko ne kääntää joksikin muiksi, helpommin suoritettaviksi lausekkeiksi?

3) Why the two-level rules have to be translated to state machines? Would it be much slower to interpret them directly? Or would it be possible to translate them to any other kind of expressions, which might be evaluated more easily?

Pointti automaattien käytössä lienee juuri se, että se on erittäin helppoa ja nopeaa, kunhan automaatti saadaan ensin rakennetuksi. Helpommin suoritettavaa esitysmuotoa tuskin on.

The whole idea of using the automata is in that it is very easy and fast to use them after they have been first constructed. There's probably no other formulation which would be easier to evaluate.

Muiden esitysmuotojen käyttöä saattaisi motivoida automaattien mahdollisesti vaatima paljo tila. Tätäkin helpottaa mahdollisuus esittää kone useana pienenä automaattina yhden suuren sijasta. Tätä taas vaikeuttaa se, että vaihtoehtoisia ympäristöjä sallivia sääntöjä ei taideta osata kääntää kuin yhdeksi automaatiksi.

It might be sensible to use other formulations because of the possibly high memory requirements of the automata. That is made easier by the possibility to formulate a machine (FSM) as several small automata instead of one large automaton. On the other hand, this is hard because rules which allow several alternative environments probably cannot be translated to more than just a single automaton.

4) Mihin muihin kieliin tätä mallia on sovellettu? Joku mainitsi ranskan. Entä espanja?

4) What other languages has this model been applied to? Somebody mentioned French. What about Spanish?

Suomi, ruotsi, englanti, venäjä, saksa, latina, ... Nämä ovat kai kaikki varsin kattavia kuvauksia.

Finnish, Swedish, English, Russian, German, Latin, ... Probably all of these are very extensive representations.

Toisaalta, onko järkeä sotkea ortografiaa morfologiseen malliin?

On the other hand, is it sensible to mix orthography with the morphologic model?

Kirjoitettua tekstiähän nuo käytännössä jäsentävät.

Well, it's written text that those (models) are actually parsing.

--
Jussi Piitulainen
jpiitula@ling.helsinki.fi


Article 78 of sfnet.tiede.kielitiede: Path: prime.mdata.fi!news.eunet.fi!news.csc.fi!news.helsinki.fi!news.helsinki.fi!ptapanai From: ptapanai@utrio.helsinki.fi (Pasi Tapanainen) Newsgroups: sfnet.tiede.kielitiede Subject: Re: Kimmo Koskenniemi: TWO-LEVEL MORPHOLOGY Date: 14 Jun 1994 11:17:55 GMT Organization: University of Helsinki, Finland Lines: 81 Message-ID: <PTAPANAI.94Jun14141755@utrio.helsinki.fi> References: <2ti5o8$21i@mits.mdata.fi> NNTP-Posting-Host: utrio.helsinki.fi Mime-Version: 1.0 Content-Type: text/plain; charset=ISO-8859-1 Content-Transfer-Encoding: 8bit In-reply-to: karttu@mits.mdata.fi's message of 13 Jun 1994 20:41:28 +0300
Kannattaa tutustua myös:

It's worth reading also:

Lauri Karttunen, Kimmo Koskenniemi, Ronald Kaplan. A Compiler for two-level phonological Rules. In Dalrymple et al. Tools for Morphological Analysis. Center for the Study of Language and Information. Stanford University. Palo Alto. 1987.

Lauri Karttunen, Ronald Kaplan, Annie Zaenen. Two-level morphology with Composition. In proceedings of COLING-92. Vol I. 141-48. Nantes, France. 1992.

1) Onko kirjassa esitetty tekniikka edelleenkin 'state-of-art' taivutettavien kielten (erityisesti suomen) sanojen parsimisessa ja tuottamisessa?

1) Is the technique introduced in the book still 'state-of-art' for parsing and producing words of the inflected languages (especially Finnish)?

Perusajatukseltaan taitaa olla.

By its basic principles, it probably is.

Näkyy olevan seuraavassa Coling-konferenssissa (elokuussa Kyotossa) artikkeli: A Two-level morphological analysis of Korean. (Kim et al.)

There seems to be an article in the next Coling conference (August in Kyoto): A Two-level morphological analysis of Korean. (Kim et al.)

Vai onko tämän jälkeen esitetty parempia malleja, tai edes parannuksia tähän malliin?

Has there been any better models published since then, or even any improvements to this model?

Karttunen et al. Coling-92.

Kuinka paljon löytyy tätä mallia käyttäviä 'tosielämän' sovellutuksia?

How many "real-life" applications are there that use this model?

Useissa tekstinkäsittelyohjelmissa (?).

In many word processing programs (?).

2) Onko vielä onnistuttu luomaan algoritmia, joka automaattisesti kääntäisi RPE:itä (Regular Pair Expressions) käyttävät kaksitasosäännöt (two-level rules) vastaaviksi tilakoneiksi (FSM, Finite State Machine)?

2) Has anybody accomplished to create an algorithm which would automatically translate the two-level rules that use RPE's (Regular Pair Expressions) to the corresponding state machines?

En ole aivan varma ymmärsinkö oikein, mitä piti kääntää miksi. Kääntäjiä on olemassa. Syöte on sääntö, esim.
k:j <=> [l | r | h] _ e: [Cons | #:];
Tämä tarkoittaa, että k muuttuu j:ksi, jos ennen on on l, r tai h ja perässä e ja konsonantti (tai sana loppuu). Tulos on FST (transduktori, transductor, transducer)

I am not sure whether I understood correctly what has to be translated to what. There exists translators. The input (for the translator) is a rule, e.g.
k:j <=> [l | r | h] _ e: [Cons | #:];
This means that k is changed to j, if it is preceded by l, r or h and it is followed by e and consonant (or the word ends). The result is a FST (transductor, transducer).

3) Miksi nuo kaksitasosäännöt pitää kääntää tilakoneiksi? Olisiko niiden suora tulkkaaminen paljonkin hitaampaa? Tai voitaisiinko ne kääntää joksikin muiksi, helpommin suoritettaviksi lausekkeiksi?

3) Why the two-level rules have to be translated to state machines? Would it be much slower to interpret them directly? Or would it be possible to translate them to any other kind of expressions, which might be evaluated more easily?

Nopea suoritusaika, selkeä matemaattinen malli jossa on helppo tehdä erilaisia operaatioita (ja silti vielä tiedetään mistä on kyse). Eikä kääntäminen ole erityisen vaikeaa.

Fast processing time, a clear mathematic model where it is easy to do all kinds of operations (and even after that it's clear what is going on). And it's not very hard to translate them.

4) Mihin muihin kieliin tätä mallia on sovellettu? Joku mainitsi ranskan. Entä espanja?

4) What other languages has this model been applied to? Somebody mentioned French. What about Spanish?

Tietääkseni, ainakin: suomi, ruotsi, venäjä, saksa, englanti, ranska, viro, tanska, suahili, baski, turkki, japani, korea, mari, ...

According to my knowledge, at least: Finnish, Swedish, Russian, German, English, French, Estonian, Danish, Suahili, Basque, Turkish, Japanese, Korean, Mari, ...

 Terveisin,

-- Pasi


Article 79 of sfnet.tiede.kielitiede: Path: prime.mdata.fi!news.eunet.fi!news.csc.fi!news.helsinki.fi!not-for-mail From: silvonen@cc.Helsinki.FI (Mikko Silvonen) Newsgroups: sfnet.tiede.kielitiede Subject: Re: Kimmo Koskenniemi: TWO-LEVEL MORPHOLOGY Date: 14 Jun 1994 17:21:16 +0300 Organization: Suomen Keisarillinen Aleksanterin-Yliopisto Lines: 20 Message-ID: <2tkecs$fkk@karhu.Helsinki.FI> References: <2ti5o8$21i@mits.mdata.fi> NNTP-Posting-Host: karhu.helsinki.fi Mime-Version: 1.0 Content-Type: text/plain; charset=iso-8859-1 Content-Transfer-Encoding: 8bit Viestissä <2ti5o8$21i@mits.mdata.fi> karttu@mits.mdata.fi (Antti Karttunen) kyselee kaksitasomallista:
1) Onko kirjassa esitetty tekniikka edelleenkin 'state-of-art' taivutettavien kielten (erityisesti suomen) sanojen parsimisessa ja tuottamisessa? Vai onko tämän jälkeen esitetty parempia malleja, tai edes parannuksia tähän malliin? Kuinka paljon löytyy tätä mallia käyttäviä 'tosielämän' sovellutuksia?

1) Is the technique introduced in the book still 'state-of-art' for parsing and producing words of the inflected languages (especially Finnish)? Has there been any better models published since then, or even any improvements to this model? How many "real-life" applications are there that use this model?

Viime maaliskuussa järjestettiin Erlangenissa maailmanmestaruuskisat saksan kielen morfologisten analysaattorien kesken, ja voittajaohjelma (jota - *kröhöm* - olin itse mukana tekemässä) noudatti kaksitasomallia, joten eiköhän malli ole vielä ihan käypää tavaraa.

Last March the world championship competition was held in Erlangen between the morphologic analysators of the German language, and the winning program (in design of which I participated) was based on the two-level model, so I assume that it is still very current.

Mallia on sovellettu ainakin useissa tekstinkäsittely- ja indeksointiohjelmissa.

The model has been utilized at least in several word processing and indexing programs.

-- 
Mikko Silvonen             ! "Nykyisyyden lähin suunta on lähin
Mikko.Silvonen@Helsinki.FI !  tulevaisuus, joka on kaukaisinta
Universitas Helsingiensis  !  menneisyyttä." (Kauko Nieminen)

Links