英語と5つの人工言語で基礎語彙の編集距離を求めます。
目次
概要
Interlingua を作る際に、人工言語の分類が行われました。
Model P highly naturalistic, with word forms unchanged from the prototypes Model M moderately naturalistic, similar to Occidental Model C slightly schematic, along the lines of Novial Model K moderately schematic, similar to Ido (less schematic than Esperanto)
Model P がもっとも自然言語に近く、M → C → K と人工的になっていきます。Esperanto は Model K よりも更に人工的だと位置付けられています。検討の結果、Interlingua は Model P として設計されました。
ここで名前が挙がった人工言語を人工的な順に並べます。
- Esperanto
- Ido
- Novial
- Interlingue(旧称 Occidental)
- Interlingua
※ Novial と Interlingue を入れ替えれば発表された順番になります。
これらに英語を加えて、基礎単語の類似度を調べます。
スワデシュ・リスト
基礎単語の調査によく使われるのがスワデシュ・リストです。
スワデシュ・リスト (英語:Swadesh list)とは、「基礎語彙」を集めた様々なリストのうちの一種であり、モリス・スワデシュが1940年代から1950年代にかけて発展させたものである。語彙統計学(言語間の近縁度の量的な見積もり)や、言語年代学(言語の分岐年代の決定)に用いられる。
Wiktionary には様々な言語のスワデシュ・リストがまとめられています。
※ Novial は私が編集しました。
対象の言語を引用します。なお、複数の語が掲載されている場合、他の言語と語形が似ている単語だけを残しました。
| English | Esperanto | Ido | Novial | Interlingue | Interlingua |
|---|---|---|---|---|---|
| I | mi | me | me | yo | io |
| thou | vi | tu | vu | tu | tu |
| he | li | ilu | lo | il | ille |
| we | ni | ni | nus | noi | nos |
| you | vi | vi | vus | vu | vos |
| they | ili | ili | los | ili | illes |
| this | ĉi tio | ica | disi | to-ci | iste |
| that | tio | ita | ti | to-ta | celle |
| here | ĉi tie | hike | hir | ci | hic |
| there | tie | ibe | dar | ta | illac |
| who | kiu | qua | que | qui | qui |
| what | kio | quo | quum | quo | que |
| where | kie | ube | vor | u | ubi |
| when | kiam | kande | quand | quande | quando |
| how | kiel | quale | quam | qualmen | como |
| not | ne | ne | non | ne | non |
| all | ĉiuj | omna | omni | omni | omne |
| many | multaj | multa | multi | mult | multe |
| some | kelkaj | kelka | kelki | quelc | alcun |
| few | malmultaj | poka | poki | poc | poc |
| other | alia | altra | altri | altri | altere |
| one | unu | un | un | un | un |
| two | du | du | du | du | duo |
| three | tri | tri | tri | tri | tres |
| four | kvar | quar | quar | quar | quatro |
| five | kvin | kin | sink | quin | cinque |
| big | granda | granda | grandi | grand | grande |
| long | longa | longa | longi | long | longe |
| wide | larĝa | larja | larji | larg | large |
| thick | dika | dika | gros | spess | spisse |
| heavy | peza | grava | grav | pesant | pesante |
| small | malgranda | mikra | mikri | micri | parve |
| short | mallonga | kurta | kurti | curt | curte |
| narrow | mallarĝa | streta | angusti | strett | stricte |
| thin | maldika | dina | tenu | tenui | tenue |
| woman | virino | muliero | fema | fémina | femina |
| man | viro | viro | viro | mann | viro |
| man | homo | homo | home | hom | homine |
| child | infano | infanto | infante | infante | infante |
| wife | edzino | spozino | marita | marita | marita |
| husband | edzo | spozulo | marito | marito | marito |
| mother | patrino | matro | matra | matre | matre |
| father | patro | patro | patre | patre | patre |
| animal | besto | animalo | animale | animale | animal |
| fish | fiŝo | fisho | fishe | pise | pisce |
| bird | birdo | ucelo | fogle | avie | ave |
| dog | hundo | hundo | hunde | cane | can |
| louse | pediko | lauso | lause | pedicul | pediculo |
| snake | serpento | serpento | serpente | serpente | serpente |
| worm | vermo | vermo | verme | verme | verme |
| tree | arbo | arboro | arbre | árbor | arbore |
| forest | arbaro | foresto | foreste | forest | foreste |
| stick | bastono | bastono | bastone | baston | baston |
| fruit | frukto | frukto | frukte | fructe | fructo |
| seed | semo | semino | seme | seme | semine |
| leaf | folio | folio | folie | folie | folio |
| root | radiko | radiko | radike | radica | radice |
| bark | arboŝelo | kortico | kortise | cortice | cortice |
| flower | floro | floro | flore | flor | flor |
| grass | herbo | herbo | gasone | herbe | herba |
| rope | ŝnuro | kordo | korde | corde | corda |
| skin | haŭto | pelo | pele | pelle | pelle |
| meat | viando | karno | karne | carne | carne |
| blood | sango | sango | sange | sangue | sanguine |
| bone | osto | osto | ose | osse | osso |
| fat | graso | graso | grasi | grasse | grassia |
| egg | ovo | ovo | ove | ove | ovo |
| horn | korno | korno | korne | corn | corno |
| tail | vosto | kaudo | kaude | caude | cauda |
| feather | plumo | plumo | plume | plum | pluma |
| hair | haro | haro | hare | capille | capillos |
| head | kapo | kapo | kape | cap | capite |
| ear | orelo | orelo | orele | orel | aure |
| eye | okulo | okulo | okule | ocul | oculo |
| nose | nazo | nazo | nase | nase | naso |
| mouth | buŝo | boko | boke | bocca | bucca |
| tooth | dento | dento | dente | dente | dente |
| tongue | lango | lango | lange | lingue | lingua |
| nail | ungo | unglo | ungle | ungul | ungula |
| foot | piedo | pedo | pede | pede | pede |
| leg | kruro | gambo | gambe | gambe | gamba |
| knee | genuo | genuo | genu | genú | genu |
| hand | mano | manuo | manu | manu | mano |
| wing | flugilo | alo | ale | ale | ala |
| belly | ventro | ventro | ventre | ventre | ventre |
| guts | intestaro | intestini | intestines | intrallia | tripas |
| neck | kolo | kolo | kole | col | collo |
| back | dorso | dorso | dorse | dorse | dorso |
| breast | brusto | pektoro | pektore | péctor | pectore |
| heart | koro | kordio | kordie | cordie | corde |
| liver | hepato | hepato | hepate | hépate | hepato |
| drink | trinki | drinkar | drinka | trincar | biber |
| eat | manĝi | manjar | manja | manjar | mangiar |
| bite | mordi | mordar | morda | morder | morder |
| suck | suĉi | sugar | suka | sucar | suger |
| spit | kraĉi | sputar | sputa | sputar | sputar |
| vomit | vomi | vomar | vomi | vomir | vomitar |
| blow | blovi | suflar | sufla | sufflar | sufflar |
| breathe | spiri | respirar | spira | respirar | respirar |
| laugh | ridi | ridar | rida | rider | rider |
| see | vidi | vidar | vida | vider | vider |
| hear | aŭdi | audar | audi | audir | audir |
| know | scii | savar | sava | saver | saper |
| think | pensi | pensar | pensa | pensar | pensar |
| smell | flari | flarar | flara | flarar | olfacer |
| fear | timi | timar | tima | timer | timer |
| sleep | dormi | dormar | dormi | dormir | dormir |
| live | vivi | vivar | viva | viver | viver |
| die | morti | mortar | mori | morir | morir |
| kill | mortigi | ocidar | tua | mortar | occider |
| fight | batali | kombatar | kombata | combatter | luctar |
| hunt | ĉasi | chasar | chasa | chassar | chassar |
| hit | bati | frapar | frapa | frappar | colpar |
| cut | tondi | tranchar | seka | ciser | secar |
| split | fendi | fendar | fenda | fender | finder |
| stab | mortpiki | poniardagar | pika | picar | dagar |
| scratch | grati | gratar | grata | grattar | grattar |
| dig | fosi | fodar | fosa | fossar | foder |
| swim | naĝi | natar | svima | svimmar | natar |
| fly | flugi | flugar | vola | volar | volar |
| walk | marŝi | marchar | marcha | ear | ambular |
| come | veni | venar | veni | venir | venir |
| lie | kuŝi | jacar | lia | jacer | jacer |
| sit | sidi | sidar | sida | seder | seder |
| stand | stari | stacar | stea | star | star |
| turn | turniĝi | turnar | rota | tornar | rotar |
| fall | fali | falar | fala | cader | cader |
| give | doni | donar | dona | dar | dar |
| hold | teni | tenar | tena | tener | tener |
| squeeze | premi | klemar | klema | compresser | premer |
| rub | froti | frotar | frota | fricter | fricar |
| wash | lavi | lavar | lava | lavar | lavar |
| wipe | viŝi | vishar | visha | essuyar | essugar |
| pull | tiri | tirar | tira | tirar | tirar |
| push | puŝi | pulsar | shova | pussar | pulsar |
| throw | ĵeti | jetar | jeta | jettar | jectar |
| tie | ligi | ligar | liga | nodar | ligar |
| sew | kudri | sutar | suta | suer | suer |
| count | kalkuli | kontar | konta | contar | contar |
| say | diri | dicar | dikte | dir | dicer |
| sing | kanti | kantar | kanta | cantar | cantar |
| play | ludi | ludar | plea | luder | jocar |
| float | flosi | flotacar | flota | flottar | flottar |
| flow | flui | fluar | flua | fluer | fluer |
| freeze | frostigi | frostar | frosta | gelar | gelar |
| swell | ŝveli | inflar | infla | inflar | tumer |
| sun | suno | suno | sune | sole | sol |
| moon | luno | luno | lune | lune | luna |
| star | stelo | stelo | stele | stelle | stella |
| water | akvo | aquo | aque | aqua | aqua |
| rain | pluvo | pluvo | pluve | pluviar | pluvia |
| river | rivero | fluvio | fluvie | fluvie | fluvio |
| lake | lago | lago | lage | lago | laco |
| sea | maro | maro | mare | mare | mar |
| salt | salo | salo | sale | sale | sal |
| stone | ŝtono | petro | petre | petre | petra |
| sand | sablo | sablo | sande | sable | sablo |
| dust | polvo | polvo | polve | polve | pulvere |
| earth | tero | tero | tere | terre | terra |
| cloud | nubo | nubo | nube | nube | nube |
| fog | nebulo | nebulo | neble | nebul | nebula |
| sky | ĉielo | cielo | siele | ciel | celo |
| wind | vento | vento | vente | vente | vento |
| snow | neĝo | nivo | nive | nive | nive |
| ice | glacio | glacio | glasie | glacie | glacie |
| smoke | fumo | fumuro | fume | fum | fumo |
| fire | fajro | fairo | faire | foy | foco |
| ash | cindro | cindro | sindre | cindre | cinere |
| burn | bruli | brular | brula | arder | arder |
| road | strato | strado | strade | strada | strata |
| mountain | monto | monto | monte | monte | montania |
| red | ruĝa | reda | red | rubi | rubie |
| green | verda | verda | verdi | verdi | verde |
| yellow | flava | flava | gelbi | yelb | jalne |
| white | blanka | blanka | blanki | blanc | blanc |
| black | nigra | nigra | nigri | nigri | nigre |
| night | nokto | nokto | nokte | nocte | nocte |
| day | tago | jorno | jorne | jorne | die |
| year | jaro | yaro | yare | annu | anno |
| warm | varma | varma | varm | calid | calide |
| cold | malvarma | kolda | koldi | frigid | frigide |
| full | plena | plena | plen | plen | plen |
| new | nova | nova | nov | nov | nove |
| old | malnova | anciena | old | old | vetere |
| good | bona | bona | bon | bon | bon |
| bad | malbona | mala | mal | mal | mal |
| rotten | putra | putrinta | putrit | putrid | putride |
| dirty | malpura | sordida | sordid | sordid | immunde |
| straight | rekta | rekta | rekt | rect | recte |
| round | ronda | ronda | rond | rond | ronde |
| sharp | akra | akuta | akut | acut | acute |
| dull | malakra | obtuza | obtus | ínacut | obtuse |
| smooth | glata | glata | glati | glatt | lisie |
| wet | malseka | humida | dessik | humid | humide |
| dry | seka | sika | sik | sicc | sic |
| correct | ĝusta | korekta | justi | just | correcte |
| near | proksima | proxim | proxim | proxim | proxime |
| far | malproksima | for | ferni | lontan | distante |
| right | dekstra | dextra | dextri | dextri | dextre |
| left | maldekstra | sinistra | lefti | levul | sinistre |
| at | ĉe | che | che | che | apud |
| in | en | en | in | in | in |
| with | kun | kun | kun | con | con |
| and | kaj | e | e | e | e |
| if | se | se | si | si | si |
| because | ĉar | pro ke | pro ke | pro que | proque |
| name | nomo | nomo | nome | nómine | nomine |
英語はかなり違います。人工言語同士は似ていますが、Esperanto は少し毛色が異なる印象です。
正規化レーベンシュタイン距離
どのくらい似ているのかを、正規化したレーベンシュタイン距離で比較します。
類似度を 0~1 の数値で表します。値が大きいほど類似していると判断されています。
| English | Esperanto | Ido | Novial | Interlingue | Interlingua | |
|---|---|---|---|---|---|---|
| English | 0.184 | 0.199 | 0.236 | 0.202 | 0.177 | |
| Esperanto | 0.184 | 0.623 | 0.498 | 0.438 | 0.360 | |
| Ido | 0.199 | 0.623 | 0.674 | 0.630 | 0.506 | |
| Novial | 0.236 | 0.498 | 0.674 | 0.651 | 0.472 | |
| Interlingue | 0.202 | 0.438 | 0.630 | 0.651 | 0.601 | |
| Interlingua | 0.177 | 0.360 | 0.506 | 0.472 | 0.601 |
類似度の順位です。
- Ido - Novial: 0.674
- Novial - Interlingue: 0.651
- Ido - Interlingue: 0.630
- Esperanto - Ido: 0.623
- Interlingue - Interlingua: 0.601
- Ido - Interlingua: 0.506
- Esperanto - Novial: 0.498
- Novial - Interlingua: 0.472
- Esperanto - Interlingue: 0.438
- Esperanto - Interlingua: 0.360
- English - Novial: 0.236
- English - Interlingue: 0.202
- English - Ido: 0.199
- English - Esperanto: 0.184
- English - Interlingua: 0.177
モデルとして分類した際に隣接した言語が似ていると判断されています。
- Esperanto-(4)-Ido-(1)-Novial-(2)-Interlingue-(5)-Interlingua
英語はかなり離れていますが、Novial とはやや近いです。
ジャロ・ウィンクラー距離
参考までに、別のアルゴリズムによる類似度を示します。
| English | Esperanto | Ido | Novial | Interlingue | Interlingua | |
|---|---|---|---|---|---|---|
| English | 0.439 | 0.460 | 0.494 | 0.452 | 0.447 | |
| Esperanto | 0.439 | 0.794 | 0.701 | 0.679 | 0.627 | |
| Ido | 0.460 | 0.794 | 0.846 | 0.804 | 0.754 | |
| Novial | 0.494 | 0.701 | 0.846 | 0.824 | 0.738 | |
| Interlingue | 0.452 | 0.679 | 0.804 | 0.824 | 0.827 | |
| Interlingua | 0.447 | 0.627 | 0.754 | 0.738 | 0.827 |
類似度の順位です。
- Ido - Novial: 0.846
- Interlingue - Interlingua: 0.827
- Novial - Interlingue: 0.824
- Ido - Interlingue: 0.804
- Esperanto - Ido: 0.794
- Ido - Interlingua: 0.754
- Novial - Interlingua: 0.738
- Esperanto - Novial: 0.701
- Esperanto - Interlingue: 0.679
- Esperanto - Interlingua: 0.627
- English - Novial: 0.494
- English - Ido: 0.460
- English - Interlingue: 0.452
- English - Interlingua: 0.447
- English - Esperanto: 0.439
正規化レーベンシュタイン距離とは順位が異なります。
やはりモデルとして分類した際に隣接した言語が似ていると判断されています。
- Esperanto-(5)-Ido-(1)-Novial-(3)-Interlingue-(2)-Interlingua
スクリプト
計算に使用したスクリプトです。
参考
正規化する前のレーベンシュタイン距離の計算方法は以下を参照してください。
正規化(標準化)やジャロ・ウィンクラー距離については以下を参照してください。