CV

JMdict

Apr 28 2013

JMdict: японсько-багатомовний словник

Джим Брин
Університет Монаша
Клейтон 3800, Австралія
[email protected]

Оригінальна стаття

 

 

Анотація

Метою проекту JMdict є створення багатомовної лексичної бази даних з японською мовою. Використовуючи структуру XML, розроблену для забезпечення поєднання мов та багатого набору лексикографічної інформації, вона досягла розміру приблизно 100 000 записів, при цьому більшість записів мають переклади англійською, французькою та німецькою мовами. Збірка передбачає повторне використання інформації, при цьому переклади з французької та німецької мов складаються з окремо лексиконів, що підтримуються. Також входять матеріали з інших мов. Файл є вільно доступним для дослідницьких цілей та для включення в словникове прикладне програмне забезпечення та доступний у кількох серверних системах WWW.

  1. Введення

Основною метою проекту JMdict є складання японськомовного багатомовного словника, тобто словника, в якому заголовки є з японського лексикону, а переклади – на декількох інших мовах. Це може розглядатися як синтез ряду двомовних словників японсько-іншої мови, хоча, як обговорювалося нижче, заслуговує на те, щоб ця інформація була розміщена колологічно.

Проект перетворився на попередній проект японсько-англійського словника (EDICT: Електронний словник) (Breen, 1995, 2004a). Оскільки японська мова є важливою мовою у світовій торгівлі, а вона є другою найпоширенішою мовою, що використовується у WWW, не дивно, що існує великий інтерес до електронних лексичних ресурсів для японців у поєднанні з іншими мовами.

2 Цілі та розвиток проекту

Як було сказано вище, проект JMdict виріс із двомовного словникового проекту EDICT. Проект EDICT розпочався на початку 1990-х років з відносно простою метою створення файлу японсько-англійського словника, який міг би використовуватися в основних програмних пакетах для надання традиційних словникових послуг, а також засобів для читання японського тексту. Формат був (і є) досить простим, включаючи рядки тексту, що складаються з японського слова, написаного за допомогою канджі та / або кана, читання (вимова) цього слова в кана і один або кілька англійських перекладів.

До кінця 90-х років файл переріс своє скромне походження, досягнувши понад 50 000 записів і розпочавши паралельний проект запису власних японських іменників (див. Нижче). Матеріал частково складений зі списків слів, списків словника тощо у загальнодоступному доступі та доповнений матеріалами, підготовленими великою кількістю користувачів та інших добровольців, які бажають внести свій внесок. Хоча він використовувався в різноманітних програмних системах і як джерело лексичного матеріалу в ряді проектів, було зрозуміло, що його структура була цілком недостатньою для лексичних вимог, які пред’являють користувачі. Зокрема, він не зміг включити відповідну різноманітність інформації, а також не представляти ортографічні складності мови-джерела. Відповідно,у 1999 р. було вирішено розпочати новий словниковий проект, що містить інформацію з файлу EDICT, але розширив, щоб включити переклади з інших мов, а японські записи залишаються основними. Цілями проекту були:

  1. формат файлу, бажано з використанням визнаного стандарту, який би забезпечував готовий доступ та аналіз різних програмних програм;
  2. поводження з орфографічною та вимовою вимови в одному записі. Це вирішило велику проблему з форматом EDICT, оскільки багато японських слів можна записати з альтернативними канджі та з різними частками у кана (окурігана),і вони можуть мати альтернативні вимови. Формат EDICT вимагав, щоб кожен варіант розглядався як окремий запис, що додало складності збереження та розширення словника;
  3. додаткове та більш відповідне пов’язане позначення граматичної та іншої інформації. До файлу EDICT у дужках у полях перекладу була додана певна інформація, наприклад, частина мови або мова мовлення запозичених слів, але сфера застосування була обмежена, і інформацію неможливо було легко розібрати;
  4. положення про розмежування різних почуттів у перекладах. Хоча основна вказівка на полісемію була надана у файлі EDICT шляхом попереднього додавання (1), (2) тощо до груп перекладів, результат був важкий для розбору. Крім того, він не підтримував випадок, коли сенс або нюанс прив’язувались до певної вимови, як це трапляється іноді в японській мові;
  5. положення про включення трансляційних еквівалентів з декількох мов. Файл словника EDICT використовувався в ряді країн, і кілька неофіційних проектів почали розробляти еквівалентні файли для японської та інших цільових мов. Невеликий японсько-німецький файл (JDDICT) був випущений у форматі EDICT. Висловлювався значний інтерес до того, щоб переклади на різні мови були розміщені для того, щоб увімкнути такі файли, як єдиний довідковий файл для декількох мов, перехресне посилання записів, пошук міжмовної мови тощо, а також діяти як фокус для можливого розвитку перекладів ще не представлених мов;
  6. положення про включення прикладів вживання слів. У міру розширення файлу багато користувачів файлу вимагали пов’язати певні форми прикладів використання зі словами у файлі. Формат EDICT не зміг цього підтримати;
  7. забезпечення перехресних посилань на відповідні записи;
  8. продовження генерації файлів у форматі EDICT. Оскільки велика кількість пакетів і серверів була побудована навколо формату EDICT, подальше надання вмісту в цьому форматі вважалося важливим, навіть якщо інформація містила лише підмножину наявного.

Раннє рішення полягало в тому, щоб використовувати XML (розширювану мову розмітки) як формат для файлу JMdict, оскільки, як очікується, це забезпечить відповідну гнучкість у форматі, а також, як очікується, він буде підтримуватися додатками, розбирати бібліотеки тощо.

Була проведена експертиза інших доступних форматів словника, щоб з’ясувати, чи була відповідна модель форматування. Було відомо, що видавці комерційних словників мають чітко структуровані бази даних лексичної інформації, а деякі переходять до XML, але жодної інформації не було. Велика кількість двомовних словникових файлів та списків слів була загальнодоступною; проте загалом вони використовували лише дуже прості структури, і не було знайдено жодної, яка б відповідала усім вимогам щодо змісту проекту. Розділ словника TEI (Text Encoding Initiative), який на момент написання має добре розвинену структуру документів для двомовних словників, був на цьому етапі досить обмеженим (Sperberg-McQueen et al, 1999). Відповідно,був розроблений XML DTD (Визначення типу документа), який був адаптований до вимог проекту.

Файл EDICT був проаналізований та переформатований у структуру JMdict, і в той же час багато орфографічних варіантів були ідентифіковані та об’єднані. Початковий випуск файлу формату DTD та XML відбувся у травні 1999 р. На цьому етапі він містив англійські переклади з файлу EDICT та німецькі переклади з файлу JDDICT. Як описано нижче, відтоді він значно розширився як за кількістю записів, так і за багатомовним покриттям.

3 Статус проекту

Файл JMdict був вперше випущений у 1999 році, а оновлені версії виходять 3-4 рази щороку разом із версіями файлу EDICT, який генерується одночасно з одних і тих же файлів даних. Зараз у файлі понад 99 300 записів, тобто розмір середнього великого друкованого словника, і зростання кількості записів зараз відносно повільний, більшість оновлень стосується виправлень та розширення існуючих записів.

Файл доступний за ліберальною ліцензією, що дозволяє використовувати його практично без будь-яких цілей без плати. Єдина вимога – повне визнання його використання та продовження будь-яких файлів, розроблених із нього, на тих же ліцензійних умовах.

4 Структура

Структура JMdict XML містить один тип елементів: <entry>, який, в свою чергу, містить порядковий номер, слово kanji, слово kana, інформацію та елементи перекладу. Порядковий номер використовується для обслуговування та ідентифікації.

Елементи слова канджі та слова кани містять дві форми японських заголовків; перший використовується для представлень, що містять щонайменше один символ кандзі, а другий – для представлень лише в кана. Слово kana є ефективною вимовою, але також є важливим ключем для індексації файлу словника, оскільки японські словники зазвичай упорядковуються словами kana. Мінімальний вміст цих полів – це одне слово в елементі слова kana. Крім того, кожен запис може містити інформацію про слова (незвичайний ортографічний варіант, архаїчні кандзи тощо) та інформацію про частоту використання. Останнє має бути пов’язане із власне словами, а не із записом у цілому, оскільки деякі комбінації слів канджі та кана використовуються частіше, ніж інші. (Наприклад,合 気 道 і 合氣道 є ортографічними варіантами одного слова (aikidô) , але перший зустрічається частіше.)

Кана, що використовується в елементах, відповідає сучасній японській орфографії, тобто хірагана використовується для власних японських слів, а катакана – для запозичених слів, ономатопеєвих слів тощо.

У більшості випадків запис містить лише одне слово канджі та одне слово кана (приблизно 75%) або одне лише слово кана (15%). Приблизно в 10% записів в одному з елементів є кілька слів. У деяких випадках читання кана може бути пов’язане лише з підмножиною слів канджі у записі. Наприклад, сойоказе (そ よ か ぜ: вітер) можна записати або 微風, або そ よ 風 (останнє частіше, оскільки common そ – нестандартне читання 微 кандзі). Однак 微風 також може бути вимовлено bifuu (び ふ う) з тим же значенням, але явно ця вимова не може бути пов’язана з формою そ よ 風, оскільки частина кана читається як «сойо». XML не забезпечує елегантний метод вказівки обмеженого відображення між частинами двох елементів, тому коли таке обмеження потрібно, додаткові теги використовуються для кожного слова кана, що подає слово канджі, з яким воно може бути дійсно пов’язане.

Інформаційний елемент містить загальну інформацію про японське слово або запис у цілому. Зміст передбачає ISO-639 кодів мов джерел (для позикових слів), діалектних кодів, етимології, бібліографічної інформації та оновлення деталей.

Область перекладу складається з одного або декількох сенсорних елементів, які містять як мінімум один вхід. З кожним сенсом пов’язаний набір елементів, що містять частину мови, перехресне посилання, синонім / антонім, використання та ін. Також пов’язані з сенсом можуть бути обмежувальні коди, прив’язуючи сенс до підмножини японських слів. Наприклад, 水 気 можуть бути вимовлені суїкі (す い き) і мізури (み ず け); і те, і інше означає “волога”, але одне колишнє також може означати “водянка”.

Елемент gloss має атрибут, який вказує цільову мову перекладу. За його відсутності передбачається, що блиск англійською мовою. Існує також атрибут, що вказує на стать, якщо, наприклад, частина мови є іменником, а блиск – мовою з іменниками статі. На малюнку 1 показаний дещо спрощений приклад запису. Елементи <ke_pri> і <re_pri> вказують, що слово є членом певного набору загальних слів.

<вхід>

<ent_seq> 1206730 </ent_seq>

<k_ele>

<keb> 学校 </keb>

<ke_pri> ichi1 </ke_pri>

</k_ele>

<r_ele>

<reb> が っ こ う </reb>

<re_pri> ichi1 </re_pri>

</r_ele>

<сенс>

<pos> & n; </pos>

<gloss> школа </gloss>

<gloss g_lang = “nl” g_gend = “fg”> школа </gloss>

<gloss g_lang = “fr” g_gend = “fg”> école </gloss>

<gloss g_lang = “ru” g_gend = “fg”> школа </gloss>

<gloss g_lang = “de” g_gend = “fg”> Schule </gloss>

<gloss g_lang = “de” g_gend = “fg”> Lehranstalt </gloss>

</sense>

</entry>

Рис. 1: Приклад запису JMdict

Потенціал мати декілька слів канджі та кана в межах запису привертає увагу до питань омонімії, гомографії та полісемії та політики поводження з ними, зокрема критеріїв поєднання слів канджі та кана в один запис. Оскільки у японців є відносно обмежений набір фонем, існує велика кількість однорідних слів. Наприклад, понад двадцять різних слів представляють кана representation う じ ょ う (kôjô). Якщо ми розглядаємо гомографію лише як слова, написані повністю або частково з канджі, то випадків у них є порівняно мало, однак вони існують, наприклад, 川 柳 при читанні せ ん り ゅ う (senryû) означає комічний вірш, але при читанні か わ や な ぎ (kawayanagi) означає сорт верби.

Правило поєднання, яке було застосовано при складанні файлу JMdict, таке:

  1. трактуйте кожен основний запис як триплет, що складається з: представлення кандзі, узгодження подання кана, почуттів;
  2. якщо для будь-яких базових записів два чи більше членів триплета однакові, об’єднайте їх в один запис;
  • якщо записи відрізняються у представленні канджі чи кана, включайте їх як альтернативні форми;
  • якщо записи відрізняються за змістом, трактуйте як випадок полісемії;
  1. в інших випадках залиште записи окремими.

Це правило успішно застосовується у більшості випадків. Основні проблеми виникають там, коли значення є подібними або спорідненими, як у випадку записів: (放 す, は な す, відокремити; звільнити; звільнитися) і (離 す, は な す, розлучити; розділити; розділити; ), де слова кана однакові і значення перетинаються. Японські словники поділяються на 放 す і 離 す; деякі зберігають їх як окремі записи, а інші мають їх як один запис із двома основними сенсами. (Два слова походять із загального джерела.)

5 Частини мови та супутні питання

Оскільки мови відрізняються за своєю частиною мови (POS), запис цих деталей у двомовних словниках може бути проблемою (Al-Kasimi, 1977). Традиційно двомовні словники, що містять японську мову, уникають запису будь-якої інформації про POS, залишаючи її користувачу для виведення цієї інформації з перекладу та прикладів (якщо такі є). На ранніх стадіях проекту EDICT інформація POS була свідомо зведена до мінімуму, наприклад, вказуючи, де дієслово було транзитивним чи неперехідним, коли цього не було видно з перекладу, головним чином, для економії простору зберігання. Оскільки існує ряд переваг у тому, щоб інформація про POS була позначена у файлі електронного словника, елемент POS був включений у структуру JMdict, а для заповнення більшої частини файлу використовувались загальнодоступні класифікації POS. Близько 30% публікацій залишаються класифікованими; переважно іменники або короткі іменні словосполучення.

В інтересах економії місця було прийнято раннє рішення уникнути переліку похідних форм слів. Наприклад, японський прикметник 高 い (takai), що означає “високий, високий, дорогий”, отримав форми 高 さ (takasa) “висота” та 高 く (такаку) “високо”. Оскільки цей процес є дуже регулярним, багато японських словників не містять записів для похідних форм, а деякі двомовні словники слідують цьому. Іншим таким прикладом є загальна дієслівна форма, яку іноді називають “дієслівним іменником”, яка створюється додаванням дієслова す る (suru) “робити” до відповідних іменників. Дієслово “вивчати” є 勉強 す る (benkyôsuru) де 勉強 – іменник, що означає “дослідження” в цьому контексті. Знову ж таки, японські словники часто не включають ці форми як заголовки, вважаючи за краще вказувати в тексті запису, що формування можливо.

Опущення таких похідних форм означає, що потрібно бути обережним при побудові перекладів, щоб користувач міг легко ідентифікувати відповідний переклад однієї з похідних форм.

У багатомовному контексті упущення похідних форм може мати інші проблеми. Повідомляється, що запис bs る дієслів лише у формі їх іменників призводить до певного дискомфорту серед німецьких користувачів, оскільки орфографічна конвенція німецької мови використовує великі літери іменників, але не дієслова (у файлі WaDokuJT є す る дієслова як окремі записи з цієї причини ).

6 Включення та підтримка декількох мов

Як було сказано вище, частина інтересу до записів із перекладами на різних мовах виникла з компіляції ряду словникових файлів на основі або схожих на файл EDICT. Існує низка питань, пов’язаних із включенням матеріалів з інших файлів словника, зокрема з питань, що стосуються політики компіляції: висвітлення, обробка складних форм тощо (Breen, 2002). Є також головне питання редагування та зміст матеріалу, який може стати складнішим, оскільки вбудована кожна мова.

Підхід, застосований за рішенням JMdict:

  1. підтримувати основний японсько-англійський файл із добре задокументованою структурою та набором політик включення та редагування;
  2. заохочувати розробку та підтримку еквівалентних файлів іншими мовами, поєднаними з японською мовою, які можуть використовувати необхідний матеріал JMdict / EDICT;
  3. періодично будувати повний багатомовний JMdict з різних компонентів.

Цей підхід виявився успішним тим, що він відокремив компіляцію файлу від редагування компонентів, що тривають, і залишив останню в руках тих, хто має навички та мотивацію виконувати завдання.

На момент написання файлу файл JMdict налічував понад 99 300 записів (японська та англійська), з них 83 500 – німецькі переклади, 58 000 – переклади з французької, 4 800 – переклади російською та 530 – нідерландські. Готується набір з приблизно 4500 перекладів з іспанської мови, з перспективою, що найближчим часом з’явиться близько 20 000.

Основними джерелами цих додаткових перекладів є:

  1. Французькі переклади з двох проектів:
    1. приблизно 17 500 записів надійшли з проекту Dictionnaire français-japonais (Desperrier, 2002), проекту перекладу найпоширеніших японських слів із файлу EDICT на французьку мову;
    2. ще 40 500 записів, узятих із 仏 語 補 完 計画 (французько-японського проекту вдосконалення) на веб-сайті http://francais.sourceforge.jp/ (Цей проект також базується на файлі EDICT.)
  2. Німецькі переклади з проекту WaDokuJT (Apel, 2002). Це великий файл із понад 300 000 записів; однак, на відміну від JM presud, він включає в себе безліч фраз, власних іменників та словосполучень форм дієслів і т. д. Перекриття покриття JMdict досить високе, що призводить до великої кількості записів, які були включені до файлу JMdict.

Одне з питань, яке може призвести до проблем при включенні перекладів з інших файлів проекту, – це вирівнювання перекладів, коли запис має кілька значень. Що стосується французьких перекладів, координатор проекту позначив переклади багатозначних записів сенсорним кодом, таким чином, дозволяючи переклади вставити правильно під час компіляції остаточного файлу. Для інших мов переклади додаються до набору англійських перекладів. Відповідне поводження з численними органами почуттів – предмет майбутньої роботи.

7 Приклади використання слів

Коли проект розпочався та розроблено DTD, передбачалося, що набори двомовних прикладів використання введених слів будуть включені. З цієї причини елемент <приклад> асоціювався з кожним почуттям, щоб дозволити включення таких прикладних фраз, речень тощо.

На практиці прийнято зовсім інший підхід. З наявністю з 2001 р. Великого корпусу паралельних японських / англійських речень (Tanaka, 2001) було вирішено зберегти тіло неушкодженим, а натомість передбачити об’єднання виділених речень із корпусу зі словниковими записами за допомогою програмного забезпечення словника ( Breen, 2003b). Ця стратегія, яка вимагала розбору корпусу для отримання набору вказівних слів для кожного речення, виявилася ефективною на рівні програми. Він також має перевагу роз’єднання технічного обслуговування файлу словника від прикладу корпусу.

8 Суміжні проекти

Окрім кількох невеликих списків слів, що містять кілька європейських мов, єдиним іншим головним поточним проектом, який намагається скласти всебічну багатомовну базу даних, є проект Papillon (наприклад, Boitet et al, 2002). Повний список публікацій див. На http://www.papillon-dictionary.org/ дизайн Papillon передбачає зв’язки, засновані на словосполученнях, як було запропоновано в (Sérasset, 1994), з більш тонкою лексичною структурою, заснованою на теорії сенсу тексту (MTT) (Mel’cuk, 1984-1996). На момент написання бази даних Папійон все ще перебуває у заповненні лексичною інформацією.

Тісно пов’язаний з проектом JMdict – японсько-багатомовний словник іменованих організацій (JMnedict). Це база даних про близько 400 000 японських імен місць та осіб, а також не японських імен у їх японській орфографічній формі разом із романізованою транскрипцією японців (Breen, 2004b). Деякі географічні назви містять англійські описи: мис, острів тощо, які зараз поширюються на інші мови. Файл JMnedict у форматі XML зі структурою, подібною до JMdict.

Інша багатомовна лексична база даних – KANJIDIC2 (Breen, 2004c), яка містить широкий спектр інформації про 13,039 канджі в стандартах символів JIS X 0208, JIS X 0212 та JIS X 0213. Серед інформації для кожного канджі – сукупність читання японською, китайською та корейською мовами та широке значення кожного канджі англійською, німецькою та іспанською мовами. Готується набір португальських значень. База даних складається у форматі XML.

9 додатків

Хоча існує ряд експериментальних систем, що використовують файл JMdict, єдиною прикладною системою, що використовує повний багатомовний файл на даний момент, є сервер проекту Papillon. На малюнку 2 показано відображення цього сервера під час пошуку слова 川 柳. Авторський WWWJDIC-сервер (Breen, 2003a) використовує японо-англійські компоненти файлу. Малюнок 3 – витяг із дисплея WWWJDIC для слова 小人, який є прикладом запису з кількома словами кана та відчуттями, обмеженими читанням. (Маркери (P) вказують на більш поширені показання.)

Рис. 2: Приклад папілону для 川 柳

Рис. 3: Приклад WWWJDIC для 小人

Файл словника японсько-англійського словника EDICT, який генерується з тієї ж бази даних, що і файл JMdict, продовжує залишатися головним некомерційним японсько-англійським лексичним ресурсом і використовується у великій кількості програм та серверів, а також у ряд дослідницьких проектів.

10 Висновок

Проект JMdict успішно розробив багатомовну лексичну базу даних, використовуючи японську мову як мову перекладу. При цьому вона досягла лексичного покриття, порівнянного із середніми великими друкованими словниками, а її компоненти використовуються у широкому спектрі застосувань та дослідницьких проектів. Він також продемонстрував потенціал для повторного використання матеріалів з пов’язаних та співпрацюючих лексиконних проектів. Файли проекту JMdict легко доступні для використання дослідниками та розробниками, і вони можуть бути важливим лексичним ресурсом у багатомовному контексті.

Список літератури

Аль-Касамі, AM 1977 Мовознавство та двомовні словники, Е. Дж. Брілл, Лейден

Apel, США. 2002. WaDokuJT – база даних японсько-німецького словника, семінар Papillon 2002, NII, Токіо

Boitet, C, Mangeot-Lerebours, M, Sérasset, G. 2002 Проект PAPILLON: спільна побудова багатомовної лексичної бази даних для отримання словників з відкритим кодом та лексиконів, Proc. 2-го семінару NLPXML 2002, майстерня COLING 2002, ред. Wilcock, Ide & Romary, Тайбей, Тайвань.

Брін, JW 1995. Створення електронного японсько-англійського словника, конференція JSAA, Брісбен.

Брін, JW 2002. Практичні проблеми та проблеми побудови багатомовного лексикону, Семінар з папілоном 2002, НДІ, Токіо.

Брін, JW 2003a. Японський словник WWW, в “Мовному викладанні на перехресті”, Інститут Monash Asia, Monash Univ. Натисніть.

Брін, JW 2003b. Приклади використання слів в електронному словнику, семінар Papillon 2003, Саппоро.

Брін, JW 2004a. Проект EDICT, http://www.csse.monash.edu.au/~jwb/edict.html

Брін, JW 2004b. Проект ENAMDICT / JMnedict, http://www.csse.monash.edu.au/~jwb/enamdict_doc.html

Брін, JW 2004c. Проект KANJIDIC2, http://www.csse.monash.edu.au/~jwb/kanjidic2/

Desperrier, JM. 2002. Аналіз результатів спільного проекту зі створення японсько-французького словника, Семінар Papillon 2002, NII, Токіо.

Мельчук, I та ін. 1984-1996. DEC: експлікація словника та комбінаторій сучасних французів, досліджує лексико-семантики, Vols I-IV, Монреальський ун-т. Натисніть.

Sérasset, Г. 1994. Sublim: ип Système Universel де Основи Lexicales Multilingues і ін Nadia: са spécialisation Окс основи lexicales interlingues номінальної acceptions, (докторська дисертація) Джозефа Фур’є університету, Гренобль

Sperberg-McQueen, CM. та Burnard, L. (ред.) 1999. Керівні принципи електронного кодування тексту та обміну. Оксфордський ун-т. Натисніть.

Tanaka, Y. 2001. Складання багатомовного паралельного корпусу PACLING 2001, Японія.