О настройках перевода



Контекст

Эта настройка работает с многозначными словами, помогая программе выбрать нужное значение из нескольких. Например, слово コード [ko:do] имеет следующие значения:

1. шнур, провод, корд (англ. cord)
2. код, шифр (англ. code)
3. геом. хорда (англ. chord)
4. муз. аккорд (англ. chord)

В нейтральном контексте это слово переведется как "код". В общетехническом или электротехническом - как "шнур". В контексте точных наук - как "хорда". А в контексте "культура" - как "аккорд".

Нужно отметить, что слов с высокой степенью многозначностью в японском языке не очень много. Большинство из них - заимствования из европейских языков.


Переносы строк

В печатном японском тексте концом фразы нормативно считается точка (。). Иногда встречаются и менее традиционные разделительные символы. Однако в некоторых случаях (при перечислении, а также во многих интернет-документах) концом фразы служит перенос строки - после переноса начинается новая фраза (либо слово/словосочетание). К сожалению, формальными методами далеко не всегда удается отличить перенос, действительно несущий такую функцию, от простого переноса, делящего фразу посередине. Вы можете сообщить это компьютеру, выбрав соответствующий пункт в настройках. По умолчанию, программа сама анализирует перенос и делает вывод о его природе - но следует иметь в виду, что она более склонна трактовать переносы как разделение фраз, чем как их соединение. Кроме того, нужно помнить, что выбранная вами "жесткая" настройка ("Игнорировать" или "Считать концами фраз") будет приложена ко всем без исключения переносам исходного текста. Если текст содержит переносы обоих типов, полезна будет его предварительная ручная правка.


Число/Лицо/Род по умолчанию

Как известно, в японской грамматике нет категории множественного числа. Слово "хана" может означать как "цветок", так и "цветы". При переводе выбор делается, исходя из общего контекста. Но машинные переводчики не сильны в анализе контекста, они понимают лишь недвусмысленные указания на множественность, вроде числительных или слова "многочисленный". В остальных случаях именным частям речи присваивается единственное число. В вашей власти изменить эту установку на противоположную.

Другая особенность японского языка - сильная склонность к эллипсису, то есть, опущению членов предложения, функцию которых легко восстановить из контекста. В частности, очень часто опускается подлежащее, оставляя машинный переводчик без малейших подсказок по поводу грамматических форм, в которые должно быть облечено сказуемое. В таких ситуациях используются лицо и род, принятые по умолчанию. К примеру, если вы знаете, что текст представляет собой рассказ женщины о себе, логично выставить женский род и первое лицо. В большинстве же случаев уместнее третье лицо и мужской род.


Выводить нераспознанные цепочки хираганы латиницей

Нераспознанные последовательности символов хираганы по умолчанию удаляются из дальнейшего анализа и синтеза. Но для лучшего понимания причин возможных искажений смысла бывает полезным включить эту установку. Кроме того, в случаях, когда хираганой записано знаменательное слово, оставшееся нераспознанным, эта установка позволит сохранить синтаксическую структуру фразы и перевести ее корректно за вычетом нераспознанного слова, которое выведется латиницей - в то время как без этой установки синтез может необратимо испортиться. В общем случае нельзя дать рекомендаций ни включать, ни выключать эту установку - ее польза или вред всегда зависят от конкретной ситуации.


Облагораживать нераспознанную катакану

Нераспознанные последовательности символов катаканы выводятся латиницей Хэпберна. Когда выставлена настройка "Облагораживать", эта латиница дополнительно преобразуется таким образом, чтобы максимально походить на исходное слово - предположительно, английское. Преобразование сводится к удалению гласных O и U, которые в катакане разделяют соседние английские согласные, а также следуют после конечного согласного. Например, слово アクロバット ("акробат"), будучи нераспознанным, выдалось бы без этой настройки как AKUROBATTO, а с настройкой - как AKROBAT.


Переводить почтовые адреса

Когда эта установка выключена, почтовые адреса выводятся в оригинальном японском виде. Когда включена - переводятся на русский, в меру способностей программы. Критерием адреса являются определенные иероглифы (県, 市, 町 и т.п.), встреченные в определенном порядке.


Отдавать приоритет именам собственным

При этой настройке любое слово рассматривается как потенциальное имя. Например, одиночный иероглиф 誠 переведется не как "правдивость", а как "Макото". При этом возможен и нежелательный эффект, когда в имена превратятся слова, в данном контексте именами не являющиеся. Данная настройка пригодна лишь для эпизодического, точечного применения.


Допускать катаканную запись незаимствованных слов

По умолчанию эта настройка включена, позволяя перевести, к примеру, исконно японское слово "атама" ("голова"), записанное не иероглифом 頭, как положено, а катаканой アタマ, как обычно записываются заимствованные слова. Такие написания могут применяются японцами с целью лучше выделить в тексте ключевое слово, избежать иероглифического написания (если иероглиф редок) или же намеренно придать тексту вычурный вид. Настройку лучше отключить, если вы переводите текст с обилием специальных слов, заимствованных из английского - особенно когда эти слова соединяются в длинные цепочки. Катаканизация японских слов в таких текстах маловероятна, и в случае нераспознанной катаканы предпочтительнее получить восстановленную латиницу, чем бессмыслицу.


Глубина распознавания хираганы

Наличие в тексте длинных последовательностей символов хираганы сильно затрудняет анализ. В таких случаях бывают необходимы повторные сканирования фразы с новыми версиями о границах слов, выполняющиеся до тех пор, пока программа не сочтет результат приемлемым. В случае чересчур длинных цепочек хираганы число таких проходов может вырастать до неприемлемых величин, недопустимо увеличивая время, затрачиваемое на перевод. Настройка глубины распознавания ограничивает число разрешенных проходов по хирагане. Отметим, что принятое по умолчанию значение 10 достаточно велико для подавляющего числа реальных случаев.


Членить катакану на фрагменты не длиннее X символов

По умолчанию X установлено в свое минимальное значение, равное двум. Это означает, что отдельные слоги катаканы, поставленные встык, никогда не могут рассматриваться как самостоятельные слова. В то время как комбинации из двух слогов - уже могут. Так, последовательность символов ドアベル расчленится как ドア+ベル ("дверь"+"звонок") и переведется как "дверной звонок". Однако здесь кроется и опасность того, что некое записанное катаканой слово не найдется в базе данных, но разобьется на два или три маленьких, породив на выходе бессмыслицу. Повышение значения X блокирует такие случаи, выводя вместо бессыслицы восстановленную латиницу. Обратной стороной такого блокирования будет превращение в латиницу того, что могло бы перевестись - так, при X=3 вместо "дверного звонка" на выходе будет "DOABERU".