реферат, рефераты скачать
 

Машинный перевод


p> 4. 1. СЛОВАРЬ

Для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти и в словаре системы. А те из них, которых в нем нет, переносятся в текст непереведенными уже на выходе из системы, и их впоследствии переводят вручную при редактировании результатов перевода.
Такие слова могут повлиять на качество перевода предложения. Дело в том, что для определения, к какой части речи относится рассматриваемое слово, система производит анализ всего предложения в целом. При этом имитируется мыслительная деятельность человека (такую систему принято называть системой с элементами искусственного интеллекта). Если значение хотя бы одного слова в предложении не определено, то это может исказить анализ всего предложения, а иногда и результаты всего перевода.
Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соответствовать обыкновенному русскому слову "программа"? И, вообще, большой словарь – это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста?
При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, то есть для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как правило, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, содержащие слова "программу", "программе", "программы" и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова "программа" с соответствующей словоформой из текста. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.
В системах семейства PROMT разработано практически уникальное по полноте морфологическое описание для всех языков, с которыми системы умеют обращаться. Оно содержит 800 типов словоизменений для русского языка, более
300 типов как для немецкого, так и для французского языка, и даже для английского, который не принадлежит к флективным языкам, выделено более 250 типов словоизменений. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.
Кроме того, используемая модель морфологии позволила разработать экспертную систему для пользователя – создателя словаря. Эта система фактически автоматизирует процедуру выделения основы и определения типа словоизменения при вводе новых словарных статей.
Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, как это требуется в электронных словарях, она необходима для выполнения программой собственно процедур перевода. Какая же нужна информация в словарной статье и как должны быть описаны правила перевода для того, чтобы программа переводила?

4. 2. ГРАММАТИКА

С развитием МП как области прикладной лингвистики появилось множество лингвистических работ, предлагавших структуру описания свойств живого слова в словарной статье машинного словаря. При этом совершенно отдельно появлялись исследования, описывающие, например, "структуру именной группы" или "способы выражения прямого дополнения для глаголов говорения".
Например, на основе признака "принадлежность к части речи" описывалась грамматика такого типа:

• именная группа - это существительное

• именная группа - это прилагательное + именная группа

• глагольная группа - это глагол + именная группа

• предложение - это именная группа + глагольная группа
Понятно, что некоторая часть предложений естественного языка описывается такой грамматикой, но эта часть очень незначительна, и на ее основе нельзя правильно анализировать и переводить хоть сколько-нибудь реальный текст. Но зато можно использовать эффективные методы построения преобразователя по заданной грамматике или, на худой конец, написать программу, которая путем перебора построит деревья зависимостей для ограниченного множества предложений.
Стало принятым делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.
Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка
(TRANSFER) и затем синтез выходного предложения по полученной структуре.
Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае – разработать сам метаязык и описать естественный язык в соответствующих терминах.
Несмотря на то, что эта классификация существует, и в среде разработчиков
МП считается хорошим тоном спросить, к какому типу относится ваша система, не было разработано еще не одной реальной системы, основанной на принципе
INTERLINGUA.
Поэтому анализ простых предложений как структур, состоящих из синтаксических единиц, выполняется на основе фреймовых предикатных структур, которые позволяют эффективно выполнять преобразования. Глагол считается для простых предложений главным элементом и его валентности определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования в выходной фрейм и оформление актантов. Таким образом, осуществляется TRANSFER на уровне предложений.
Анализ сложных предложений требуется в случае формирования согласования времен и правильного перевода союзов.
Хотелось бы надеяться, что эти сведения позволят потенциальным пользователям систем перевода понять, что создание системы МП – задача не такая уж простая, и, что называется, наукоемкая. А, следовательно, количество действительно пригодных к использованию систем перевода, которое может появляться в единицу времени, принципиально ограничено.
В любом случае, стилистические и грамматические огрехи машинного перевода компенсируются потрясающей скоростью получения его чернового варианта.

5. ОТВЕТ КРИТИКАМ МАШИННОГО ПЕРЕВОДА

или Почему популярны программы-переводчики

Прежде чем рассказать подробнее о множестве программ-переводчиков, мне хотелось бы ответить на самый, на мой взгляд, распространенный вопрос, который поднимается, как только заходит речь о МП:
«Переводы с русского на английский и с английского на русский не выдерживают никакой критики. Неужели полноценный машинный перевод остается все еще делом будущего?»
Можно, конечно, было бы проигнорировать этот вопрос, хотя бы потому что сам уровень организации, проводившей тестирование вне подозрений, да и популярность как систем, так и сервиса в Интернете, организованном на сайте http://www.translate.ru (более 200.000 переводов за месяц!!!) демонстрируют полезность и востребованность МП. Однако именно сейчас, в первую очередь в связи с развитием Интернет, когда МП становится все более и более необходимым обществу, нам представляется полезным обсудить еще раз тему нужны или не нужны системы МП.
В нашей стране разработка систем МП ведется уже более 35 лет, а специалисты компании ПРОМТ занимаются этой проблемой более 20 лет, однако до сих пор эта сфера компьютерной индустрии вызывает много различных дискуссий. Часто приходится слышать от критиков систем МП: «Программы- переводчики переводят плохо, непонятно кому они вообще нужны. Гораздо проще отдать текст "живому" переводчику или выучить язык самому». Причем, к сожалению, резкость критики зачастую бывает обратно пропорциональна знанию языка. Компания, безусловно, не пытается обвинить в этом критиков и полагает, что лично им движет стремление к совершенству.
Итак, компьютер пока во многом не может заменить переводчика. Стоит ли тогда вообще применять системы машинного перевода? Конечно, стоит. Если компьютер используется для перевода литературных текстов, то получается черновой вариант текста, так называемый подстрочник, который превращается в произведение искусства человеком, слабо владеющим языком оригинала, но являющимся хорошим литературным редактором. Если же речь идет о переводе технических текстов, то здесь при правильном выборе словаря по специальности, в рамках которой написан текст, получается вполне удовлетворительный результат, иногда не требующий последующего вмешательства. Вообще необходимость редактирования компьютерного перевода очень часто возникает в связи с проблемами, перечисленными выше. Для этого системы машинного перевода обязательно имеют средства редактирования текстов.
Для некоторых заказчиков такой уровень перевода просто неприемлем.
“Машинный перевод — это миф, — считает Линн Сешедри, консультант одной из служб корпорации Electronic Data Systems (Плейно, шт. Техас), принимавший участие в создании глобальной интрасети компании. — Возможно, он годится для технической документации, но во всех остальных случаях вы получаете 15% смысла и 85% ерунды”. Для перевода содержания своей интрасети EDS пользуется услугами профессиональных переводчиков на контрактной основе.
Однако других машинный перевод вполне устраивает, в значительной степени потому, что часто ему просто нет реальных альтернатив. Парижский фонд “За развитие гуманизма” (FPH) в свое время также стоял перед выбором: тратить ли существенную часть своего бюджета на переводчиков или испробовать средства машинного перевода. Эта организация, финансируемая из частных источников, выпускает доклады по экологии, экономике и ряду других областей, привлекая для их создания интернациональные коллективы ученых. Ее выбор пал на технологию машинного перевода, а точнее, на продукт фирмы
Globalink, представляющий собой вполне качественное и недорогое приложение для ПК. FPH установил его на сервер электронной почты, чтобы общение специалистов, говорящих на разных языках, было проще и эффективнее.
"Это хорошее решение, - считает Марина Урквиди, консультант из FPH. -
Многие люди предпочли бы работать не на английском, а на своем родном языке. Теперь у них есть такая возможность". Она не отрицает, что машинный перевод имеет свои недостатки, однако убеждена, что если человек захочет, он сможет понять перевод, сделанный машиной. "Если вы немного подумаете, то сумеете понять, о чем идет речь". Таким образом, если не требовать от МП слишком многого, то, возможно, обещание Бэббиджа о машинном переводе все же исполнится.

6. МАШИННЫЙ ПЕРЕВОД – ЭТО… ИНСТРУМЕНТ
Всем хорошо известно, что хороший перевод текста – это не только творческая, но и достаточно трудоемкая работа. Причем даже самый хороший перевод, как правило, нуждается в редакторской правке. Что касается творческой части, то в обозримом будущем в соревновании компьютер-человек всегда победит "живой" переводчик. Однако для решения проблем, обусловленных трудоемкостью процесса перевода, системы МП могут оказаться хорошим подспорьем. Для того чтобы это лучше понять, перечислим достоинства программ машинного перевода (общие для всех систем МП вообще и систем PROMT в частности):
1. Высокая скорость. Всего несколько секунд и Вы получаете перевод многостраничного текста. Это позволяет быстро понять смысл текста, а если система настроена на перевод текстов этой тематики, требуется минимальная редакторская правка.
2. Низкая стоимость. Это очень легко оценить: если вы обращатесь к профессиональным переводчикам, приходиться платить за каждую страницу переведенного текста (в зависимости от региона и уровня квалификации переводчика страница перевода будет стоить от 5 до 20 долларов), либо вы нанимаете штатного переводчика, которому приходится платить зарплату. В случае с системой машинного перевода, вы платите деньги только один раз – при покупке программы. Что вы предпочтете – разовое капиталовложение или регулярные издержки? По данным пользователей компании ПРОМТ при переводе от
50 страниц текста в месяц программа-переводчик PROMT 98 окупается примерно за месяц.
3. Доступ к услуге. Немаловажный фактор, который многие критики систем
МП не принимают в расчет. Программа-переводчик всегда под рукой, а обращаться в переводческое бюро во многих случаях связано с дополнительными затратами времени и сил.
4. Конфиденциальность. Системе МП вы можете доверить любую информацию.
Приятно ли вам отдавать на перевод личную переписку? Готовы ли Вы к тому, чтобы посвятить в свои финансовые дела постороннего переводчика? Пойдете ли вы в переводческое бюро для того, что бы перевести какую-нибудь эротическую литературу? Если да, то действительно вопросов нет. Но даже в этом случае, согласитесь, немногие пользователи Вас в этом поддержат. Мы знаем, что многие пользователи регулярно используют наши системы для перевода личных писем, поскольку часто получаем письма от людей, которым наша система помогла устроить личную жизнь. Программа-переводчик сохранит в тайне любые тексты, которой Вы ей доверите.
5. Универсальность. Любой переводчик всегда имеет специализацию, т.е. переводит тексты по той теме, которой он хорошо владеет. Когда переводчик художественной литературы берется за перевод, например, технических текстов, ляпсусов не избежать. Взять хотя бы классический пример: "Голый проводник бежит по автобусу" (в оригинале "Naked conductor runs along the bus"). И это не результат творчества компьютера, этот исторический пример имел место, когда компьютер еще был редкостью. Система МП выгодно отличается тем, что она абсолютно универсальна. Нужно только грамотно подключить специализированный словарь по соответствующей тематике. Следует учесть и еще одно преимущество систем МП: пополнение их специализированных словарей новейшими терминами значительно опережает аналогичные словари полиграфического исполнения. В ряде случаев также рекомендуется вести свой собственный словарь новых терминов или новых значений. В этом случае вы гарантированно получаете необходимое качество перевода.

6. Перевод информации в Интернете. В онлайне наиболее ярко проявляются все преимущества систем МП. Более того, в большинстве случаев переводить информацию в Интернете, если Вы, конечно, сами не знаете нескольких языков, можно только с помощью программ-переводчиков. Именно эта потребность обусловила огромный рост интереса к системам МП сейчас в мире. Только благодаря онлайновым системам МП появилась возможность просматривать иностранные сайты, не затрудняясь с их переводом. Кроме того, здесь действуют все вышеперечисленные достоинства систем МП: перевод текстов по любой тематике производится быстро и конфиденциально.

Коллективное использование систем МП в организациях дает дополнительные преимущества:
1. Единообразие стиля и используемой терминологии. Как известно, затраты на постредактирование при работе коллектива переводчиков составляют около
100-140 % от стоимости перевода. Перевод, выданный системой МПа, гораздо легче править, поскольку он выдержан в одном стиле. Если в тексте, какой- либо часто встречающийся термин переведен неправильно, то все эти ошибки можно исправить простой автозаменой. Когда объемный текст переводится группой переводчиков, то приходится вылавливать отдельные неточности, допущенные каждым переводчиком. Редактору в этом случае требуется также
"выравнивать" и стиль перевода.
2. Отсутствие затрат на форматирование. Это особенно важно при переводе электронной документации. Программа-переводчик полностью сохраняет исходное форматирование, что позволяет сэкономить время и деньги при подготовке перевода.
Однако вместо того, что бы попытаться использовать те преимущества, которые предоставляет МП, некоторые люди пытаются довести задачу до абсурда, например, пытаясь перевести поговорки, песни или стихотворения, т.е. именно то, для чего системы МП не предназначены. Другие, не удосужившись прочитать описание программы, пытаются переводить текст по медицинской тематике с подключенным банковским словарем, а затем шумно веселятся, увидев на выходе очевидную бессмыслицу. Подчас создается впечатление, что таким образом они борются с собственными комплексами и пытаются, в первую очередь, себе доказать, что они умнее компьютера.
Подобные критики зачастую уподобляются известному персонажу анекдота, который подсунул ломик под бензопилу и был страшно горд, увидев плачевный результат.

7. ПЕРЕВОДЧИК ДЛЯ ОФИСА
Итак, машинный перевод уже довольно уверенно вошел в повседневную жизнь современного офиса и ни у кого не вызывает удивления. В мире существует очень много программ МП. У нас наиболее распространены системы PROMT 98 или
Stylus (фирма ПРОМТ) и ПАРС (фирма «Лингвистика 93»). PROMT 98 (Stylus) предназначена для профессионального перевода больших объемов информации, но ее лицензионная копия достаточно дорога. Что же касается использования пиратских копий, то они, как правило, имеют всего один-два словаря с относительно небольшим количеством слов. В лицензионной же копии есть широкий выбор специализированных словарей. Таким образом, использование пиратских копий не только неэтично с моральной и правовой точек зрения, но и не позволяет получить качественный перевод многих текстов.
Система ПАРС по некоторым параметрам уступает Stylus, хотя для бытового использования она достаточно удобна и, что очень важно, цена ее лицензионной копии доступна (компакт-диск с этой программой и несколькими специализированными словарями стоит около $20). В продаже есть большой набор словарей к этой системе по различным темам: вычислительная техника, медицина, химия и т.д. вплоть до таких областей, как, например, лесная и бумажная промышленность. Цены на компакт-диски со специализированными словарями к системе ПАРС обычно не превышают $30, она размещается на одном
CD со словарями. Эта система спокойно работает в среде Windows 3.1 и более поздних версий. Есть даже ее версия для операционной системы MS DOS, что позволяет использовать для МП устаревшие компьютеры с процессорами 80286, которые вполне пригодны для обработки текстов. В дальнейшем речь пойдет о версии ПАРС для Windows, работающей в среде операционной системы Windows
95.
ПАРС для Windows может работать в двух режимах. В первом случае он переводит файл в формате «текст MS DOS» и результат записывает в другой файл с тем же форматом. Сам же переводимый текст готовится в другом редакторе, причем в среде Windows сделать это затруднительно, так как в ней принята другая кодировка русских букв. Кроме всего прочего, простейший формат «текст MS DOS» все реже применяется для подготовки серьезных документов.
Гораздо удобнее другой режим, когда программа МП работает совместно с мощным внешним текстовым редактором. Таким редактором для ПАРС является
Microsoft Word 6.0 for Windows. Кроме удобства появляется возможность работы с текстами в формате RTF (Rich Text Format), где записываются размеры и форма шрифтов, и эти параметры переносятся в результат перевода.
В процессе инсталляции ПАРС определяется наличие на жестком диске инсталлированного текстового редактора Word. Когда редактор успешно обнаружен при инсталляции программы МП, то в его окне наверху появляется еще одно меню – ‘Перевод’. Результат перевода представляется в редакторе как новое окно с текстом. Если сначала была инсталлирована система ПАРС, а потом уже Word, то для их совместной работы потребуется повторно осуществить выборочную инсталляцию программы перевода и элементов ее связи с внешним текстовым редактором.
Но если перевод осуществляется впервые после запуска программы, перед его началом потребуется указать используемые словари. Зачастую пользователи могут недооценивать применение специализированных словарей. Однако следует вспомнить, что переводчики при работе со специализированными текстами используют, как правило, словари по соответствующей тематике, а не произвольные.

Рассмотрим это на примере:

Оригинал:
Nokia 9000i Communicator now supports short messages with up to 2 280 characters, the current standard being 160 characters. With the Text Web service based on Smart Messaging, the end-user is able to obtain information in a simple text format without graphics or logos from the
Internet by using the short message service. Text Web information can include flight schedules, weather or traffic reports, or the stock news.
Перевод без подключения специализированного словаря:
Nokia 9000i Коммуникатор теперь поддерживает короткие сообщения с до 2280 характеров (знаков), текущий стандарт, являющийся 160 характерами
(знаками). С обслуживанием (службой) Ткани (сети) Текста, основанным на
Шикарном (сильном) Messaging, конечный пользователь способен получить информацию в простом формате текста без графики или эмблем от Internet, используя короткое обслуживание (службу) сообщения. Информация Ткани (сети)
Текста может включать списки (графики) рейса (полета), погоду или сообщения движения, или новости запаса (акции).
Перевод с подключенным словарем “Телекоммуникации и связь”:

Nokia 9000i Коммуникатор теперь поддерживает короткие сообщения с до
2280 символов, текущий стандарт, являющийся 160 символами. С Текстовым обслуживанием Сети, основанным на Smart Messaging, конечный пользователь способен получить информацию в простом текстовом формате без графики или эмблем от Internet, используя систему передачи коротких сообщений.
Текстовая информация Сети может включать список рейса (полета), погоду или сообщения трафика, или новости фондового рынка.
Как уже было сказано, словари выбираются в зависимости от стиля и тематики текста. Обратим внимание на кнопку ‘Приоритет’. С ее помощью можно перемещать словари в списке. Если в переводимом тексте имеется слово, встречающееся в нескольких из выбранных словарей и в каждом из них его значения различны, то будет выбран вариант перевода из словаря, стоящего в списке первым. Возможность расположения словарей по различному приоритету позволяет гибко подстраивать систему перевода под тексты, содержание которых лежит на границе двух специальностей. Рассмотрим в качестве примера использование словарей компьютерных и химических терминов. Допустим, имеется текст про компьютеризацию химического производства. В нем, конечно, чаще будут встречаться компьютерные, нежели химические термины, и поэтому термин, имеющий двоякое толкование, должен скорее переводиться по словарю компьютерных терминов. В этом случае словарь терминов компьютерных должен иметь больший приоритет, чем словарь химических. Другой вариант – текст про химические процессы в производстве компьютеров. Здесь чаще будем замечать химические термины, и, соответственно, словарь химических терминов будет иметь больший приоритет. Ну и, конечно, используя специальные словари, не следует забывать подключать и словарь общеупотребительной лексики. При переводе технических текстов целесообразно присвоить этому словарю наименьший приоритет.
Но даже тонкая настройка системы под лексику переводимого текста не учитывает всех его особенностей, поэтому переведенные слова, имеющие несколько синонимов, помечаются звездочкой. Указав мышкой на такое слово, можно выбрать подходящий вариант перевода либо оставить то, что предложил компьютер.
Когда варианты перевода выбраны, можно приступать к редактированию переведенного текста, благо Word обладает для этого мощными средствами.
Текст иногда полезно подвергнуть некоторой обработке перед МП. Так, системы МП могут ошибаться из-за наличия в тексте сокращений, заканчивающихся точкой. Если после такого сокращения следует слово, начинающееся с большой буквы, то компьютер воспринимает точку как конец предложения, из-за чего предложение может быть неправильно разобрано, и, следовательно, ошибочно переведено. Значит, точки в сокращениях надо убирать. Сокращения будут перенесены в текст без перевода, и их нужно перевести вручную. В переводимом тексте должны отсутствовать переносы, что, впрочем, легко обеспечивается при подготовке текста в редакторе Word.
Особенно внимательно надо просматривать тексты, получаемые в результате распознавания отсканированного изображения, так как содержащиеся в них ошибки нередко приводят к тому, что отдельные слова остаются непереведенными всего-то из-за одной неправильной буквы. Кстати, уже упоминавшаяся система Stylus вместе с программой FineReader входит в состав пакета Stylus Lingvo Office, предназначенного для обработки документов, введенных в компьютер путем сканирования.

Страницы: 1, 2, 3


ИНТЕРЕСНОЕ



© 2009 Все права защищены.