Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке

Автор: Пользователь скрыл имя, 20 Апреля 2012 в 19:56, дипломная работа

Краткое описание

Мы живем в мире информационных технологий, которые прочно вошли в нашу жизнь. Мы пользуемся современными средствами связи. Компьютер превратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в повседневной жизни. Быстрое развитие новых информационных технологий свидетельствует о всевозрастающей роли компьютерной техники в мировом информационном пространстве.

Оглавление

Введение 5
1 К определению основных понятий лингвостилистики. 9
1.1 Основные понятия 14
1.2 Функциональные стили 17
1.3 Стилистическая характеристика научно-технического стиля 20
1.3.1 Общие особенности 20
1.3.2 Лексические особенности научно-технического стиля 21
1.3.3 Синтаксические особенности научно-технического стиля 25
1.3.4 Морфологические особенности научно-технического стиля 28
1.3.5 Подстили 31
2 К проблеме машинного перевода в современном языкознании 33
2.1 Основные понятия машинного перевода 35
2.1.1 Развитие машинного перевода 35
2.1.2 Степень реализации СМП 37
2.1.3 Принципы оценки СМП 38
2.1.4 Принцип действия СМП 39
2.2 Подходы к машинному переводу 39
2.2.1 СМП основанные на правилах 41
2.2.2 Системы машинного перевода основанные на примерах 49
2.2.3 Статистический машинный перевод 51
2.3 ТМ-системы 55
2.4 Сравнение различных типов СМП 56
3 Структурно-семантические трансформации в англоязычном научно техническом тексте при машинном переводе 62
3.1 Основные особенности 62
3.2 Лексические особенности 66
3.3 Синтаксические особенности 78
3.4 Морфологические особенности 88
Заключение 95
Библиография 99
Приложения 103
Схема 1: основные понятия стилистики 103
Схема 2: тропы и фигуры 104
Схема 3: функциональные стили языка 105
Схема 4: особенности научно-технического стиля 106
Образцы проанализированных текстов 107
Отрывок 1 107
Оригинал 107
Перевод, выполненный статистической СМП 109
Перевод, выполненный трансфертной СМП 111
Перевод, выполненный человеком 113
Отрывок 2 116
Оригинал 116
Перевод, выполненный статистической СМП 118
Перевод, выполненный трансфертной СМП 120
Перевод, выполненный человеком 122
Отрывок 3 125
Оригинал 125
Перевод, выполненный статистической СМП 127
Перевод, выполненный трансфертной СМП 129
Перевод, выполненный человеком 131
Таблицы анализа 133
Список сокращений 142
Условные обозначения 142

Файлы: 1 файл

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РФ.doc

— 3.23 Мб (Скачать)

СМП, основанные на примерах, так же не имеют ярких представителей. Существующие прототипы используются в академической среде для иллюстрации самого метода. Часто они поставляются не в виде готового продукта, а в виде набора библиотек:

  • Marclator – СМП Дублинского Университета;
  • Cunei  гибридная СМП, основанная на переводе по аналогии и на статистическом переводе.
 

Рассмотрим преимущества и недостатки таких систем:

    Преимущества:

    • высокое качество перевода

         (при наличие достаточно долгой тренировке системы);

    • хорошо справляется со многими контекстными задачами

        (фразовые глаголы);

    • квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;
    • логическая простота устройства;
    • возможно обучение системы во время ее эксплуатации.

    Недостатки:

    • для обучения системы нужны большие параллельные корпуса текста, размеченные определенным образом.
    • перевод сильно зависит от корпусов, которые использовались при обучении;
    • для создания подобных систем требуются специализированные языки программирования;
    • продолжительное время обучения;
    • требовательность к ресурсам на этапе обучения.
 

Статистические  системы машинного перевода активно разрабатывались (и разрабатываются) компанией IBM. Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5. Но наибольшую известность этот метод приобрел благодаря компании Google. Кроме переводчика Google существует еще ряд систем и библиотек, использующих статистический подход:

  • Giza++ ;
  • Moses;
  • Pharaoh;
  • Rewrite;
  • BLEU scoring tool.

Не  очень давно появился статистический переводчик для Яндекса, правда пока он владеет только русским, английским и украинским.

    Преимущества:

    • высокое качество перевода (для фраз, которые целиком помещаются в n-граммную модель):
      • при наличие достаточно долгой тренировке системы.
      • при наличие качественных корпусов текста;
    • квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;
    • труд человека минимизирован для создания таких систем;
    • не требуется перестраивать систему при добавлении нового языка;
    • возможно обучение системы во время ее эксплуатации.
 

    Недостатки:

    • для обучения нужны большие параллельные корпуса текста;
    • сложный математический аппарат;
    • качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель;
    • перевод сильно зависит от корпусов, которые использовались при обучении.
    • при добавлении нового языка приходится анализировать большое количество параллельных корпусов;
    • продолжительное время обучения;
    • требовательность к ресурсам на этапе обучения.

Преимущества  и недостатки СМП, основанных на примерах, и статистических СМП во многом совпадают. Однако огромным преимуществом последних является то, что обучение таких систем происходит без участия человека. Для статистического перевода не нужна дополнительная разметка корпусов текста, это значительно упрощает их построение. С другой стороны для качественного обучения и тех и других нужны значительные объемы параллельных текстов. Потому часто переводчики являются дополнительными сервисами поисковых систем (Google, Яндекс). На данный момент, статистические системы являются лидерами по соотношению цена / качество для всех СМП. 

3 Структурно-семантические трансформации в англоязычном научно техническом тексте при машинном переводе

Ниже  мы рассмотрим стилистические особенности  отрывков из приложений и проведем анализ перевода, выполненного статистической и трансфертной системами машинного перевода. Трансфертная система рассматривается на примере ПРОМПТ 9.0, статистическая – на примере Google Переводчик

3.1 Основные особенности

Отрывки в основном написаны в научном  стиле. Как и любой реальный текст, обладают стилистической неоднородностью. Безусловно, есть некоторые моменты, которые приближают текст к художественному. Однако, учитывая направленность книги Д. Кнута, приходится говорить исключительно о научном стиле.

Рассматриваемый текст обладает свойствами:

  • доходчивости;
  • логической последовательности;
  • объективности изложения;
  • традиционности.

Авторы  русского перевода попытались сгладить некоторые традиционные научные  штампы, используемые в тексте, что  сделало язык отрывка живее, хотя и исказило немного его стилистически. С другой стороны в других частях текста были замечены обратные преобразования. Можно говорить о переводческой компенсации. Рассматривая, машинный перевод отрывка, конечно, ни о какой компенсации не может идти и речи.

Все четыре свойства были переданы, «так как они есть». Правда, некоторое сомнение вызывает свойство доходчивости. На некоторых участках текста оно страдает из-за ошибок согласования. (Важно отметить, что для трансфертной системы количество таких ошибок значительно ниже.) В первом отрывке можно найти описание алгоритма Евклида. Даже без специального анализа не трудно сказать, что стиль алгоритма и стиль основного текста сильно отличаются. Если внимательно посмотреть на англоязычное описание, то можно сделать вывод (отчасти ложный), о том, что изложение ведется на формальном императивном языке обработки данных. В русском варианте алгоритма стилистическая разница немного сглажена. С одной стороны, это облегчает восприятие, но уменьшает необходимую формальность описания.

Тут надо знать, какую цель преследовал  автор, приводя описание алгоритма. Варианты: для иллюстрации, для понимания, для последующего воплощения в «истинно формальном» языке.

Все три отрывка обладают свойством  логической последовательности.

Сами  отрывки между собой не связаны, ибо умышлено, взяты из разных участков текста. Однако внутри отрывка можно видеть последовательное развитие мысли от простого к сложному.

В первом отрывке текста автор хочет показать читателю, что на протяжении всей книги будет называться алгоритмом. Сначала рассказывается об этимологии этого слова, далее приводится пример алгоритма, и только после этого рассказывается о структуре книги и том, как далее будут алгоритмы обозначаться.

Во  втором отрывке автор хочет привести пример использования логической структуры  связных списков.  

Сначала рассказывается о дискретном моделировании вообще и его отличии от непрерывного моделирования и потом приводится описание самой модели. За пределами этого отрывка автор приводит формальное описание модели.

В третьем  отрывке автор приводит свои рассуждения по поводу применимости приведенных ранее (за пределами отрывка) логических вычислительных моделей  связывающих автоматов, и машин Тьюринга.

Логическая  структура отрывков была легко отражена во всех вариантах их переводов. СМП смогли передать основную мысль отрывков. Несмотря на то, что в случае трансфертной СМП третий отрывок выглядит как набор слов, и требует значительной правки, мысли автора восстановить не сложно. Последний эффект связан с тем, что третий отрывок содержит большое число специфических терминов, которые даже профессиональный переводчик не рискнул переводить.

Стилистически машинный перевод оказался более  близок к оригиналу. Например, в следующем  отрывке переводчик нарушил свойство традиционности. Двенадцатое предложение  третьего отрывка:

     Many years have passed since the author wrote most

     of the comments above,

Вариант статистической СМП:

    Много лет прошло с тех пор [как] автор написал большую часть комментарии выше,

Вариант переводчика:

    Со времени  первого написания автором большинства  приведенных выше комментариев утекло много воды.

Однако  в ряде случаев, отступления от авторского стиля были продиктованы отечественными традициями научно-технической литературы, о которых системам машинного  перевода ничего не известно.

Это например относится, к тому что переводчик пытался избежать тавтологий и множественное скромности.

Не  всегда перевод выполненный человеком  обладает объективностью. При анализе отрывков мы в этом убедились. В ряде случаев, переводчик немного трансформировал мысли автора, подменил собственными суждениями. СМП, особенно статистические, лишены этого недостатка.

Например, в  двадцать восьмом предложении второго  отрывка

     … but it is believed …

Переводчик  передал с искажением смысла:

     но автор все же верит …

Примечателен  тот факт, что в ряде случаев перевод созданные машиной практически не отличается от варианта переводчика. Например, второе предложение второго отрывка трансфертная СМП как

    «Дискретное моделирование» означает моделирование системы, в которой все изменения состояния системы, как может предполагаться, происходят в определенные дискретные моменты времени.

С первого  взгляда невозможно понять, что перевод  сделала машина. И только после анализа перевода и оригинала текста можно увидеть некоторые стилистические ошибки. Иногда перевод машины оказывался точнее, чем вариант переводчика. С подобным явлением мы столкнулись в семнадцатом предложении первого отрывка. 

3.2 Лексические особенности

В тексте встречаются слова общего языка, то есть общеупотребительная

лексика:

    The notion of an algorithm is basic to all of computer programming ...

    The word did not appear in Webster’s New World Dictionary as late as 1957 ...

    The chapters are divided into numbered sections ...

В рамках это лексики осуществлен перевод  как СМП, так и человеком. В данном случае машина ошиблась только в согласовании определений. С другой стороны, системы перевода не всегда удачно разрешает омонимию. Потому в машинном переводе текста присутствуют бессмысленные фразы.

    Каждый алгоритм рассмотрим было уделено выявлению письмо (E и в предыдущем примере), и шаги алгоритма обозначены этим письмом последовал ряд (El, E2, E3).

В слова, в некоторых случаях переводчик позволил себе вольность, а машина перевела точнее

    The format above illustrates the style in which all of the algorithms throughout this book will be presented.

В данном случае, format выступает в значении формат, структура, вид. Однако переводчик-человек  это перевел как

    Приведенная выше формулировка  иллюстрирует стиль, в котором алгоритмы будут  представлены на протяжении всей этой книги.

Слово формулировка не обладающим  оригиналом читателем может быть воспринято, как утверждение, что, в контексте изложения, является неверным и вызывает непонимание. Машина в этом случае перевела фразу шаблонно. Для статистической СМП:

Информация о работе Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке