Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке

Автор: Пользователь скрыл имя, 20 Апреля 2012 в 19:56, дипломная работа

Краткое описание

Мы живем в мире информационных технологий, которые прочно вошли в нашу жизнь. Мы пользуемся современными средствами связи. Компьютер превратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в повседневной жизни. Быстрое развитие новых информационных технологий свидетельствует о всевозрастающей роли компьютерной техники в мировом информационном пространстве.

Оглавление

Введение 5
1 К определению основных понятий лингвостилистики. 9
1.1 Основные понятия 14
1.2 Функциональные стили 17
1.3 Стилистическая характеристика научно-технического стиля 20
1.3.1 Общие особенности 20
1.3.2 Лексические особенности научно-технического стиля 21
1.3.3 Синтаксические особенности научно-технического стиля 25
1.3.4 Морфологические особенности научно-технического стиля 28
1.3.5 Подстили 31
2 К проблеме машинного перевода в современном языкознании 33
2.1 Основные понятия машинного перевода 35
2.1.1 Развитие машинного перевода 35
2.1.2 Степень реализации СМП 37
2.1.3 Принципы оценки СМП 38
2.1.4 Принцип действия СМП 39
2.2 Подходы к машинному переводу 39
2.2.1 СМП основанные на правилах 41
2.2.2 Системы машинного перевода основанные на примерах 49
2.2.3 Статистический машинный перевод 51
2.3 ТМ-системы 55
2.4 Сравнение различных типов СМП 56
3 Структурно-семантические трансформации в англоязычном научно техническом тексте при машинном переводе 62
3.1 Основные особенности 62
3.2 Лексические особенности 66
3.3 Синтаксические особенности 78
3.4 Морфологические особенности 88
Заключение 95
Библиография 99
Приложения 103
Схема 1: основные понятия стилистики 103
Схема 2: тропы и фигуры 104
Схема 3: функциональные стили языка 105
Схема 4: особенности научно-технического стиля 106
Образцы проанализированных текстов 107
Отрывок 1 107
Оригинал 107
Перевод, выполненный статистической СМП 109
Перевод, выполненный трансфертной СМП 111
Перевод, выполненный человеком 113
Отрывок 2 116
Оригинал 116
Перевод, выполненный статистической СМП 118
Перевод, выполненный трансфертной СМП 120
Перевод, выполненный человеком 122
Отрывок 3 125
Оригинал 125
Перевод, выполненный статистической СМП 127
Перевод, выполненный трансфертной СМП 129
Перевод, выполненный человеком 131
Таблицы анализа 133
Список сокращений 142
Условные обозначения 142

Файлы: 1 файл

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РФ.doc

— 3.23 Мб (Скачать)

Выявлены  общие черты работ, выдержанных  в научном стиле:

  • предварительное обдумывание высказывания;
  • монологический характер высказывания;
  • строгий отбор языковых средств;
  • превалирование  нормированной речи.

В практической части было сопоставлено три текста:

  • отрывок научного текста;
  • машинный перевод отрывка;
  • профессиональный перевод отрывка.

Машинный  перевод отрывка был осуществлен  с помощью двух различных СМП  трансфертной и статистической. Статистическая СМП рассмотрена на примере сервиса Google Переводчик. Трансфертная СМП рассмотрена на примере системы ПРОМПТ 9.0. Из проведенного анализа отрывка можно сделать следующие выводы: 

1) Текст обладает стилистической неоднородностью. Стиль рассмотренного отрывка варьируется от формального научного до художественного. Экстраполируя этот вывод на огромный массив текстов, и руководствуясь некоторым текстовым опытом, можно утверждать, что любой текст обладает стилистической неоднородностью. Безусловно, такой вывод подлежит  дальнейшей тщательной проверке.

2) При переводе некоторые стилистические особенности текста теряются. Потеря происходит не на уровне функции текста, а на уровне образных средств. Такие потери представляются естественными из-за различных стилистических традиций разных культур. Научный текст в английском языке обладает меньшей шаблонностью, чем в русском. Потери могут быть объяснены переводческой компенсацией.

3) Стилистика отрывка претерпела меньшие изменения при машинном переводе. Что с одной стороны является случайным фактом, а с другой стороны объясняется применением эквивалентных и вариантных переводных преобразований.

4) При переводе научного текста значительную роль играют эквивалентные переводные соответствия, в меньшей мере вариантные переводные соответствия. Крайне редко используются трансформационные соответствия. Это обусловлено стилистическими особенностями научного текста. Представляется, что  подобное совпадение не является случайным. Машинный перевод изначально создавался для оперативного перевода технической документации, потому именно в этой сфере он проявляет себя лучше всего. 

5) Основные ошибки, которые совершает СМП, относятся к лексическим особенностям рассматриваемого текста. Но даже при неверном разрешении омонимии в некоторых случаях основной смысл был передан. Учитывая экстралингвистические реалии, не составляет труда догадаться что именно имел в виду автор. Синтаксические и морфологические особенности были переданы корректно. Таким образом, у читателя машинного перевода складывается приемлемое представление о тексте, его структуре и основных идеях. Это очень важно для научных текстов, когда в кратчайшие сроки  необходимо получить общее представление о каком-либо явлении или изобретении, при этом можно пренебречь некоторыми деталями и «красотой изложения».

6) Для разрешения проблемы омонимии и трансформационных соответствий, перед применением машинного перевода текст должен пройти некоторую предобработку. При этом, безусловно, потеряется колорит текста и любая экспрессивность, которой и так очень мало в научном тексте. На данном этапе развития - такова цена за безупречную ясность научного текста.

7) Машинный перевод рассмотренного отрывка требует редакторской правки. Связано это с ошибками согласования членов предложения. Но, полезно отметить, что перевод сделанный человеком тоже должен быть отредактирован. В нашем случае  очень важно, что СМП верно перевела термины и научные обороты. Редактору такого текста не обязательно иметь специальную техническую подготовку.  

Опираясь  на стилистические особенности научно-технического текста, можно сказать, что в этой сфере машинный перевод не только необходим, но и вполне допустим. Если научный текст перед применением машинного перевода и/или после него дополнительно преобразовать, то результат перевода будет значительно лучше. Что дороже: профессиональный переводчик или редактирование текста и машинный перевод? Вопрос сложный  и требует подробного анализа. Описать его в рамках данной работы не представляется возможным.

Дальнейшее  изучение структурно-семантических  преобразований при машинном переводе текстов с иностранного языка на русский может быть полезно:

  • для изучения основных принципов работы СМП;
  • для улучшения качества существующих СМП;
  • для анализа применимости машинного перевода в каждом конкретном случае;
  • при построении новых систем перевода, предназначенных в первую очередь  для   научно-технических текстов на конкретном языке.

Автор данного исследования  планирует  в дальнейшем углубленно изучать  проблемы структурно-семантических  трансформаций, возникающих при использовании статистических систем машинного перевода. 

Библиография

  • Brown R. Adding Linguistic Knowledge to a Lexical Example-Based Translation System, in Proceedings of the Eighth International Conference on Theoretical and Methodological Issues in Machine Translation (TMI-99), Chester, UK, 1999.
  • Brown R., Automated Generalization of Translation Examples, Pittsburg, PA, USA, 2000.
  • Evert, S. Statistical Natural Language Processing. The Noisy Channel & Statistical MT, Institute of Cognitive Science, University of Osnabruck, Germany, 2009.
  • Hutchins W. J., Somers H. L. An Introduction to Machine Translation. London: Academic Press, 1992.
  • Galperin I. R. Stylistics: Учебник для студентов институтов и факультетов иностранных языков. – M.: Высшая школа, 1981.
  • Knuth D. «The Art Of Computer Programming. Volume 1 / Fundamental Algorithms – 3rd ed.» — Stanford University: Addison Wesley Longman, 1997.
  • Kracht M. Introduction to Computational Linguistics, UCLA, Los Angeles, 2006.
  • Kracht M. Mathematics Structures of Language II, UCLA, Los Angeles, 2007.
  • Lehrberger J., Bourbeau L. Machine Translation, Linguistic Characteristics of MT Systems and General Methodology of Evaluation, John Benjamins Publishing Company, New York, 2010.
  • Niccolai J. AltaVista Offers Slicker Translations. June 15, 2000, IDG News Service.
  • Nirenburg S. Machine Translation: Theoretical and Methodological Issues. Cambridge, Mass, 1987.
  • Nirenburg S., Carbonell J., Tomita M., Goodman K. Machine Translation: A Knowledge based Approach. San Mateo, CA, Morgan Kaufinann, 1992.
  • Rhoads R. E. miRNA Regulation of the Translational Machinery, Springer, New York, 2010.
  • Roukos, S. Survey of the State of the Art in Human Language Technology. Language Represintation, IBM T. J. Watson Research Center, Yorktown Heights, New York,  
    USA, 1996.
  • Shannon, C. A mathematical theory of communication. Bell System Technical Journal, 27(3): 379-423, 1948.
  • Slocum J. Machine Translation Systems. Studies in Natural Language Processing. Cambridge, UK: Cambridge University Press, 1988.
  • Smith P. D. An Introduction to Text Processing. - Cambridge, MA: The MIT Press. -1990.
  • Sparck J. K., Galliers J. R. Evaluating Natural Language Processing Systems: An Analysis and Review, Berlin, Springer, 1995.
  • Stone M. L. Web embraces language translation. ZDNN, 21.07.1998
  • Sumita E., Iida H. Experiments and prospects of example-based machine translation.  In Proceedings of the 29th Annual Conference of the ACL, Berkley, CA, 1991.
  • Wilks Y. Machine Translation, Its Scope and Limits, New York: Springer Science+Business Media LLC, 2009
  • Анисимов А. В. Компьютерная Лингвистика для Всех. Мифы. Алгоритмы. Язык 
    Киев: Наукова думка, 1991.
  • Арнольд И. В. Стилистика современного английского языка — М.: Просвещение, 1990.
  • Ахманова Г. И., Богомолова О. И. Теория и практика английской научной речи // Под редакцией М. М. Глушко — М.: Изд. МГУ, 1987
  • Белоногов Г. Г. Компьютерная лингвистика и перспективные информационные 
    технологии — М.: Русский мир, 2004.
  • Гальперин А. И. Очерки по стилистике английского языка — M.: Издательство 
    литературы на иностранных языках, 1958.
  • Голуб И. Б. Русский язык и культура речи. Учебное пособие — М.: Логос, 2003.
  • Грязнухина Т. А., Дарчук И. П., Клименко Н. Ф. Использование ЭВМ в лингвистических исследованиях / Отв. ред. Перебейнос В. И. — Киев: Наукова думка, 1990.
  • Грязнухина Т. А., Дарчук Н. П., Комарова Л. И. Лингвистические проблемы автоматизации редакционно-издательских процессов. - Киев: Наукова Думка, 1986.
  • Ершов А. П. Машинный фонд русского языка: внешняя постановка // Машинный фонд русского языка: идеи и суждения, М. – Наука, 1986.
  • Караулов Ю. Н. Методология лингвистического исследования и машинный фонд русского языка // Машинный фонд русского языка: идеи и суждения, М. – Наука, 1986.
  • Караулов Ю. Н., Молчанов В. И., Афанасьев В. А., Михалев Н. В. Анализ метаязыка словаря с помощью ЭВМ, М. – Наука, 1982.
  • Кнут Д. «Искусство программирования. Том 1. Основные алгоритмы. 3-е издание, исправленное и дополненное.» — М: Вильямс, 2002.
  • Комиссаров В. Н., Коралова А. Л. Практикум по переводу с английского языка на русский — М.: Высшая школа, 1990.
  • Марчук Ю. Н. Проблемы машинного перевода — М.: Наука, 1983.
  • Марчук Ю. Н. Основы компьютерной лингвистики. Учебное пособие. Издание 2-е дополненное — М.: Изд-во МПУ «Народный учитель», 2000.
  • Марчук Ю.Н. Контекстологический словарь для машинного перевода многозначных слов с английского языка на русский, М. – ВЦП, 1976.
  • Маслов Ю.С. Введение в языкознание, М. – Высшая школа, 1987.
  • Мельчук И. А. Опыт теории лингвистических моделей "СМЫСЛ-ТЕКСТ".  
    М: Наука, 1974.
  • Мельчук И. А. Русский язык в модели «смысл-текст». Москва-Вена:  
    Школа:
    «Языки русской культуры», 1995.
  • Мороховский А.Н. Стилистика английского языка, Киев: Вища Школа, 1984.
  • Нелюбин Л. Л. Перевод и прикладная лингвистика. М.: Высшая школа, 1983.
  • Нелюбин Л. Л. Компьютерная лингвистика и машинный перевод (Методическое пособие). М.; Всесоюзный центр переводов, 1991.
  • Нелюбин Л. Л., Хухуни Г. Т. История и теория зарубежного перевода. Учебник, М.: МПУ, Издательство Сигнал, 1999. — 144 с.
  • Нелюбин Л. Л., Хухуни Г. Т. История и теория перевода в России. Учебник, М.: МПУ, Издательство Сигнал, 1999а. — 151 с.
  • Новиков А. И. Применение денотатной структуры текста для перевода научно-технической литературы.— В кн.: Психолингвистические аспекты грамматики. М. — 1979.
  • Пиотровский Р. Г. Текст, машина, человек -Л.: Наука,1975.
  • Плещенко Т. П. Стилистика и культуры речи: Учеб. Пособие,  Мн.: ТетраСистемс, 2001.
  • Пумпянский A. Л. Информационная роль порядка слов в научной и технической литературе, М.: Наука, 1974.
  • Разинкина Н. М. Функциональная стилистика английского языка, М.: Высшая школа, 1989.
  • Рассел С. Норвиг П. Искусственный интеллект: современный подход, 2-е изд..: Пер. с англ. — М. : Издательский дом "Вильямc"  2006.
  • Рахимбердиев Б. Н. Эволюция семантики экономической терминологии русского языка в XX веке. Дисс. на соиск. уч. степ. канд. филол. наук. М., 2003.
  • Реформатский А. А. Введение в языковедение /Под ред. В. А. Виноградова. — М.:Аспект Пресс, 1996.
  • Рецкер Я. И. О закономерных соответствиях при переводе на родной язык. Теория и методика учебного перевода. - М.: 1950.
  • Рецкер Я .И. Теория перевода и переводческая практика. Очерки лингвистической теории перевода / Дополнения и комментарии Д.И. Ермоловича. – М.: Р.Валент, 2004.
  • Розенталь Д. Э. Практическая стилистика русского языка — М.: Высшая школа,1987.
  • Слюсарева Н. А. Проблемы функционального синтаксиса современного английского языка (монография) – М.: Наука, 1981.
  • Сошников Д. В. Парадигма логического программирования – М.: Вузовская книга, 2006.
  • Суханова М. Кто лучше переводит. Мир ПК, № 1/97.
  • Шевченко Т. А. Стилистика современного английского языка — М.: Современный гуманитарный университет, 1998.
  • Фатеева Н. Тропы, Онлайн Энциклопедия Кругосвет — 2009.
  • Хроменков П. Н. Анализ и оценка эффективности современных систем машинного перевода Диссертация на соискание учёной степени кандидата филологических наук. — М., 2000.
  • Швейцер А. Д. Теория перевода — М.: Наука, 1988.
 

Приложения

Схема 1: основные понятия  стилистики 

Схема 2: тропы и фигуры 
 

Схема 3: функциональные стили языка 

Схема 4: особенности научно-технического стиля 
 
 

Образцы проанализированных текстов

Отрывок 1

Оригинал

Отрывок из «Искусства программирования» (Knuth, 1997: 1). 

The notion of an algorithm is basic to all of computer programming, so we should begin with a careful analysis of this concept. The word ”algorithm” itself is quite interesting; at first glance it may look as though someone intended to write ”logarithm” but jumbled up the first four letters. The word did not appear in Webster’s New World Dictionary as late as 1957; we find only the older form ”algorism” with its ancient meaning, the process of doing arithmetic using Arabic numerals. During the Middle Ages, abacists computed on the abacus and algorists computed by algorism. By the time of the Renaissance, the origin of this word was in doubt, and early linguists attempted to guess at its derivation by making combinations like algiros [painful] + arithmos [number]; others said no, the word comes from ”King Algor of Castile.” Finally, historians of mathematics found the true origin of the word algorism: It comes from the name of a famous Persian textbook author, Abu ’Abd Allah Muhammad ibn Musa al-KhwarizmT (c. 825) — literally, ”Father of Abdullah, Mohammed, son of Moses, native of Khwarizm.” The Aral Sea in Central Asia was once known as Lake Khwarizm, and the Khwarizm region is located in the Amu River basin just south of that sea. Al-Khwarizm wrote the celebrated book Kitab aljabr wa’l-muqabala (”Rules of restoring and equating”); another word, ”algebra” stems from the title of his book, which was a systematic study of the solution of linear and quadratic equations. [For notes on al-Khwarizml’s life and work, see H. Zemanek, Lecture Notes in Computer Science 122 A981), 1-81.] Gradually the form and meaning of algorism became corrupted; as explained by the Oxford English Dictionary, the word ”passed through many pseudo-etymological perversions, including a recent algorithm, in which it is learnedly confused” with the Greek root of the word arithmetic. This change from ”algorism” to ”algorithm” is not hard to understand in view of the fact that people had forgotten the original derivation of the word. An early German mathematical dictionary, Vollstk’ndiges mathematisches Lexicon (Leipzig: 1747), gave the following definition for the word Algorithmus: ”Under this designation are combined the notions of the four types of arithmetic calculations, namely addition, multiplication, subtraction, and division.” The Latin phrase algorithmus infinitesimalis was at that time used to denote ”ways of calculation with infinitely small quantities, as invented by Leibniz.”

By 1950, the word algorithm was most frequently associated with Euclid’s algorithm, a process for finding the greatest common divisor of two numbers that appears in Euclid’s Elements (Book 7, Propositions 1 and 2). It will be instructive to exhibit Euclid’s algorithm here: 

Algorithm E (Euclid’s algorithm). Given two positive integers  and , find their greatest common divisor, that is, the largest positive integer that evenly divides both  and .

E1. [Find remainder.] Divide  by  and let  be the remainder. (We will have .)

E2. [Is it zero?] If , the algorithm terminates;  is the answer.

E3. [Reduce.] Set , , and go back to step E1. 

Of course, Euclid did not present his algorithm in just this manner. The format above illustrates the style in which all of the algorithms throughout this book will be presented. Each algorithm we consider has been given an identifying letter (E in the preceding example), and the steps of the algorithm are identified by this letter followed by a number (El, E2, E3). The chapters are divided into numbered sections; within a section the algorithms are designated by letter only, but when algorithms are referred to in other sections, the appropriate section number is attached. For example, we are now in Section 1.1; within this section Euclid’s algorithm is called Algorithm E, while in later sections it is referred to as Algorithm 1.1E. 

Статистика (приводятся цифры для оригинального издания, без учета алгоритма Евклида):

Параметр  Значение
строки  50
слова 563
символы 3649

 
 

Перевод, выполненный статистической СМП

Машинный  перевод отрывка (на основании веб-сервиса Google Переводчик). 

Понятие алгоритма является основой всех компьютерного программирования, поэтому мы должны начать с тщательного анализа этой концепции. Слово «алгоритм» само по себе достаточно интересно, на первый взгляд это может выглядеть, как будто кто-то собирался написать «логарифм», но неясный первых четырех букв. Слово не появлялось в Новом Мировом Словаре Вебстера уже в 1957; мы находим только старую форму «алгоритм» с его древними смысл, процесс выполнения арифметических операций используются арабские цифры. В средние века, abacists вычисляется на счетах и algorists вычисляется алгоритм. К тому времени, эпохи Возрождения, происхождение этого слова было сомнений, и в начале лингвисты пытались угадать его вывод путем комбинации, как algiros [болезненным] + arithmos [число], другие сказали, нет, слово происходит от «короля Algor Кастилии». Наконец, историки математики обнаружили истинное происхождение слова алгоритм: Оно происходит от названия известного персидского автора учебника, Абд Абу Аллаха Мухаммад ибн Муса аль-Хорезм (ок. 825), буквально, «Отец Абдулла Мухаммед, сына Моисея, уроженец Хорезма». Аральского моря в Центральной Азии было когда-то называли озеро Хорезм, и в регионе Хорезма расположен в бассейне реки Амударьи к югу от этого моря. Аль-Хорезм написал знаменитую книгу Китаб aljabr wa’1-мукабаля («Правила восстановления и приравнивая»); другое слово, «алгебра» происходит от названия своей книги, которая была систематическое изучение решения линейных и квадратичных уравнений. [Для заметки о жизни аль-Khwarizml и работы, см. Н. Земанек, Лекции по информатике 122 A981), 1-81.] 

Информация о работе Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке