Автор: Пользователь скрыл имя, 20 Апреля 2012 в 19:56, дипломная работа
Мы живем в мире информационных технологий, которые прочно вошли в нашу жизнь. Мы пользуемся современными средствами связи. Компьютер превратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в повседневной жизни. Быстрое развитие новых информационных технологий свидетельствует о всевозрастающей роли компьютерной техники в мировом информационном пространстве.
Введение 5
1 К определению основных понятий лингвостилистики. 9
1.1 Основные понятия 14
1.2 Функциональные стили 17
1.3 Стилистическая характеристика научно-технического стиля 20
1.3.1 Общие особенности 20
1.3.2 Лексические особенности научно-технического стиля 21
1.3.3 Синтаксические особенности научно-технического стиля 25
1.3.4 Морфологические особенности научно-технического стиля 28
1.3.5 Подстили 31
2 К проблеме машинного перевода в современном языкознании 33
2.1 Основные понятия машинного перевода 35
2.1.1 Развитие машинного перевода 35
2.1.2 Степень реализации СМП 37
2.1.3 Принципы оценки СМП 38
2.1.4 Принцип действия СМП 39
2.2 Подходы к машинному переводу 39
2.2.1 СМП основанные на правилах 41
2.2.2 Системы машинного перевода основанные на примерах 49
2.2.3 Статистический машинный перевод 51
2.3 ТМ-системы 55
2.4 Сравнение различных типов СМП 56
3 Структурно-семантические трансформации в англоязычном научно техническом тексте при машинном переводе 62
3.1 Основные особенности 62
3.2 Лексические особенности 66
3.3 Синтаксические особенности 78
3.4 Морфологические особенности 88
Заключение 95
Библиография 99
Приложения 103
Схема 1: основные понятия стилистики 103
Схема 2: тропы и фигуры 104
Схема 3: функциональные стили языка 105
Схема 4: особенности научно-технического стиля 106
Образцы проанализированных текстов 107
Отрывок 1 107
Оригинал 107
Перевод, выполненный статистической СМП 109
Перевод, выполненный трансфертной СМП 111
Перевод, выполненный человеком 113
Отрывок 2 116
Оригинал 116
Перевод, выполненный статистической СМП 118
Перевод, выполненный трансфертной СМП 120
Перевод, выполненный человеком 122
Отрывок 3 125
Оригинал 125
Перевод, выполненный статистической СМП 127
Перевод, выполненный трансфертной СМП 129
Перевод, выполненный человеком 131
Таблицы анализа 133
Список сокращений 142
Условные обозначения 142
Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным.
Задача такого декодирования заключается в том, чтобы, при данном сообщении, найти исходное сообщение, которому соответствует наибольшая вероятность. Для этого же необходимо для любых двух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение.
В данном случае нужна модель источника (модель языка) и модель канала (модель перевода). Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразы при условии фразы на переводном языке.
Если
нам нужно перевести фразу
с русского на английский, то мы должны
знать, что именно обычно говорят по-английски
и как английские фразы искажаются до состояния
русского языка. Сам по себе перевод превращается
в процесс поиска такой английской фразы,
которая максимизировала бы произведения
безусловной вероятности английской фразы
и вероятности русской фразы (оригинала)
при условии данной английской фразы.
В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель). Согласно этой модели, правильность выбора того или иного слова зависит только от предшествующих (n-1) слов.
Самой простой статистической моделью перевода является модель дословного перевода. В этой модели, известной как Модель IBM №1, предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель языка. Единственным массивом данных, которым оперирует Модель №1, является таблица вероятностей парных переводных соответствий слов двух языков (Рахимбердиев, 2003: 101). Обычно используются более сложные модели перевода. Многие из них являются коммерческими тайнами компаний разработчиков.
Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации.
В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут же определяются вероятности каждого n-грамма.
В режиме
эксплуатации, для фразы из исходного
текста ищется фраза переводного
текста, так, чтобы максимизировать
произведение вероятностей.
2.3 ТМ-системы
После
работы СМП (трансфертного типа, Example-Based)
не опознанные фрагменты текста переводятся
на иностранный язык вручную. При
этом можно воспользоваться
Но
базы переводных соответствий, построенные
для однородных текстов одного предприятия,
пригодны лишь для однородных текстов
близких по профилю предприятий, так как
предложения и большие фрагменты предложений,
извлекаемые из текстов одних документов,
как правило, не встречаются или очень
редко встречаются в текстах других документов.
Практическая реализация связаны с большими
трудозатратами на создание «памяти переводчика» или
пополнение массивов двуязычных текстов
(билингв). По такой системе чаще всего
и переводятся научные, технические и
математические тексты. Авторам этой работы,
в частности, известно, что подобный подход
часто используется Курчатовском институте.
2.4 Интерлингвистический машинный перевод
Интерлингвистический машинный перевод – один из классических подходов к машинному переводу. Исходный текст трансформируется в абстрактное представление, которое не зависит от языка (в отличие от трансфертного перевода). Переводной текст создается на основе этого представления. Основным преимуществом такого подхода является то, что для добавления нового языка в систему. Можно доказать математически, что в рамках этого подхода, создания каждого нового интерпретатора языка для такой системы будет удешевлять ее, по сравнению, например, с системой трансфертного перевода. Кроме того, в рамках такого подхода можно
Однако, до сих пор не существует реализаций такого подхода, которые бы корректно работали бы хотя бы для двух языков. Многие эксперты высказывают сомнения в возможности такой реализации. Сама большая сложность для создания подобных систем заключается в проектировании межъязыкового представления. Оно должно быть одновременно абстрактным и независящим от конкретных языков, но в тоже время оно должно отражать особенности любого существующего языка. С другой стороны, в рамках искусственного интеллекта, задача выделения смысла текста на данный момент до сих пор не решена.
Впервые интерлингвистический подход был предложен в 17 веке Декартом и Лейбницем, которые предложили универсальные словари, использующие числовые коды. Другие, такие как Кейв Бек, Афанасий Кирхер и Иоганн Иоахим Бехер работали над разработкой однозначного универсального языка, основанного на принципах логики и иконографики.
В 1668 году Джон Уилкинс в трактате «Опыт о Подлинной символике и философском языке» рассказал о своем интерлингва .
В 18 и 19 веков было разработано много универсальных языков, в том числе и Эсперанто. Известно, что идея универсального языка для машинного перевода, никак не проявилась на начальных этапах развития этой технологии. Вместо нее рассматривались только пары языков. Однако, в течение 1950-х и 60-х годов, исследователи в Кембридже возглавляемые Маргарет Мастерман, в Ленинграде во главе с Николаем Андреевым и в Милане Сильвио Ceccato начали работу в этой области.
В 1970-х и 1980-x годах были сделаны определенные успехи в этой области и был построен ряд систем машинного перевода.
В этом методе перевода, межъязыковое представление можно рассматривать как способ описания анализа текста, на языке оригинала. При этом, в представлении сохраняются морфологические, синтаксические характеристики текста. Предполагается, что таким образом можно передать «смысл» при создании переводного текста.
При этом иногда используется два межъязыковых представления. Одно из них более отражает характеристики исходного языка. Другое – языка перевода. Перевод в данном случае производится в два этапа.
В некоторых случаях используются два и более представления одного уровня (одинаково близкие к обоим языкам), но разнящиеся по тематике. Это необходимо для повышения качества перевода специфических текстов.
Такой подход не нов для лингвистики. Он основан на идеи близости языков. Для улучшения качества перевода, естественный язык используется в качестве моста между двумя другими языками. Например, при переводе с украинского на английский, иногда используется русский язык.
Для
использования системы
Самым сложным моментом при создании такого типа является невозможность построить базу для широких областей знаний. А те базы, которые создаются для очень специфичной тематики, обладают высокой вычислительной сложностью.
2.2.2 Системы машинного перевода основанные на примерах
Перевод основанный на примерах – один из подходов к машинному переводу, при котором используется двуязычный корпус текста. Этот корпус текста во время перевода используется как база знаний. Грубо говоря, это перевод по аналогии.
Если задуматься о том, как человек переводит, то мы вряд ли придем к выводу, что переводчик осуществляет глубокий лингвистический анализ. Предполагается, что люди разлагают исходный текст на фразы, потом переводят эти фразы, а далее составляют переводной текст из фраз. Причем, перевод фраз обычно происходит по аналогии с предыдущими переводами.
Для построения системы машинного перевода, основанной на примерах потребуется языковой корпус, составленный из пар предложений.
Языковые
пары — тексты, содержащие предложения
на одном языке и соответствующие им предложения
на втором, могут быть как вариантами написания
двух предложений человеком — носителем
двух языков, так и набором предложений
и их переводов, выполненных человеком.
Перевод, основанный на примерах, лучше всего подходит для таких явлений как фразовые глаголы. Значения фразовых глаголов сильно зависит от контекста. Фразовые глаголы очень часто встречаются в разговорном английском языке. Они состоят из глагола с предлогом или наречием. Смысл такого выражения невозможно получить из смыслов составляющих частей. Классические методы перевода в данном случае неприменимы.
Этот
метод перевода можно использовать
для определения контекста
Двуязычные корпуса текста
Возникает
ожидаемый вопрос, где брать такие
пары. Примерами двуязычных корпусов
текстов можно назвать
2.2.3 Статистический машинный перевод
Статистический
машинный перевод — это метод
машинного перевода.
Он использует сравнение больших объёмов
языковых пар, так же как и машинный перевод
основанный на примерах.
Статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.
Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения с использованием данных из двуязычных корпусов текстов. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст.
В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки. Мы предполагаем, что статья, написанная на английском языке, на самом деле является статьей написанной на английском, но текст зашифрован (или искажен шумом). При таком подходе становится понятно почему, чем дальше языки, тем лучше работает статистический метод, по сравнению с классическими подходами.