Интернет
— это громадный
простор для творчества.
С
помощью Сети вы можете заявить о
себе на весь мир, создав личную домашнюю
страничку. О чем? О чем хотите. О любимой
группе или композиторе, о породе кошек
или о собирании поплавков. А можно — о
себе, любимом, чтобы потом удивлять знакомых
небрежным: «Зайди на мою страничку в Интернет,
там лежат фотографии со вчерашнего дня
рождения»...
РАЗВИТИЕ
ИНТЕРНЕТА И ЕГО
БУДУЩЕЕ
Во
многих странах дальнейшее расширение
доступа к Интернету лимитируется
высокой стоимостью услуг связи
и низкой распространенностью персональных
компьютеров - как на работе, так
и дома. По-видимому, важнейшим фактором,
который будет стимулировать в будущем
рост Интернета, является конкуренция
на рынке доступа к информации. Традиционный
каналы связи вытесняются кабельным (у
нас такую услугу начало предоставлять
кабельное телевидение Baltcom TV) и спутниковым
телевидением, услугами местной проводной
и беспроволочной связи, и даже электрокомпании
теперь готовы представлять пользователям
доступ в Сеть. Можно ожидать, что тарифы
на услуги связи будут в будущем падать
из-за конкуренции.
Считается,
что переломный момент в распространение
технических новшеств, связанных с
распространением информации, наступает,
когда они привлекают интерес 10% населения.
В этом случае и вся общественность начинает
проявлять к ним повышенное внимание.
Именно этот процесс происходит сейчас
в странах Северной Европы. На многих рынках
аудитория пользователей Интернета становится
более "репрезентативной" - в ней
выравнивается соотношением мужчин и
женщин и более широко становятся представленными
различные возрастные группы.
Основой
для превращения Интернета в
информационную систему будущего является
также прогнозируемое развитие электронной
коммерции. Банки внедряют услуги, оказываемые
по Интернету, создаются все более совершенные
системы проведения коммерческих и финансовых
операций и их подтверждения. Однако ко
всем этим предсказаниям нужно относиться
с большой осторожностью. Ни одна из исследовательских
компаний не предсказывала бурный рост
Интернета, несмотря на то, что необходимая
для этого технология не только существовала
и действовала в течение 20 лет. Хотя никто
не сомневается, что число пользователей
Интернета будет продолжать расти. Но,
к примеру, вопреки всем ожиданиям, пользование
Интернетом в Новой Зеландии сокращается.
Работодатели ограничивают время доступа
в Сеть для своих сотрудников, поскольку
оно по большей части тратится впустую.
И все же ни одна из исследовательских
компаний не предсказывает уменьшение
популярности Интернета.
С
появлением браузеров все ресурсы
Интернета стали легко доступны
для широкой публики. Именно с
этот времени стали интенсивно развиваться
многие online услуги. Сначала ожидалось,
что Сеть быстро превратится в место продажи
"цифровых товаров", таких как музыка
и электронные газеты. Однако очень скоро
выяснилось, что эти ожидания совершенно
не оправдались. В Сети оказалось гораздо
выгоднее бесплатно распространять информацию,
чем ограничивать доступ к ней тем, кто
готов за это платить. Что же касается
"цифровых продуктов", например, музыки,
то Интернет стал кошмаром для музыкальной
индустрии. Теперь любой подросток может
выставить на сайте свою коллекцию CD, а
любой другой человек на земном шаре может
разыскать на нем и скопировать песни,
защищенные авторскими правами. Именно
это и происходит сейчас. "Проигрыватель"
MP3 Man позволяет слушать музыку, "скачанную"
из Интернета, где угодно - даже на пляже.
Устройство было создано уже после появления
в Интернете цифровой музыки - сама Сеть
порождает новые "игрушки".
Одновременно
с этим Интернет превратился в
лидера по торговле потребительскими
товарами. Огромный объем продаж компакт-дисков
и книг новичками на рынке заставил
и "ветеранов" разрабатывать стратегии
торговли в Сети. Однако правила игры online
отличаются от обычных. Сравнивать цены
становится так легко, что компаниям приходится
бороться за покупателей другими способами.
Что
касается масс-медиа, то у традиционных
СМИ - газет и вещателей - все еще достаточно
крепкие позиции для выхода со своей продукцией
online. Их огромное преимущество состоит
в устоявшемся круге пользователей, в
интересном содержании и в эффективно
действующей системе производства. Они
также осознают, что информационная online
продукция приносит прибыль, хотя на первом
этапе могут потребоваться инвестиции
и терпение. Нужно понимать также, что
для того, чтобы получить прибыль недостаточно
одного лишь появления в Сети и ожидания
посетителей сайта и рекламодателей. Успех
может принести только объединение связи,
услуг и коммерции. Что и можно сегодня
увидеть на сайтах в основном сетевых
СМИ.
Так,
газета New York Times, имеющая пятимиллионную
аудиторию читателей и более
полутора тысяч связей с рекламодателями,
потратила в 1998 г. на свое представительство
в Интернете $10-15 млн., однако считает этот
бизнес выгодным. Объясняется это тем,
что при подписке на электронную версию
газеты читатели заполняют на сайте бланк,
куда вносят свои данные, и газета, таким
образом, может направлять рекламу адресно,
определенным группам людей и, следовательно,
повышать расценки на размещение рекламных
баннеров.
- Интернет-ресурсы
по языку
В связи
с постоянно растущими потребностями
в средствах автоматической обработки
документов и естественно-языковых, в
том числе речевых, интерфейсах, возникает
необходимость в эффективном доступе
не только к публикациям, описывающим
методы и подходы к обработке текстов,
но и разного рода словарям, программным
компонентам и алгоритмам, реализующим
различные задачи обработки текста или
речи. И, хотя в настоящее время в сети
Интернет представлен большой объем знаний
и информационных ресурсов по этой тематике,
доступ к таким ресурсам значительно затруднен,
так как они лишь частично систематизированы
и при этом рассредоточены по различным
Интернет-сайтам, каталогам и электронным
архивам.
Для решения
этой проблемы существует несколько
подходов. В рамках одного из них
создаются различные Интернет-ресурсы,
выполняющие информационную поддержку
разнообразных тематических сообществ.
Самым известным ресурсом такого рода,
имеющим отношение к компьютерной лингвистике,
является англоязычный каталог LINGUIST List
(http://linguistlist.org/), созданный для общения
и обмена знаниями между лингвистами и
содержащий информацию о публикациях,
персоналиях, научных учреждениях и других
организациях лингвистического направления,
грантах, конкурсах, проектах, фондах и
источниках финансирования, конференциях
и семинарах лингвистической тематики.
LINGUIST List предоставляет возможность поиска
ресурсов по таким параметрам, как страна,
язык, раздел лингвистики.
К российским
аналогам LINGUIST List можно отнести научно-образовательный
портал "Лингвистика в России: ресурсы
для исследователей" (http://uisrussia.msu.ru/linguist/index.jsp)
и сайт “Российская лингвистика (RUSLING)”
(http://rusling.narod.ru), создаваемый в Отделении
лингвистических исследований ВИНИТИ
РАН. Портал "Лингвистика в России”
содержит иерархически организованный
каталог ссылок на наиболее значимые лингвистические
ресурсы и позволяет осуществлять навигацию
по разделам портала с помощью иерархических
связей внутри этих разделов и по ссылкам
на связанные с ними области (разделы).
Тематические категории этого портала
представлены разделами по компьютерной,
теоретической и прикладной лингвистике
и их приложениям (смежным областям), а
также разделами, посвященными русскому
языку, языкам мира и народов РФ. Портал
“Российская лингвистика” предлагает
лингвистам «информационную карту» для
поиска информации об организациях, научных
исследованиях и публикациях, лингвистических
ресурсах и персоналиях. Он содержит обширный
каталог ссылок на словари и корпуса текстов
для различных языков (в том числе славянских),
а также сведения о российских лингвистах,
предоставляя возможность их поиска не
только по алфавиту, но и по области и объекту
(языку) исследования.
Другой
подход направлен на представление
лингвистических ресурсов непосредственно
для работы с лингвистическими данными.
К таким проектам относятся работы по
переводу текстов в цифровые форматы,
созданию средств их хранения и обработки,
построению лингвистических онтологий
и web-интерфейсов для описания и наполнения
ресурсов лингвистическими данными. Среди
таких проектов можно отметить проект
E-MELD (http://emeld.org), в рамках которого создается
лингвистическая онтология GOLD (General Ontology
for Linguistic Description), представляющая общеязыковые
знания в виде иерархических структур.
Как правило,
проекты, разрабатываемые в рамках описанных
выше подходов, направлены на описание
и сохранение общеязыковой лингвистической
информации, а не для интеграции ресурсов
по компьютерной лингвистике и обеспечения
к ним содержательного доступа широкому
кругу пользователей.
Практически
все известные издательства словарей
и энциклопедий предлагают электронные
версии своих изданий на CD-ROM, каковые
при наличии достаточных средств
и терпения можно приобрести и
в России. Многие издательства (Merriam
Webster, Encyclopedia Britannica, Larousse, Hachette, Meyers, Brockhaus,
Garzanti, Русский язык и др.) также предоставляют
бесплатный доступ к некоторым из своих
детищ через Интернет. В то же время доступ
ко многим популярным справочникам платный
(Oxford English Dictionary, Termium, Encyclopedie Larousse).
Помимо
громких лексикографических имен, пожалуй,
главное богатство "справочной"
Сети - несметное множество специализированных
словарей и глоссариев из всевозможных
областей, от компьютерной терминологии
и сленга биржевых маклеров до ухода
за орхидеями, виндсерфинга и восточных
единоборств. На одном только сайте YourDictionary.com
представлены ссылки на 1500 словарей и
глоссариев на 230 языках.
Доступ
к крупным словарям обычно предоставляется
в режиме онлайн, большинство же специализированных
словарей и глоссариев можно загрузить
(скачать) на жесткий диск своего компьютера
и просматривать оффлайн, т.е. отключившись
от Сети.
Ниже
представленный каталог включает в
себя описание программ, связанных
с анализом текстов и лингвистикой,
а также соответствующих ресурсов, доступных
сегодня в глобальной сети Интернет. Упор
при составлении каталога делался на бесплатные
программы, доступные для загрузки. Однако
также описаны некоторые on-line и коммерческие
версии программ.
Программы
анализа и лингвистической
обработки текстов
Название |
Автор(ы),
Организация |
Комментарий |
Link
Grammar Parser
|
John Lafferty
Daniel Sleator
Davy Temperley
Carnegi Melon University, USA
|
Link Grammar Parser –
это синтаксический парсер английского
языка. Работает со словарем, включающем
около 60000 словарных форм. Реализован на
C для Unix. Есть также версия для Windows API32.
Имеет консольный интерфейс.
Исходные предложения для разбора могут
вводиться вручную с клавиатуры или задаваться
в ASCII-файле для пакетной обработки. Программа
распространяется бесплатно. |
Проекты Cíbola/Oleada |
Computing Research Laboratory (CLR)
New-Mexico State University, USA |
Проекты Cíbola/Oleada
реализуют обширные компьютерные системы
лингвистического анализа текстов, представленных
в Unicode. Компоненты системы включают средства
работы с мультиязыковыми текстами (MUTT),
построения конкорданса (XConcord) для текстов
на более чем 16 языках, статистического
анализа, автоматического перевода, различные
словари и тезаурусы. Некоторые версии
этих компонентов доступны для бесплатной
загрузки после процедуры формальной
регистрации. Все компоненты реализованы
в среде X11 Window System для SunOs и Solaris. |
Russian
Morphological Dictionary |
Sergey Sikorsky |
Программа для
синтаксического и морфологического
анализа русскоязычных текстов.
Работает с входным ASCII-текстом. Используется
морфологический словарь, включающий
120000 слов. Реализована на SWI-Prolog для Windows.
Программа распространяется бесплатно. |
On-line
морфологический парсер
|
Яndex |
On-line версия
морфологического парсера русскоязычных
текстов, реализованного в поисковой
системе Яndex. В основе парсера
- "Грамматический словарь русского
языка" А.А.Зализняка (110 тыс.слов).
Для просмотра результатов морфологического
анализа нужно выбрать режим "разбор
запроса". |
Mystem |
Илья Сегалович,
Виталий
Титов
компания Яndex |
Компактный, очень
быстрый и бесплатный морфологический
парсер русскоязычных текстов, реализованный
на основе словаря Зализняка. Доступны
для загрузки версии для Windows и Linux. Работает
как консольное приложение и имеет различные
режимы представления результатов.
|
Лингвоанализатор |
Д.В.Хмелев |
On-line версия
программы математического анализа
структуры текста. Целью анализа
является определение близости
любого из предлагаемых пользователем
текстов к одному из авторских эталонов,
определенных заранее. (Авторский
эталон - это набор текстов данного автора,
взятый из ресурсов
Русской Фантастики).
Программа анализирует входной текст
и выдает имена трех писателей, которые
могли бы быть его наиболее вероятными
авторами. Кроме этого, программа находит
три произведения каждого из авторов,
которые наиболее близки данному тексту. |
Программные
продукты фирмы LingSoft |
LingSoft, Финляндия |
Компоненты
грамматического разбора, морфологического
анализа и лемматизации (нормализации)
для английского, немецкого, финского,
датского, норвежского, шведского, эстонского
и русского языков. Это коммерческие
продукты, которые могут быть использованы
при разработке других систем. |
Рабочее
Место Лингвиста |
компания
Dialing
Москва |
Анализ текстов
для построения систем автоматического
перевода с русского на английский
язык (и наоборот). Включает ряд автономных
компонентов:
- синтаксический анализатор текстов на
русском языке;
- морфологический анализатор текстов
на русском и английском языках;
- построение конкордансов для заданной
совокупности текстов.
Используются морфологические словари
русского (80 тыс.слов) и английского (60
тыс.слов) языков. Для каждого компонента
разработан COM-интерфейс, который может
использоваться при разработке других
прикладных систем. Доступна для загрузки
бесплатная демо-версия системы РМЛ-99
1.0, которая к сожалению осталась незавершенной
(по всей видимости эта разработка почила
в бозе). Система написана на языке C++ и
работает в среде Windows 9x/2000/NT. |
Система
StarLing |
С.А.Старостин |
СУБД StarLing, позволяющая
работать с мультиязычными текстами
большой длины, с транскрипционными
знаками, с удобным поиском, с анализом
и синтезом словоформ по словарю Зализняка,
с переводом по словарю Мюллера. Есть функции
для сравнительно-исторических исследований
(глоттохронология). Для загрузки доступны
полные DOS и Windows версии системы. Для
обеих версий системы требуется предустановка
системных фонтов, также доступных для
загрузки (DOS, Windows).
Кроме этого можно загрузить словари Ожегова
и Зализняка в DBF-формате.
В режиме on-line на сайте доступна этимологическая база для различных языков. |
Морфологический
анализатор |
С.А.Старостин |
On-line версия
программы морофлогического анализа
слов русского/английского языков.
Позволяет получить для вводимого
слова базовую форму и морфологическую
информацию. Программа реализована
на основе словарей Зализняка
(рус.яз.) и Мюллера (англ.яз.).
|
MonoConc |
Michael Barlow
Dept of Linguistics, Rice University, Texas, USA |
Две версии (MonoConc
Pro 2.0 и MonoConc 1.5) программы построения
конкорданса для заданного корпуса
символьных (ASCII) текстов. Утверждается,
что размер текстов может достигать нескольких
миллионов слов. Реализованы возможности
различных режимов поиска: с помощью символов
маскирования, регулярных выражений, контекстно-чувствительного
поиска. При обработке текстов c внутренней
разметкой (HTML/SGML) теги включаются в состав
конкорданса (это нехорошо). Различные
варианты сортировки. Функции частоты
встречаемости слов и словосочетаний.
Различные режимы вывода конкорданса.
Есть возможность генерации индексов
и словников.
Обе программы реализованы для Windows 95 и
выше. MonoConc 1.5 имеет вариант реализации
для Windows 3.1 (16-разрядная версия).
Версия MonoConc 1.5 является несколько облегченной
в сравнении с MonoConc Pro. К сожалению обе
эти программы не бесплатны. Лицензия
на использование MonoConc Pro в образовательных
целях стоит $85.00; MonoConc 1.5 - $65.00. Имеется
возможность загрузки бесплатных демо-версий,
которые имеют ряд ограничений в сравнении
с реальными версиями. |
ParaConc
0.7beta
ParaConc 1.0beta |
Michael Barlow |
Две бесплатные
beta-версии программы построения параллельного
конкорданса, т.е. конкорданса, основанного
на двух сравниваемых текстах. Тексты
должны быть выравнены по параграфам (предложениям),
т.е. иметь одинаковое число этих элементов.
Как и в программах MonoConc обрабатываются
символьные ASCII тексты. Программа ParaConc
реализована для Windows 95 и выше. Для установки
версии 1.0 программы требуется загрузить
файл Conc.exe в отдельную директорию
и создать в ней поддиректорию AligneImport,
в которую сохранить два dll-файла из архива paradll2.zip. |
WordSmith
Tools |
Mike Scott |
Бесплатная демо-версия
программы WordSmith 3.0 для построения конкордансов.
Программа, очень похожая по функциональности
на MonoConc. Может обрабатывать
корпус ASCII текстов, состоящий из множества
отдельных файлов. Не понимает внутреннюю
разметку. Имеет досадное ограничение
на длину выходного конкорданса.
Включает в свой состав несколько полезных
утилит - генерации списка слов для заданной
совокупности текстовых файлов; разбиения
больших текстов на совокупность фрагментов;
пакетного редактирования множества текстов
и другие.
Реализована для Windows 95 и выше.
Кроме программы WordSmith здесь же можно загрузить
различные словари и словники. |
Concordance
2.0.0 |
© R.J.C. Watt,
2000 |
Коммерческая
программа для построения конкордансов
и частотных списков для Win9x/NT/2000
(регистрация 80$). Обработка текстов
в кодировках, поддерживаемых Windows,
настройка на заданный алфавит. Сохранение
результатов в виде HTML-файлов. Богатые
средства анализа текстов. Возможность
бесплатной загрузки для пробного ознакомления. |
TextAnalyst
2.0 |
Научно-производственный
инновационный центр "МикроСистемы"
|
Демо-версия очень
интересного инструмента анализа
символьных текстов. Позволяет построить
семантическую сеть понятий, выделенных
в обрабатываемом тексте, со ссылками
на контекст. Имеется возможность смыслового
поиска фрагментов текста с учетом скрытых
в тексте смысловых связей со словами
запроса. Позволяет анализировать текст
путем построения иерархического дерева
тем/подтем, затрагиваемых в тексте. Также
имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также
предлагается инструментарий разработчика
TextAnalyst SDK, включающий функции лемматизации
(приведения слов к нормальной форме) для
русского и английского языков, построения
частотных списков понятий, поиска слов
в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться
для пострения гипертекстовых электронных
книг.
Все компоненты реализованы для Windows 95
и выше и доступны для бесплатной загрузки.
Интересно отметить, что на американском
рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc. |
Galaktika-ZOOM |
корпорация
Галактика, Москва |
Автоматизированная
система поиска и аналитической обработки
информации. Мощный инструмент анализа
и обработки текста (Text Mining), позволяющий
извлекать необходимые сведения из огромного
объема данных. Это коммерческая система,
имеющая клиентов в рекламе, органах управления
и средствах массовой информации.
|
Система
Пропись 4.0 |
АО Агама |
Набор средств
для лингвистической обработки
русскоязычных текстов:
- проверка орфографии;
- расстановка переносов;
- построение списка синонимов и антонимов
слова;
- грамматическая и стилистическая проверка
текста;
- толкование слова (по Толковому словарю);
- поиск и замена слов в тексте с учетом
их форм;
- статистический анализ текстов.
Работает в старых Windows 3.1/95. Windows 2000 и MS
Office 97 не поддерживает. Цена 10$. |
|
АО
Агама |
Словарно-справочная
система по русскому языку для Microsoft
Windows 3.1/95. Включает в себя ряд словарей,
в том числе морфологический,
словообразовательный и синонимов/антонимов.
|
Лингвистические
компоненты, словари и библиотеки классов |
Андрей Коваленко |
Авторская страничка
ведущего разработчика компании Рэмблер
А.Коваленко, на которой представлены
его лингвистические разработки, реализованные
в ряде существующих информационно-поисковых
систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0
и других. Можно скачать описания и демо-версии
компонентов. |
netXtract |
© 2000 Relevant Software
Inc. |
Замечательная
компонента, подключаемая к Microsoft Internet
Explorer (версии 5.0 и выше), которая позволяет
в мгновение ока получить упорядоченный
индекс слов в загруженном HTML документе.
Индекс может быть упорядочен по алфавиту
или частоте. Для каждого слова в индексе
можно исследовать контекст, в котором
это слово встречается. Выбранные слова
по желанию заносятся в персональную базу
знаний, которая позволяет систематизировать
найденные документы удобным образом.
Можно скачать бесплатную версию.
|
Textual
Analysis Computing Tools (TACT) |
Library Electronic
Text Resource Service
Indiana University, USA |
Пакет программ
обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто.
Пакет включает программы для автоматизированной
разметки текста; построения упорядоченных
списков слов; анализа распределения слов
в тексте по длине и частоте; построения
конкорданса и другие. К сожалению все
программы старые и сделаны для DOS. Однако,
имеется on-line версия пакета TACTWeb 1.0 |
Paai's
text utilities |
Dr. J.J. Paijmans, Нидерланды |
Сборник различных
утилит и Unix-скриптов для обработки
ASCII-текстов. Все программы скомпилированы
для использования в Linux. |
WordTabulator
v2.2 |
© Логичев С.В., 1997-2002 |
Новая версия программы,
предназначенной для анализа
текстов в среде Windows 9x/NT/2000/XP. Позволяет
построить упорядоченные индексы
словоформ или словосочетаний заданной
размерности для множества входных
текстов. Понимает тексты в основных русскоязычных
кодировках и может обрабатывать документы
в формате HTML 4.01, игнорируя их разметку.
Возможности поиска с помощью символов
маскирования; возможность поиска всех
видоизменений словоформ, заданных базовой
формой; контекстный просмотр результатов;
сравнение двух совокупностей текстов.
Удобный графический интерфейс. Выходной
индекс в форме гипертекста. Public domain. |
Худломер |
Леонид Делицын |
Проект "Худломер"
связан с задачей автоматической
классификации стиля русскоязычных
текстов. Автором были собраны и
проанализированы 4 корпуса текстов,
взятых из русской сети. Сюда вошли
художественные произведения, публицистика,
научные статьи и протоколы диалогов через
ICQ и IRC. В результате были получены эмпирические
кривые распределения длин слов в текстах,
в зависимости от стиля. Эти кривые используются
в качестве эталонов при классификации.
On-line версия Худломера (на основе Perl-скрипта)
может быть опробована здесь. Программа классифицирует
стиль входного текста как: РАЗГОВОРНАЯ
РЕЧЬ, ХУДЛО (худ.литература), ГАЗЕТНАЯ
СТАТЬЯ или НАУЧНАЯ
СТАТЬЯ.
На сайте есть статья с теоретическим
описанием алгоритма классификации. Автор
проекта широко известен как издатель
литературного журнала DE-LIT-ZYNE, основатель
сетевого конкурса ТЕНЕТА и энтузиаст
русской сетературы.
Еще один проект автора, "Штампомер",
связан с нахождением наиболее часто встречающихся
фраз (штампов) в авторских текстах. К сожалению,
этот проект в настоящее время заморожен. |
Свежий
взгляд/Fresh Eye
версия 1.21, 1995 |
Дмитрий
Кирсанов |
DOS-утилита, реализующая
стилистическую проверку русскоязычных
текстов. Программа отыскивает
в тексте места, где фонетически
и морфологически схожие слова
расположены в непосредственной
близости, что порождает так называемую
паронимию или "нечаянную
тавтологию". Программа распространяется
без каких-либо ограничений вместе с исходным
текстом на C. Есть версия для OS/2. |
URS
версия 1.1
от 05.04.2001 |
М.А.Бендерский,
компания "НООЛаб", Новосибирск |
Unique Record Set Management
utility, Win9x/NT/2000. Утилита для построения и
обработки словарных частотных индексов.
Позволяет обрабатывать входные документы
в форматах обычного текста, HTML и MS Word.
Возможности анализа и обработки пар словарных
индексов как двух множеств. Экспорт результатов
в выходной файл. |
Update!
Машинный
перевод |
© Серж Слепов, 1999-2002 |
Развивающийся
проект программиста из Снежинска, посвященный
проблемам исследования машинного
перевода. Один из разделов проекта
связан с анализом морфологии русского
языка. Описан ряд интересных программ,
которые можно беспрепятственно
скачать и испробовать. |
WordStat |
© Дубинский А.Г., 2001 |
Бесплатная
утилита подсчета частоты встречаемости
различных слов в текстовых или
html-файлах. Понимает основные русские
кодировки, игнорирует html-разметку.
|
Алгоритм
сравнения текстов |
Владимир
Чаплинский |
Описан простой
алгоритм сравнения двух текстов
и даны примеры программ на FoxPro. Автор
использует данный алгоритм для поиска
дубликатов анектодов в своей личной коллекции. |
АОТ
(автоматическая обработка текста) |
Алексей
Сокирко и Co. |
Сайт, на котором
представлены разработки бывших сотрудников
компании Диалинг, прекратившей свое
существование в мае 2001г. Среди предлагаемых
продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа
для русск. и англ.яз.;
- модуль автоматического уничтожения
омонимии;
- модуль семантического анализа текста;
- различные тезаурусы.
Также опубликована диссертация А.Сокирко
"Семантические словари в автоматической
обработке текста" по теме машинного
перевода. |
Технологии
поиска и анализа текстовой информации |
Гарант-Парк-Интернет |
Сайт, на котором
представлены разработки известной компании
Гарант-Парк-Интернет. Cреди представленных
технологий:
- анализ и классификация текстов, автоматическое
реферирование;
- различные варианты поиска текста;
- морфологичекий, синтаксический и семантический
анализ текста;
- средства навигации по большим массивам
текстов;
- различные научные публикации авторов
проекта. |
|