Автоматический анализ текстов. Синтаксический и семантический анализ

Опубликовано: 19.10.2017

Аннотация

В данной статье рассматривается понятие «автоматический анализ текста», его применение на практике. Раскрываются такие составляющие автоматизированного анализа текста как синтаксический анализ, семантический анализ.

Ключевые слова: автоматический анализ текста, синтаксический анализ, семантический анализ, морфологический анализ.

Автоматический анализ текста представляет собой операцию, которая из заданного текста на естественном языке извлекает грамматическую и семантическую информацию, содержащуюся в тексте. Автоматический анализ выполняется по некоторому алгоритму в соответствии с заранее разработанным описанием данного языка. Обратная операция называется автоматическим синтезом текста.

Автоматический анализ является одним из важнейших этапов в различных видах автоматической обработки текстов:

· автоматического реферирования;

· автоматического перевода;

· информационного поиска и т.п. [2].

Автоматический анализ не стоит путать с автоматическим исследованием текстов, в котором практически полностью отсутствуют данные о языке обрабатываемого текста, и обработка текста осуществляется алгоритмом с целью создания описания языка. В алгоритмах автоматического анализа, как правило, имеются сведения о языке (его «грамматика») и сведения о самом процессе анализа («механизм», т.е. алгоритм автоматического анализа).

Любая современная система анализа текста, в том числе поисковые машины, осуществляющие поиск документов в сети Интернет, содержит те или иные модули автоматического лингвистического анализа. Необходимыми этапами лингвистического анализа практически в любой современной системе являются:

rss