Исследовательская работа на НОУ по математике Анализ газетной публицистики средствами математики
НОУ «Школа «Альфа и Омега»
Анализ газетной публицистики средствами математики
Выполнила: Шибеев Роман, ученик 8 класса.
Руководитель: Вардугина Валентина Николаевна, учитель математики.
ОГЛАВЛЕНИЕ
Введение3
Глава 1. Связь математики и лингвистики
1.1. Математическая лингвистика.................4
1.2. Теория графов в математике и лингвистике 7
Глава 2. Анализ текстов математическими методами
2.1. Математика и анализ художественных текстов . 10
2.2. Анализ публицистических статей.....15
Заключение..17
Приложение18
Список литературы ...21
Введение.
Лингвистика и математика Казалось бы, что общего могут иметь такие разные науки, а тем более как такая строгая, сухая, наполненная формулами и значками математика может помочь тонкой и неосязаемой материи, как язык? На самом деле в языкознании математика находит довольно широкое применение. Говоря о применении математических методов при изучении языка, мы не имеем в виду, что можно говорить и писать в повседневной жизни на языке математики. Речь идет об использовании математики в науке о языке, о точных методах решения возникающих в лингвистике проблем.
Мало кому известно как с помощью математики можно исследовать тексты, какие возможности открывает математика для ученных языкознания и просто заинтересовавшихся людей, что и определяет актуальность данного исследования.
Цель данного исследования – анализ газетной публицистики средствами математики, а именно использование теории графов в лингвистике. Соответственно, гипотезой исследования будет научное предположение о том, что по графу статьи можно определить индивидуальный стиль писателя, а также установить авторство текста.
Объектом исследования являются публицистические статьи корреспондента «Бизнес-курс» Алена Булавка.
Предметом – графы статей.
Задачи: 1) собрать и обработать информацию по теме исследования;
2) изучить анализ художественных текстов;
3) проанализировать с помощью теории графов публицистические статьи омского корреспондента Алена Булавка ;
4) соотнести результаты анализа статей и сделать вывод о индивидуальном стиле корреспондента;
В нашей работе мы планируем использовать как общеучебные методы (анализ, синтез классификация и обобщение), так и специальные.
Глава 1. Связь математики и лингвистики
Математическая лингвистика
Когда во второй половине 50-х годов некоторые молодые лингвисты задумались о применении математических методов для исследования структуры языка и начали сотрудничать с математиками, это вызвало у очень многих их коллег удивление и даже шок ведь они с детства были убеждены, что гуманитарные науки, одной из которых является лингвистика, с математикой и другими «точными» науками не имеют и не могут иметь ничего общего.
Возникшее в Древней Греции учение о грамматических категориях уже представляло собой описание ряда важнейших аспектов строения языка с помощью абстрактных моделей, близких по стилю к тем моделям, которые были созданы древнегреческими математиками для описания пространственных форм. Первые попытки использовать для описания языкового «идеала математической гармонии» настоящие математические средства были предприняты лишь в середине ХХ столетия.
Можно указать две причины такого «запоздания». Во-первых, наука о языке после значительных шагов, сделанных в античную эпоху, снова начала по-настоящему развиваться только в XIX столетии, но в течение всего этого столетия главное внимание лингвистов было обращено на историю языка, и лишь в следующем веке, который вообще был для гуманитарных наук веком структурализма, лингвистика впервые после античного периода обратилась к изучению языковых структур, но уже на новом уровне. Когда лингвисты осознали, что язык представляет собой, говоря словами Ф. де Соссюра, «систему чистых отношений», т. е. систему знаков, физическая природа которых несущественна, а существенны только отношения между ними, стала совершенно очевидна параллель между языком и математическими конструкциями, которые тоже являются «системами чистых отношений», и уже в начале ХХ столетия тот же де Соссюр мечтал об исследовании языка математическими средствами.
Во-вторых, в математике в начале Нового времени вышли на первый план количественные методы, и только в XIX веке математики снова начали строить неколичественные абстрактные модели, отличавшиеся от античных более высоким уровнем абстракции, а также что для нашей темы особенно важно тем, что они могли использоваться для описания значительно более широкого круга явлений, чем пространственные формы; нередко такие модели оказывались удобным и даже необходимым средством для изучения явлений, о которых строившие их математики вовсе не думали и даже не знали об их существовании. Среди этих моделей были и те, которые впоследствии получили применение в лингвистике; особенно интенсивное развитие математических дисциплин, содержанием которых было их построение, пришлось на первую половину ХХ столетия. Поэтому встреча математики и лингвистики в середине этого столетия была вполне закономерна.
Одним из результатов этой встречи было возникновение новой математической дисциплин математической лингвистики, предметом которой является разработка математического аппарата для лингвистических исследований. Центральное место в математической лингвистике занимает теория формальных грамматик, по характеру используемого в ней аппарата родственная математической логике и в особенности теории алгоритмов. Она доставляет формальные методы описания правильных языковых единиц различных уровней, а также, что особенно важно, формальные методы описания преобразований языковых единиц как на одном уровне, так и межуровневых. К теории формальных грамматик примыкает теория синтаксических структур, значительно более простая в отношении аппарата, но не менее важная для лингвистических приложений. В математической лингвистике разрабатываются также аналитические модели языка, в которых на основе тех или иных считающихся известными данных о «правильных текстах» производятся формальные построения, результатом которых является описание каких-то «составных частей» механизма языка.
Математическая лингвистика – особенная сфера научно-практической деятельности, поскольку она связана с применением точных методов в изучении языка. Исследовательские проблемы, решаемые матлингвистами, разнообразны. К фундаментальным можно отнести такую задачу, как создание математических моделей языка. Применение алгебраических методов, методов теории множеств, математической логики, теории информации, теории вероятностей, математической статистики во многих случаях позволяет не просто формализовать лингвистические данные, но сделать необозримую и богатейшую языковую субстанцию более доступной для наблюдения. Поэтому математическое моделирование помогает найти убедительное объяснение многим явлениям языка.
Как утверждал физик П. Дирак, во всякой науке ровно столько истины, сколько в ней математики – и это в полной мере касается науки о языке. Если говорить о прикладных задачах математической лингвистики, то это разработка лингвистического и программного обеспечения интеллектуальных систем, систем машинного перевода, систем синтеза и анализа звучащей речи, создание электронных словарей, информационный поиск, автоматическое реферирование и многое другое. Существует ещё ряд практических задач, где немалую роль играет математическая лингвистика: это моделирование знаний и систематизация терминологии предметных областей (различных направлений техники, медицины, экономики), моделирование речевого взаимодействия (в сфере СМИ, рекламы, политического дискурса), лингвистическая экспертиза правовых документов.
Справедливо считать, что математическая лингвистика – молодое направление, сформировавшееся в середине 20 века. Активное развитие математической лингвистики (шире, прикладной лингвистики и языковой инженерии) в мировой науке было обусловлено необходимостью решения проблемы автоматической обработки, хранения, поиска и передачи информации на естественном языке.
1.2 Теория графов в математике и лингвистике
Зарождение теории графов можно отнести к концу XVIII в., к работам А.Эйлера, посвященным решению математических, развлекательных задач. В ХХ в. толчком к развитию теории служат задачи, возникающие в физике, химии, электротехнике, биологии, экономике, социологии, а также во многих математических дисциплинах. Современная теория графов включает различные подходы к решению соответствующих задач: комбинаторно-логические, геометрические, теоретико-вероятностные.
Теория графов - область дискретной математики, особенностью кото-рой является геометрический подход к изучению объектов. Основной объект данной теории граф. Граф задается множеством вершин и набором неупорядоченных и упорядоченных пар вершин. Неупорядоченная пара вершин называется ребром, упорядоченная дугой. Граф, содержащий только ребра, называется неориентированным; граф, содержащий только дуги, ориентированным. Пара вершин может соединяться двумя и более ребрами (дугами одного направления; направление дуги отвечает упорядоченности соответствующей пары вершин).
Графы обычно изображаются в виде геометрических фигур, так что вершины графа изображаются точками, а ребра – линиями, соединяющими те точки, соответствующим вершинам которых ребра инцидентны.
Конструкторам хорошо известно, что построение сложного объекта удобно начинать, когда под руками есть чертеж, т. е. модель будущего объекта. Здесь лингвистика прибегает к помощи математики. Если не знать некоторых важных математических понятий и не уметь ими пользоваться, удобного синтаксического чертежа нарисовать не удастся. Оказывается, что чертеж в синтаксисе не только отвечает целям наглядности, но и способствует обнаружению новых, ранее неизвестных языковых фактов.
Здесь на помощь лингвистам пришла относительно новая область математики – теория графов. Графом называется произвольное множество объектов с заданными на нем отношениями. Элементы этого множества называются узлами или вершинами графа. Если узлами графа являются синтаксические единицы, а отношения являются синтаксическими, то граф называется синтаксическим. Граф обычно рисуют на плоскости. При изображении графа узлы рисуются в виде точек со стоящими при них надписями, а отношения изображаются в виде стрелок, направленных от первого члена отношения ко второму. Изображение графа тоже называют графом. В зависимости от получающихся при этом геометрических фигур графы называют деревьями. Графы могут быть линейными, иерархическими или звездными.
Графы могут применяться как классификационные и как графы зависимостей. Разные варианты графов можно встретить во многих работах по синтаксису. Так, например, в грамматике непосредственно составляющих принято представлять синтаксическую структуру предложения в виде дерева, позволяющего показать направление каждой синтаксической связи. В каждой паре единиц элементы делятся на главный и зависимый, а дерево зависимостей отражает все множество связей.
Несмотря на сравнительно простое определение, синтаксический граф реального предложения – это настолько сложный объект, что с ним трудно иметь дело при решении прикладных задач и, в частности, при построении синтаксических алгоритмов. В формальной лингвистике обычно имеют дело с относительно простым частным случаем графов – с деревьями. Деревом в теории графов называется граф, на который накладываются определенные ограничения:
существует единственный узел, в который не входит ни одна стрелка (этот узел называется корнем дерева);
в каждый узел, кроме корня, входит ровно одна стрелка;
длинный граф не содержит циклов (т. е. невозможно, двигаясь из какого-нибудь узла в направлении стрелок, вернуться в тот же самый узел).
Синтаксическое дерево отражает не все синтаксические связи, а только некоторые, в известном смысле наиболее важные.
Глава 2. Анализ текстов математическими методами
2.1. Математика и анализ художественных текстов
Если бы, скажем, в XIX или даже в начале XX в. кто-нибудь поставил вопрос, можно ли использовать математические методы при анализе художественного текста, то этот вопрос вызвал бы недоумение даже у самых образованных людей. Ныне же, благодаря обнаружению формальных приемов анализа текста, ситуация в корне изменилась. Строгие и точные методы изучения художественных текстов позволили найти в них свойства, которые было трудно заметить «невооруженным глазом». Здесь синтаксис смыкается с другой областью исследования текста со стилистикой. При этом литературоведа, занимающегося проблемами стиля, интересуют прежде всего такие содержательные параметры, как сюжет, идейная направленность, характеры и поступки героев, основная мысль произведения, тема и т. д.; а внимание лингвистов обращено на языковые средства выражения содержательных характеристик, на «словесную ткань» произведения.
У искушенного читателя есть интуитивное представление о творческом почерке писателя. Такой читатель знает его излюбленные приемы и среди них типичные для данного писателя способы построения фраз, ритмику, акценты и т. д., т. е. индивидуальный синтаксис автора. Знание основных черт индивидуального синтаксиса может понадобиться и при решении обратной задачи по данному тексту определить, кто его автор. Эту задачу называют задачей атрибуции текста. Ее приходится решать историкам, литераторам, которым в руки попадает текст неизвестного автора, работникам литературных музеев, библиотекарям.
Основной гипотезой при формальном решении этой задачи служит предположение, что индивидуальный синтаксический почерк отражается в изображении деревьев для структур наиболее типичных для автора фраз. Использование ЭВМ позволило лингвистам, опираясь на вероятностные и статистические методы анализа, по виду деревьев и их количественным характеристикам устанавливать с большой достоверностью, кто автор данного текста.
Покажем на примере творчества нескольких писателей, как на язык деревьев переводятся трудноуловимые и на первый взгляд неформализуемые особенности стиля, которые кладутся в основу стилистической диагностики.
Основная черта синтаксиса прозы А. Пушкина ее ритмизованность и подчиненный ей лаконизм выражений. В прозаических произведениях Пушкина преобладают краткие фразы, часто встречаются нераспространенные предложения. Так, если взять «Капитанскую дочку», то для нее типичны расположенные деревья подчинения следующего вида:
Пушкинский текст в основном состоит из предложений, в которых не более 11 слов, а рисунки их деревьев либо симметричны, либо имеют длинный правый отросток. При этом даже для длинных фраз громоздкие деревья практически не возникают. Как мы видим, интуитивное ощущение прозрачности пушкинской фразы соответствует строгому понятию синтаксической простоты.
Деревья лермонтовской прозаической фразы во многом похожи на пушкинские, хотя подсчеты показывают, что в среднем предложения у Лермонтова чуть-чуть длиннее и чуть-чуть сложнее.
Впрочем, есть важное различие в рисунках деревьев, свойственных этим авторам. Ширина ветвления у корня дерева для фразы из «Героя нашего времени» гораздо больше, чем для фразы из «Капитанской дочки». Это означает, что дерево лермонтовской фразы растет вширь, тогда как в пушкинской фразе оно растет вглубь. Большая ширина ветвления возникает вследствие того, что сказуемые в лермонтовской фразе подчиняют себе не только дополнения, но и разнообразные по структуре и значению обстоятельства. Из двух деревьев на рисунке первое более типично для Пушкина, а второе для Лермонтова.
У Гоголя в «Вечерах на хуторе близ Диканьки» в стилистической пестроте фраз встречаются не только короткие предложения. Здесь в большом количестве представлены предложения, длинные и сложные по структуре. Даже относительно короткие предложения из 612 слов строятся у Гоголя весьма разнообразно: в его произведениях можно найти едва ли не любую теоретически возможную из данного числа слов конфигурацию ветвей дерева. В частности, наблюдается своеобразный тип структуры с многократными зигзагами, когда, спускаясь вниз по стрелкам, мы постоянно изменяем направление движения.
Сравнив прозу Л.Толстого и Ф.Достоевского, можно отметить, что стилю обоих писателей присущи деревья достаточно сложной конфигурации. Но фразы Л.Толстого мы скорее опишем как громоздкие, а построения Достоевского как «неупорядоченные». Не случайно Ю.Нагибин как-то заметил, что язык Л.Толстого тяжеловесен, а язык Достоевского хаотичен. Как же переводится эта импрессионистическая оценка современного писателя на формальный язык деревьев? Громоздкость синтаксиса Л.Толстого сказывается в значительном ветвлении деревьев влево «хаотичность» синтаксиса Достоевского, в свою очередь, проявляется в большом числе зигзагов в правой части дерева. На рисунке показан общий вид деревьев, характерных для этих писателей.
Так лингвист определяет общий контур деревьев, отражающих индивидуальный стиль автора.
2.2. Анализ публицистических статей
Анализируя предыдущий параграф, можно сделать вывод, что каждый писатель имеет индивидуальный стиль, более того можно по общему графу текста установить его авторство. Возникает вопрос: «Всегда ли по графу можно определить автора текста?»
Для ответа на данный вопрос мы решили проанализировать ни художественные тексты известных классиков, ни произведения современных писателей, а публицистические статьи. Данный выбор можно обосновать следующим, если современным корреспондентам присущ индивидуальный стиль, то по тексту можно определить автора и пользоваться этим приёмом если статья написана анонимно. Или, если вы когда-нибудь читали статью данного автора и она вам понравилась (не понравилась), обязательно ли вы прочитаете ещё одну статью этого корреспондента?
Чтобы ответить на все эти вопросы мы воспользовались омской публицистикой, а именно газетой «Бизнес-курс». Для анализа статей мы взяли две работы корреспондента данного издания Алена Булавка. (см Приложение 1, 2).
Работая над анализом статей «Голушко не будет работать под брендом "Пятерочка" » и «В "Триумфе" будет "Ашан"?», мы составили граф к каждому предложению, после чего, сравнивая и обобщая их получили общий граф к каждой статье.
Так выглядит граф к статье «Голушко не будет работать под брендом "Пятерочка"»
А вот что собой представляет граф к статье « В "Триумфе" будет "Ашан"?»
Глядя на графы статей можно увидеть, что своей конструкцией они не слишком отличаются, если только длиной правого и левого плеча, то есть предположение о том, что по графу можно определить индивидуальный стиль корреспондента подтверждается. Проведем более подробный анализ статей.
Название статьи
Количество узлов
Количество простых предложений
Количество узлов, выходящих из корня
Максимальное количество направлений пути дерева
Голушко не будет работать под брендом "Пятерочка"
10
3
2
Лево 6
Право 4
В "Триумфе" будет "Ашан"
7
2
2
Лево – 3
Право - 8
Из данного анализа тоже видно, что кардинальных отличий между критериями анализа нет.
Заключение
В заключение нашей работы хотим сказать, что нам удалось изучить литературу по данной тематике, познакомиться с различными средствами математики, которые дают возможность анализировать литературные произведения или просто тексты. Также нами были изучены основные принципы построения графов различных предложений и анализ художественных произведений классиков.
На примере анализа художественных произведений мы выдвинули гипотезу об установлении индивидуального стиля корреспондента, а именно можно ли по общему графу статьи определить автора?
Для доказательства или опровержения данной гипотезы мы проанализировали две статьи омского корреспондента Алены Булавка. В ходе работы мы составили графы каждого предложения, а затем выявил общий вид графа, выделили основные критерии анализа текста и установили, что графы статей не значительно отличаются, следовательно, можно говорить об индивидуальном стиле корреспондента
Таким образом, в ходе нашей работы мы установили, что вероятно можно определить индивидуальный стиль корреспондента по графу его статьи. Хотя утверждать это со стопроцентной уверенностью нельзя, так как необходимо рассмотреть и проанализировать больше корреспондентов, что может послужить толчком для дальнейшей исследовательской работы.
Приложение
Приложение 1
В "Триумфе" будет "Ашан"?
Спустя три месяца после закрытия "Планеты Холидей" "Триумф" открыл новый супермаркет. Руководство "Триумфа" заявляет, что владельцами магазина являются москвичи, но участники рынка сомневаются в том, что столичным игрокам сейчас есть дело до провинциальных торговых комплексов.
Как уже писал "БК" (№40 от 15.10.2008), "Компания "Холидей" расторгла договор с "Триумфом" прошлой осенью. Причины разрыва каждая из сторон объясняла по-разному. "Триумф" обвинял "Холидей" в том, что супермаркет не смог привлечь мощные потоки посетителей, "Холидей" же в свою очередь сомневался, что в рамках конкретно этого торгового комплекса подобное вообще осуществимо.
Заместитель директора ТК "Триумф" Вадим Фокин в неофициальной беседе рассказал "БК", что ведутся переговоры с несколькими крупными федеральными сетями и руководители комплекса очень надеются, что место не оправдавшего надежды супермаркета займет гипермаркет "Ашан". На прошлой неделе супермаркет в "Триумфе" был открыт под брендом "Триумф Плаза", и, по словам г-на Фокина, принадлежит он некой московской компании, у которой есть договор с "Ашаном".
- Супермаркет будет работать пока в тестовом режиме, - говорит г-н Фокин. - Согласно договору с "Ашаном", цены в нем должны быть ниже средних по городу. Если москвичам удастся раскрутить проект, то супермаркет будет называться "Ашан-сити" или "АТАК" (название магазинов-дискаунтеров, также принадлежащих "Ашану", - "БК"), и его площадь увеличится в два раза.Однако и без "Триумфа" "Ашан" в Омске должен появиться: в конце весны он открывается в ТК "Мега". В данный момент уже идет набор персонала. Будет ли еще один "Ашан" в "Триумфе", покажет время.Не считая "Ашана", г-н Фокин не называл больше никаких других федеральных компаний, с которыми "Триумф" ведет переговоры о сотрудничестве. Однако г-н Фокин не исключает, что москвичи отныне будут играть большую роль в жизни комплекса. Правда, предположение о продаже "Триумфа" он не подтвердил. Никто из участников омского рынка недвижимости, с которыми беседовал "БК", не оказался в курсе ситуации. Но сомнение, что новый супермаркет принадлежит москвичам, высказали: не то время и не то место. "Скорее всего они сами открывают супермаркет", - предположил один из представителей омской бизнес-среды, пожелавший остаться неизвестным.
Приложение 2
Голушко не будет работать под брендом "Пятерочка"
Сделка по покупке сети "Пятерочка" проходит не так быстро, как изначально рассчитывал покупатель - холдинговая компания "Акция". Однако даже если сделка не состоится, "Акция" все равно будет в самое ближайшее время заниматься продуктовым ритейлом.
[ Cкачайте файл, чтобы посмотреть картинку ]
Напомним: как писал "БК" (№3 от 04.02.2009), холдинговая компания "Акция" (основные акционеры - Андрей Голушко и Сергей Калинин), по неофициальным данным, готова взять на себя часть долгов сети "Пятерочка" взамен ее активов. По информации экспертов, держатель франшизы - компания "Продторг" накопила долг в 1,5 млрд. рублей. Однако, по словам гендиректора Управляющей компании "Акция" Спартака Заболотского, сейчас уже понятно, что сделка не будет такой глобальной, как казалось ранее. Часть оборудования сети находится в лизинге, некоторые площади уже сданы в аренду. Кстати, с частью арендодателей "Акция" уже расплатилась по долгам "Продторга" для того, чтобы открыть на этих площадях магазины.
По словам г-на Заболотского, продуктовая сеть "Акции" будет открыта не раньше, чем компания сможет одновременно запустить в Омске сразу 20 магазинов. Однако это должно произойти не позднее 1 мая текущего года. Как сообщил "БК" гендиректор УК "Акция", в любом случае, вне зависимости от масштабов сделки с "Продторгом", они не собираются работать под федеральным брендом "Пятерочка".
Список литературы
Крейдлин Г. Е., Шмелев А. Д. Математика помогает лингвистике: Кн. для учащихся. – М.: Просвещение, 1994.
Федотова Л.Н. "Анализ содержания - социологический метод изучения средств массовой коммуникации". - М.: Институт социологии РАН, 2001. - 202 с.
Ресурсы Интернета.
13PAGE 15
13PAGE 142115
Заголовок 115