Industry

31 views

Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования

Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования
of 43
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Share
Transcript
   По этические тексты инте ресны не только специа листам по по этике; это — один из важ- нейших источников ля изу чения языка в це лом, как в син хронии, так и в диа хронической рет ро- спективе и перспективе. Но, хотя особая роль  этого типа текстов для об щей теории языка никогда не оспа рива лась (а в русской традиции особое вни мание к ним поддер живается не толь- ко выдающи мися ху до жественны ми достоинст- ва ми русской по эзии и её особой значи мостью в русской культу  ре в це лом, но и авто ритетом  Р. О. Якоб сона, Ю. М. Лот мана, В. Н. Топо рова,  М. Л. Гаспа рова и дру гих фи ло логов), на практи- ке да леко не всегда исследовате ли языка исполь-  зова ли этот мате риал в том объе ме и с такой полнотой, как он того заслу  живает. Отчасти  это объ ясняется тру доемкостью об  работки по этических текстов и их не равно мерной дос- тупностью. Создате ли Национального корпу са  русского языка с са мого нача ла пони ма ли важ- Е. А. Гришина,К. М. Корчагин,В. А. Плунгян, Д. В. Сичинава  Поэтическийкорпус в рамках Национальногокорпуса русского языка:общая структураи перспективыиспользования оэтические тексты инте- ресны не только специа ли- стам по поэтике; это — один из важнейших источников  для изу чения языка в це лом, как в синхронии, так и в диахронической ретроспективе и перспек- тиве. Но, хотя особая роль этого типа текстов для общей теории язы- ка никогда не оспарива лась (а в русской тра диции особое внимание к ним под держивается не только вы дающимися ху  дожественными  достоинствами русской поэзии и её особой значимостью в русской культу ре в це лом, но и авторитетом Р. О. Якобсона, Ю. М. Лотмана, В. Н. Топорова, М. Л. Гаспарова и дру гих фи ло логов), на практике  да леко не всегда иссле довате ли языка использова ли этот материал в том объеме и с такой полнотой, как он того заслу живает. Отчасти это объ ясняется тру  доемкостью обработки поэтических текстов  72  Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава и их неравномерной доступностью. Соз дате ли Национального корпу са рус ского языка с самого нача ла понима ли важность при- сутствия в нем представительного электронного массива поэтиче- ских текстов, однако особая сложность разметки этих текстов бы ла причиной того, что работа над поэтическим корпу сом нача лась не сразу, а лишь после того, как основной корпус (прозаические ху-  дожественные и неху  дожественные тексты), достигнув бо лее ста мил лионов слово употреб лений, уже прочно «сто ял на ногах» и ос- новные принципы метатекстовой и морфо логической разметки ста ли бо лее или менее ясны. Сложность соз дания корпу са поэтических текстов бы ла также связана с тем, что с самого нача ла его составите ли стави ли две за-  дачи, ни одной из которых не хоте лось жертвовать в ущерб дру гой: этот корпус должен был обеспечивать как потребности иссле дова- те лей  русского языка , так и потребности иссле довате лей  русской по эзии , в том чис ле стихове дов, заинтересованных в изу чении фор- мальных особенностей русского стиха — метрики, ритмики, ката-  лектики, рифмы, строфики и т. п. Последнее по су ществу означа ло соз дание некоторого предварительного варианта универсально- го электронного метрического справочника по всей русской по- эзии — ресурса, о соз дании которого мечта ло не одно поко ление стихове дов и отсутствие которого по-прежнему су щественно тормо- зит теоретические иссле дования русского стиха. (Добавим в скоб- ках, что и в мировой практике, насколько нам известно, доступных ана логов таких электронных ресурсов пока не су ществу ет.) Конеч- но, данная за дача несколько выхо ди ла за рамки базовой корпусной  деятельности, так как корпус пре достав ляет в основном средства  для быстрого поиска примеров, а в слу чае поэтического корпу са речь шла о средствах для деталь ной формальной клас сификации самих текстов, т. е. стихотворений, — но тем привлекательней эта за дача нам каза лась, когда мы наконец присту пи ли к ее решению. Кроме того, су щественного противоречия с идео логией Националь- ного корпу са русского языка здесь не бы ло — ведь и в основном кор- пу се для близких це лей су ществу ет метатекстовая разметка, пусть и менее детальная, чем метрическая разметка поэтических текстов, принятая нами. В любом слу чае, русские поэтические тексты бы ло бы неце лесообразно включать в Национальный корпус русского   Поэтический корпус 73  языка «на общих основани ях», т. е. с точно той же системой размет- ки, которая бы ла разработана для прозаических текстов (ху  дожест- венных и неху  дожественных). Поэтому первым шагом в соз дании поэтического корпу са ста ла разработка детальной системы размет- ки по формальным параметрам стиха — эта работа в каком-то смыс-  ле про должается и в настоящее время, так как включение всё новых поэтических текстов неизбежно застав ляет вносить в действующую разметку опре де ленные коррективы. Интенсивная работа над поэтическим корпу сом (да лее просто Корпус) в рамках Национального корпу са русского языка нача лась в февра ле 2006 г. В разработке общей концепции Корпу са и размет- ке поэтических текстов активно участвова ли все авторы настоящей статьи; в обсу ж дении специальных терминов, описывающих от- раженные в Корпу се основные параметры русского стиха, прини- ма ли участие также Н. В. Перцов и Т. В. Ску  лачёва. Специальное программное обеспечение для проекта, позво лившее автоматизи- ровать су щественную часть разметки поэтических текстов, бы ло разработано А. Е. По л яковым и Т. А. Архангельским. Значительная работа по формированию и разметке текстов Корпу са на разных этапах бы ла выполнена также Т. А. Архангельским, С. Ю. Бе лозёро- вой, Н. К. Богомоловой, Д. А. Ивановой, Б. В. Ореховым, М. C. Ра- чинской, Д. А. Эршлером и ря дом дру гих лиц. Предварительную подготовку электронных версий части текстов (сканирование и вы- читку) обеспечи ли А. С. Ку  лёва и Е. Н. Лов ля. Общее ру ково дство проектом осу ществ ляет В. А. Плунгян 1 .Корпус был открыт для свободного досту па на сайте Националь- ного корпу са русского языка ( http://www.ruscorpora.ru/search-poetic. html ) в декабре 2006 г. и в настоящее время нахо дится в ста дии активного пополнения и усовершенствования. На момент напи- сания данной статьи (сере дина 2008 г.) Корпус включает в себя поэтические произве дения 48 авторов, соз данных в период от сере- 1 Работа по созданию поэтического корпуса финансировалась в рамках проекта «Создание новых подкорпусов Национального корпуса русского языка»(руководитель В.А. Плунгян), входящего в программу ОИФН РАН «Русский язык,  литература и фольклор в информационном обществе», а также гранта РГНФ08-04-12127в «Создание информационной системы ‘Корпус русской поэзии’» (руководитель Н.В. Перцов).  74  Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава  дины xviii до нача ла xx века (общим объемом ок. 2 млн слово упот- реб лений); в ближайшее время планиру ется расширить Корпус за счет поэтических текстов сере дины xx века и основного русского песенного фон да, а в после дующем присту пить к обработке совре- менных русских поэтических текстов (соз данных как в России, так и за ее пре де лами). Ниже в раз де ле 1 бу  дет подробно описана принятая в настоящее время в Корпу се система «специальной» разметки (т. е. разметки,  учитывающей параметры стиха). По всем этим параметрам в кор- пу се возможен поиск (например, можно найти все строки трехстоп- ного дакти ля с женской клау зу  лой, все стихотворения, написанные  дакти лем с парной рифмовкой, все сонеты, написанные меж ду  1820   и 1880 гг., и т. д., и т. п.). Не сле ду ет забывать, что наря ду со «специ- альной» разметкой в Корпу се, естественно, функциониру ет и основ- ная, в це лом совпа дающая с разметкой прозаических текстов (тако- вы ряд базовых параметров метаразметки, включающих све дения об авторе и дате соз дания текста, а также морфо логическая 2 и се-мантическая разметка). С принципами основной разметки можно ознакомиться подробнее на сайте Национального корпу са, а также в сборнике статей [Плунгян (ред.) 2005 ]. В раз де ле 2 бу  дут рассмот- рены некоторые возможные способы использования поэтического корпу са для решения лингвистических за дач, в раз де ле 3 — приме-ры решения стиховедческих за дач с помощью Корпу са. 2 Тексты поэтического корпуса получали морфологическую разметку в ав-томатическом режиме, поэтому в настоящее время грамматическая омони- мия в этих текстах не снята. Отметим, что коррекция грамматической раз-метки поэтических текстов является нетривиальной задачей и требует от- дельных усилий, так как эти тексты богаты грамматическими архаизмами,грамматическими инновациями и иного рода нестандартными формами. Вчастности, по-ви димому, приходится признать предельно сложной (есливообще доступной) для поэтического текста возможность автоматическогоснятия грамматической омонимии и соответствующего построения статис- тических моделей (что, в общем, не составляет принципиальной проблемы  для подавляющего большинства прозаических текстов). Впрочем, некото- рые — хотя и ограниченные — возможности автоматизации процесса снятия морфологической неоднозначности пре доставляет акцентологическая разметка Корпуса, см. об этом статью Е.А.Гришиной об акцентологическом корпусе в настоящем сборнике.  1 . Принципы специ альной разметки поэтических текстов Охарактеризу ем основные параметры специальной разметки по- этических текстов, которые дополняют основную разметку тек- ста — преж де всего, метаразметку. Напомним, что метаразметка (сокращение от «метатекстовая разметка»), как видно уже из её названия, относится ко все му тексту  , и при за дании поиска по ней ищутся це лые тексты, из которых формиру ется подкорпус. Соответ- ственно, большинство разбираемых ниже помет приписывается поэтическому тексту в це лом. По хо ду из ложения приво дится так- же ряд помет, приписываемых тем или иным фраг ментам текста (строкам, словам и т. п.). 1.1. Автор и сопутствующие параметры  Указание автора текста в поэтическом корпу се об ла дает ря дом особенностей по сравнению с основным корпу сом. Преж де всего это связано с тра дицией обозначения автора стихотворного про- изве дения в слу чае сомнительной атрибу ции. (Такая проблема, без ус ловно, стоит и для некоторых прозаических текстов, однако по ря ду причин — возможно, в си лу относительно меньшей полно- ты представ ленности прозы xviii — xix вв. в Национальном корпу- се — практически незаметна вне поэтического корпу са.) В принци- пе, логически возможны несколько вариантов, каж дый из которых реа лизован в Корпу се: • Произве дения с со мнительным авторством имеют помету  dubium (это значительная часть текстов, пуб ликуемых в соб- рании М. Лермонтова, Ап. Григорьева и др. авторов, особенно раннего перио да). • Произве дения с кол лективным авторством, когда лишь часть соавторов известна по именам, имеют обобщенную помету, обо- значающую членов этого кол лектива (напр., «Пушкин А. С. | ли- цеисты» для стихотворения «Га уншильд и Энгельгард...»). Этот слу чай весьма ре док. • В слу чае, когда оригинальное произве дение народное, автор счи- тается обоб щенным (это характерно для некоторых песенных текстов, т. к. собственно фольк лорный материал пока не вклю- чается в Корпус систематически). • В слу чае, когда автор скрывается за инициа ла ми и расшифров-
Advertisement
Related Documents
View more
Related Search
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks