Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл




Скачать 233.51 Kb.
НазваниеН. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл
страница1/3
Дата конвертации24.04.2013
Размер233.51 Kb.
ТипДокументы
  1   2   3
Поисковые системы Интернета как лингвистический источник (на примере решения некоторых теоретических и прикладных вопросов русского словообразования ) // Новые явления в славянском словообразовании. Система и функционирование. Доклады XI Международной научной конференции Комиссии по славянскому словообразованию при Международном комитете славистов. /Под ред. проф. Е. В. Петрухиной. - Москва. Изд. Московского университета, 2010. - С.197-212.

Поисковые системы Интернета как лингвистический источник (на примере решения некоторых теоретических и прикладных вопросов русского словообразования)
Н. Д. Голев
Целью настоящей статьи является представление возможностей нового лингвистического источника – поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику слов, которая сопровождает результаты поиска. Например, сделав в «Яндексе» запрос на слово статья, получаем статистику – 409 млн. страниц, на которых в Интернете зафиксировано это слово, представление – 298 млн., лингвистический – 7 млн., источник – 189 млн. (Поисковая система «Яндекс», данные на 21 марта 2009). В статье будут проиллюстрированы возможности названного источника на примере решения лингвистических задач разного типа – поисковых, лексикографических, теоретических – преимущественно в сфере русского словообразования с привлечением данных из других сфер. Этим мы хотели бы подчеркнуть универсальность предлагаемого источника.

Далее назовем и охарактеризуем значимые лингвоисточниковедческие особенности данных Интернета и их исследовательские возможности.
1

Важнейшей характеристикой представляемого источника является его «квантитативная мощность», которая отчетливо видна на фоне известных частотных словарей. К примеру, для слов, охарактеризованных в словаре Л. Н. Засориной [Частотный словарь 1977: 837] частотностью 38 (на 1 млн. выборки), «Яндекс» дает такие результаты: девица – 5 млн., дневник – 148 млн., дружественный – 7 млн., заведующий – 5 млн., исследователь – 16 млн., истинный – 27 млн., картинка – 302 млн., кланяться – 984 тыс., когда-нибудь – 13 млн., коса – 8 млн., кошка – 180 млн., кризис – 33 млн., крокодил – 7 млн., кусочек – 12 млн., лунный – 12 млн., механизатор – 590 тыс., милиция – 37 млн., молния – 10 млн., мышь – 38 млн., намерение – 21 млн., напечатать – 81 млн., натура – 11 млн., окончить – 13 млн., освещать – 13 млн., отчет – 58 млн., поворачиваться – 20 млн., повышенный – 77 млн., политик – 213 млн. страниц. Наименьшее соотношение в данной группе слов, обнаруживаемое в частотностях слова механизатор, – 590 000 : 38, то есть в Интернете данное слово представлено в 16 тыс. раз чаще, наибольшее – в частотностях слова картинка – в Интернете это слово встречается примерно в 8 млн. раз чаще (302 000 000 : 38). Сказанное означает, что «квантитативная мощность» Интернета превосходит «мощность» частотного словаря на несколько порядков. Это важно подчеркнуть хотя бы для того, чтобы отчасти снять вопрос о возможных издержках стихийной статистики Интернета. На наш взгляд, ее неизбежные помехи, которые достаточно очевидны во многих случаях, чаще всего (разумеется, не всегда) перекрываются огромными количественными показателями, позволяющими выявлять и описывать объективные тенденции в языке и речи.
2

Сугубо количественная характеристика, которую дает слову «квантитативный коэффициент», извлеченный из поисковых систем Интернета, является одновременно информативной. Здесь возникает проблема квалификации содержания данных, эксплицируемая следующими вопросами: какое лингвистическое содержание слова стоит за количеством его фиксаций в поисковых системах Интернета, какие элементы (свойства, отношения) русского языка или языкового сознания оно характеризует, каким образом следует содержательно интерпретировать тот факт, что, скажем, предлог в более частотен, чем предлог на, глагол входить, чем выходить, сделать, чем делать, а имя Александр частотнее, чем Владимир, каково соотношение индивидуального и типового в этих отношениях?

Думается, что количественный индекс образуется вследствие пересечения действий многих факторов, определяющих бытие естественных языковых знаков. Для представления этих факторов, воспользуемся известной семиотической оппозицией синтактики, семантики и прагматики. Во-первых, это фактор синтактики, выдвигающий по частотности на первый план всевозможные служебные слова и связки, употребление которых носит универсальный характер, и внутренней, системной, «коммуникативистики», объясняющей, например, высокую частотность местоимений, частиц, модальных слов; во-вторых, фактор внутриязыковой семантики, в частности, определяющей зависимость частотности слов от простоты / сложности их семантики (слова-примитивы с одной коммуникативно значимой семой естественным образом частотнее более сложных, часто производных от них слов); в-третьих, фактор денотативной семантики, фиксирующей значимость денотатов лексем в реальной действительности и тем самым коммуникативную потребность в данных лексемах; в-четвертых, фактор прагматики: в частотности слова отражается его культурно-психологическая значимость (например, «модность» лексем на протяжении определенного времени, их значимость в культурной жизни народа); в пятых, коммуникативно-синергетический фактор, отражающий неизбежную конкуренцию лексем, каждая из которых стремится к бесконечной функционально-семантической валентности, в результате чего одни лексемы утрачивают свой потенциал, вытесняются в области узкого употребления, другие, напротив, усиливают его; параллельно этим процессам происходит дифференциация лексем по смыслу и сферам функционирования и стилистической окраске. Но в целом надо признать, что лингвистам еще нужно научиться «читать» частотные характеристики слов и словников, вырабатывать язык описания и интерпретации количественных данных лексем и их соотношений для их перевода в характеристики качественные. Несомненно, что важнейшим способом такого прочтения является сравнение лексем, образующих списки (парадигмы), формируемые по линии убывания / нарастания их частотности, и сравнение самих списков (парадигм) в плане их коррелятивности по частотности с дальнейшей качественной интерпретацией обнаруженных количественных соотношений.
3

Весьма значимой характеристикой представляемого источника, отличающего его от известных частотных словарей, является полнота выборки – одна из наиболее важных предпосылок качества квантитативных характеристик слова. Если, например, частотный словарь под редакцией Л. Н. Засориной строится на выборке из четырех типов текстов: газетно-журнальных, драматургических, научных и публицистических (объединенных в одну группу) и художественных, – то функциональные и семантические границы статистики Интернета фактически открыты. Проиллюстрируем сказанное примерами из лексики, не помещаемой в традиционные филологические словари. Критерием их лексикографической незафиксированности для нас в приводимых далее примерах служит «Сводный словарь современной русской лексики», обобщивший, как сказано в аннотации к нему, сведения 14 наиболее популярных словарей: толковых, энциклопедических, орфографических [Сводный словарь 1990–1991].

  • В Интернете легко обнаруживаются все типы имен собственных и их производных, обычно не отмечаемых в популярных лингвистических словарях. Далее приведем список наиболее частотных русских имен в порядке убывания (данные «Яндекса» на 15 декабря 2004 г.).



Имя


Количество страниц

Количество сайтов

Количество слов

Сергей


7 252 609

19 723

16 697 775

Александр

6 987 114

20 860

16 695 774

Андрей

5 386 295

17 095

12 684 479

Дмитрий

4 419 535

14 027

9 362 431

Алексей

4 410 414

15 295

8 812 361

Михаил

3 818 039

13 445

7 351 635

Николай

2 898 521

11 953

6 517 950
  1   2   3

Похожие:

Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconЦелью настоящей статьи является определить особенности резервных возможностей организма как средство нормализации уровня агрессивности личности

Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconЗадача оценки эффективности европейских систем здравоохранения
Данная задача построена на основе реальных данных, но этапы решения задачи немного упрощены, так как целью данного примера является...
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconК вопросу об абандоне в морском страховании
Специфика морских предприятий и длительное историческое развитие морского страхования повлияло на выделение ряда его особенных институтов....
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconИсследование эффективности поиска в Интернете сведений по тематике : методы представления информации изображений
Целью данной работы является оценка эффективности поисковых стратегий в информационно-поисковых системах (ипс)
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconАктуализация статистических данных и интерактивное построение тематических карт
Тематическое картографирование является одной из функций геоинформационных систем (гис), которые в настоящее время широко применяются...
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconКсенон. Все за и против
К проще говоря, цветовая температура является единицей яркости источника света. Чем ближе цветовая температура к 5000, тем ближе...
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconБез егора будет горе
Да тут еще, честно говоря, и не до этого скайпа им: Егор ведь один, а их, бабок, – двое… Как поделить его, Егора, который еще дед...
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconСледующие вопросы касаются последних семи дней
Вашу работоспособность и повседневную деятельность. Под проблемами со здоровьем мы имеем в виду любые физические или эмоциональные...
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconОбзор практики рассмотрения дел об административных правонарушениях за 2010 год
Анализ статистических данных по административным правонарушениям показывает их неуклонный рост у мировых судей в течение ряда последних...
Н. Д. Голев Целью настоящей статьи является представление возможностей нового лингвистического источника поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику сл iconКадровая дилемма в конкурентной разведке: «маркетологи» и «безопасники»
Целью настоящей статьи является рассмотрение аспектов применения в современной отечественной конкурентной разведке специалистов,...
Разместите кнопку на своём сайте:
kk.convdocs.org



База данных защищена авторским правом ©kk.convdocs.org 2012-2017
обратиться к администрации
kk.convdocs.org
Главная страница