Математические методы в исторических исследованиях: Учебно-методическое пособие

Голосов: 1

В учебно-методическом пособии рассматриваются вопросы использования в исторических исследованиях методов математической статистики, а также применения средств математического моделирования, для реконструкции исторических событий и процессов. Использование математических методов в исторических исследованиях иллюстрируется конкретными примерами анализа источниковых комплексов, осуществленных при изучении ключевых проблем российской истории. Пособие содержит сведения о структуре курса, список контрольных вопросов и рекомендуемую для самостоятельного изучения литературу. Электронное учебно-методическое пособие предназначено для студентов ННГУ, обучающихся по направлению подготовки 030600.62 "История", изучающих курс "Математические методы в исторических исследованиях".

Приведенный ниже текст получен путем автоматического извлечения из оригинального PDF-документа и предназначен для предварительного просмотра.
Изображения (картинки, формулы, графики) отсутствуют.
    использовать в исследовании аппарат математической статистики, а именно, понятие
среднего значения, дисперсии, среднего квадратического отклонения, доверительного
интервала. В связи с разрозненностью имеющихся сведений из генеральной совокупности
(все сохранившихся и несохранившихся данных о хлебных ценах за 1708 год) была
произведена выборка, отражающая совокупность сохранившихся сведений о хлебных
ценах. На основании данной выборки была рассчитана средняя цена на хлеб, а также
показатель отклонения от среднего значения и был построен доверительный интервал для
среднего значения генеральной совокупности с вероятностью 0,95 по следующим данным:

                   Цена                           Цена                        Цена
     Уезд                           Уезд                        Уезд
                  (в коп.)                       (в коп.)                    (в коп.)
     1.              40              2.             43          3.              40
     4.              80              5.             74          6.              40
     7.              55              8.             42          9.              42
     10.             50              11.            40          12.             43
     13.             43              14.            35          15.             40
     16.             30              17.            36          18.             50
     19.             30              20.            29          21.             45
     22.             40              23.            42          24.             40
     25.             36              26.            50          27.             30
     28.             24              29.            25          30.             40
     31.             32              32.            30          33.             20
     34.             30              35.            25          36.             32



Среднее значение признака, которым является цена на хлеб в 1708 году, был найден по

формуле       ∑    , где     - объем выборки.

Из имеющихся данных следует, что                  37,1коп
Среднее квадратическое (стандартное) отклонение было найдено по формуле




Таким образом, согласно данным выборки средняя цена на хлеб в России в 1708 году
составляла 37 копеек со стандартным отклонением 16 копеек. Рассчитав коэффициент

вариации                                         , стало ясно, что выборка является нео-
днородной, вследствие чего возникла необходимость проведения дополнительного анализа
цен на хлеб по районам. Нужно было выяснить, насколько средние цены на хлеб,
вычисленные по данным выборки, могли отличаться от действительных средних хлебных
цен, которые были бы получены, если бы в распоряжении оказались данные за этот год по
всем уездам России. Соответственно была определена средняя и предельная ошибки
выборки, и построен доверительный интервал. Средняя ошибка для повторной выборки
была вычислена по формуле




                                            11


         , где                  (исправленное среднее квадратическое отклонение). При

подставлении данных, получаем
      Предельная ошибка вычисляется по формуле Δ t            , где значение t зависит от
значения вероятности, с которым строится доверительный интервал. При p = 0,95 имеем t =
1,96. Таким образом, получаем Δ = 1,96 2,37 = 5,35 коп.
      Далее были проведены вычисления по формуле доверительного интервала: хв — Δ < хген
< хв + Δ. Было выяснено с вероятностью 95%, что средняя цена на хлеб в 1708 году по
России могла изменяться в пределах от 31,75 копеек до 42,45 копеек.
      Таким образом, при помощи аппарата математической статистики, исследователям уда-
лось вычислить средние цены по 10 районам России, а также среднероссийские цены за
каждый год XVIII века.




                  1.3. Метод кластерного анализа

Для типизации в исторических исследованиях наиболее эффективны методы многомерной
типологии. Наиболее широко распространен вид типизации по географическому
районированию, благодаря которому можно выделить сплошной территориальный
комплекс, что важно для раскрытия тех или иных особенностей исторического развития.
С другой стороны, территориальное единство изучаемых объектов само по себе не
обеспечивает их содержательной однородности. Поэтому, в дополнение к
географическому районированию, историки используют социальную типизацию
изучаемых объектов, в основе которой лежит не географическое, а социальное
пространство. Такой подход уже носит характер многомерной типологии. Наиболее
известным методом многомерной типологии является кластерный анализ. Он позволяет
выделить кластеры (от англ. Cluster — скопление), группы объектов со сходными
свойствами, расположенные в пространстве. Близость этих объектов друг к другу
отражает степень их сходства.

Рассмотрим процесс выделения кластеров на примере агломеративно-иерархического
метода. Итак, пусть все m признаков будут измерены в количественной шкале. В таком
случае каждый n объект будет представлен точкой в m-мерном пространстве признаков. О
сходстве объектов можно судить по расстоянию между соответствующими точками.
Соответственно, чем ближе объекты находятся друг к другу, тем они более схожи.

   Для определения близости пары точек (объектов i и j) в многомерном пространстве
используется евклидово расстояние, равное корню квадратному из суммы квадратов
разностей значений одноименных показателей, взятых для данной пары объектов:




                                           12


                  m
                                                 2
   d ij       x             ik    x jk          (i, j = 1,2,...,n),
                  k 1




   где      dij       – евклидово расстояние между i-м и j-м объектами, x i k – значение k-го признака
для i-го объекта.

Расстояние между объектами зависит от «масштаба» признаков, который обычно
нормализуют, т.е. все признаки приводят к стандартному виду со средним значением,
равным нулю, и стандартным отклонением, равным единице.
После нормализации объекты сохраняют свое относительное положение, но «масштаб»
измерения признаков уже будет единым.

   Обычно близость двух кластеров определяется как среднее значение расстояния между
всеми парами объектов, где один объект пары принадлежит к одному кластеру, а другой –
к другому:

                                      d i2
     2
   D pq          n n ,
                  i X       j X q
                                         j

                         p             p     q




   где D pq – мера близости между p-м и q-м кластерами;
         2
                                                                                    Xp   – p-й кластер;   Xq   – q-й
кластер;          n p , nq            – число объектов в p-м и q-м кластерах, соответственно.

   На первом шаге процедуры агломеративно-иерархического метода кластерного
анализа по начальной матрице расстояний между объектами определяется минимальное
расстояние. Затем выделяют наиболее близкие объекты, находящиеся друг от друга на
этом расстоянии, и объединяют в один кластер. В матрице вычеркивают строку и столбец,
соответствующие первому из этих объектов, а расстояния от нового кластера до всех
остальных кластеров вычисляют по вышеприведенной формуле. Эти значения вписывают
в строку и столбец матрицы расстояний, соответствующие второму объекту из первого
кластера.

   Второй шаг процедуры предусматривает формирование нового кластера, на основе
нового определения минимального расстояния. Этот кластер строят объединением двух
объектов, или одного объекта с кластером, построенным на первом шаге. В матрице
расстояний вычеркиваются одна строка и один столбец, а одна строка и один столбец
пересчитываются и т.д. В конце этой процедуры получится один кластер, объединяющий
все n объектов.

С помощью методов кластерного анализа была проведена аграрная типология губерний
Европейской России на рубеже XIX— XX вв.4 Анализ проводился следующим образом.
Для начала были отобраны 19 показателей, характеризующих земельные отношения
(размеры крестьянских наделов, удельный вес дворянского землевладения, продажа
частновладельческих земель, цена на землю, размеры крестьянской аренды и арендная

      4
     Ковальченко И. Д., Бородкин Л. И. Аграрная типология губерний Европейской России на рубеже
XIX—XX веков: (Опыт многомерного количественного анализа) // История СССР. 1979. № 1. С. 59—95.
                                                                           13


плата), состояние сельскохозяйственного производства (посевы, сборы и урожайность
хлебов, количество рабочего и продуктивного скота, цены на сельскохозяйственную
продукцию), глубину и особенности буржуазной аграрной эволюции (применение
наемного труда, зарплата сельскохозяйственных рабочих, разложение крестьян). В
результате математической обработки данных было выделено 15 взаимосвязанных между
собой кластеров с указанием на графике «расстояния», показывающего «близость»
губерний, входящих в тот или иной кластер, а, кроме того и самих кластеров. Благодаря
такой визуальной подсказке, например, выяснилось, что наиболее сходными по
совокупности 19 признаков были губернии VII (Воронежская и Саратовская) и XI
(Киевская и Подольская) кластеров. Наименее сходными между собой и в то же время
самыми непохожими на все другие были губернии XV кластера (Московская и
Петербургская). При этом, однако, кластеры не образовали существенно отличных типов
губерний, так как различия между многими из этих кластеров были невелики. Чтобы
выделить типы необходимо объединить полученные мини-кластеры в макро-кластеры,
после чего уже можно выделить определенные типы. В рассматриваемом примере на
основе «расстояний» были выделены следующие типы губерний: I —V кластеры
образовали нечерноземный тип аграрного развития, VI—XI кластеры составили
среднечерноземный тип, XIII и XIV кластеры обозначили южностепной тип, XV кластер
—прибалтийский тип, а XII мини-кластер представлен губерниями столичного типа.

Пример таблицы по кластерам с указанием расстояния, показывающей структуру
промышленной типологии губерний Европейской России в начале XX в.:



               Кластеры                       «Расстояние»

                   I       0,13 0,16

                   II      0,15        0,21

                  III      0,18               0,23

                  IV       0,19                      0,30

                   V       0,27                             0,32

                  VI       0,28                                    0,55

                 VI I      0,50                                           0,57

                 VI I I    0,46




                                         14


В состав указанных в таблице кластеров входят следующие губернии:

        I                  II             III                 IV

Уфимская         Волынская        Киевская          Орловская

Пермская         Μинская          Харьковская       Черниговская

Тульская         Витебская        Рязанская         Тамбовская

Астраханская     Ковенская        Новгородская      Смоленская
Виленская
                 Гродненская      Калужская         Симбирская

                 Могилевская      Вологодская       Казанская

                                                    Вятская

V                VI               VII               VIII

Псковская        Донская          Саратовская       Московская
                                  Оренбургская
Олонецкая        Херсонская       Полтавская        Петербургская

Пензенская       Таврическая      Бессарабская      Лифляндская
Нижегородская
                 Курляндская                        Екатерино-

                 Самарская                          славская

                 Курская                            Костромская

                 Подольская                         Тверская

                                                    Ярославская

                                                    Владимирская

                                                    Эстляндская



Наиболее характерные различия между типами устанавливаются путем сопоставления
средних значений рассматриваемых признаков в каждом из типов.

Кластерный анализ – это весьма эффективный метод многомерной типологии, хотя и не
лишенный недостатков. К таковым относится его ограниченность по части выделения

                                        15


типов. Кроме того, хотя кластерный анализ и способен показать некое «расстояние»
между объектами в мини-кластере и между кластерами, однако эти «расстояния» не
способны измерять непосредственно меру сходства и различий между объектами.

   Тем не менее, этот метод находит применение и в археологии, так как можно изучать
кластерную структуру множества памятников по наличию и частоте встречаемости
артефактов. В качестве примера применения метода кластерного анализа в археологии
можно привести типологию поселений Алтая VI–II вв. до н.э.5 Исследователями был
проведен анализ карты расположения известных археологических памятников, на
основании которого был сделан вывод о том, что система расположения древних поселков
находилась в прямой зависимости от природно-географических условий данной
местности, а именно: стационарные поселки древние жители Алтая предпочитали
возводить на более высоких террасах и мысах, чем стоянки, а поселения располагались
кустами по 8-16 пунктов на крупных реках чаще, чем на их притоках. Для получения
скрытой и неярко выраженной информации исследователи выделили 12 видов
орнаментов, присутствовавших на фрагментах керамики, обнаруженной на 39
исследованных поселениях. После чего был осуществлен подсчет каждого вида в
процентах по каждому поселению. Полученная матрица данных была исследована
методом кластерного анализа. В итоге была получена дендрограмма (иерархическая
структура), в которой группы объектов могут рассматриваться либо как культурные, либо
как территориальные, либо как хронологические.
   Однако, кластеры, найденные исследователем, после повторного сбора информации и
применения кластерного анализа могут «рассыпаться» из-за случайности выявленной
кластерной структуры. Это происходит в том случае, если реальная кластерная структура
отсутствует вообще, т. е. исследуемая совокупность является однородной, или когда
задано не соответствующее реальности число классов.
Чтобы проверить достоверность наличия кластерной структуры, необходимо привлечение
дополнительных фактов и исследование классификации с использованием переменных,
как участвующих, так и не участвующих в кластеризации.

                  1.4. Корреляционный, регрессионный и факторный анализ

Первооткрывателем корреляционного метода является французский естествоиспытатель и
натуралист Жорж Кювье (George Cuvier, 1769–1832). Закон Корреляции был выведен им
средствами сравнительной анатомии. Кювье понял, что органы одного организма
соответствуют друг другу и его общим условиям существования. Так, травоядные имеют
зубы, приспособленные для пережевывания растений, а на ногах у них копыта для
быстрого бега от хищников. У хищников же выдающиеся клыки, а на ногах когти, и т. д.
По его утверждению, ему было под силу восстановить всё животное по одной его части.

Таким образом, корреляция – показатель, отражающий взаимную зависимость двух или
более величин. При этом величины должны выбираются случайно, а зависимость может
определяться либо совпадением, либо отношениями причинности. Необходимо выяснить,
не является ли корреляция ложной, то есть основанной на совпадении. Для этого вводится

     5
      Абдулганеев М.Г., Владимиров В.Н. Типология поселений Алтая VI–II вв. до н.э.
Барнаул, 1997. 148 с.
                                         16


еще одна новая случайная величина. Только при изменении значения одной величины,
которое влечет за собой неминуемое систематическое изменение значения другой
величины, корреляция считается установленной. Такое изменение может быть выражено в
виде коэффициента корреляции, или корреляционного отношения. Коэффициент
корреляции показывает, насколько тесно две переменных связаны между собой.

Статистической характеристикой при проверке значимости корреляции служит
отношение самого коэффициента к его утроенной ошибке, вычисляемое по формуле:


t                 ,

где n – объем выборки. В этой величине известны вероятности всех ее значений. Чем
больше значение t, тем меньше его вероятность, т.е. вероятность того, что данная или
большая величина корреляции может быть получена в выборке из генеральной
совокупности, в которой корреляция равна нулю. В том случае, если эта вероятность
окажется меньше выбранного уровня значимости, гипотеза о некоррелированности
признаков отклоняется, а связь признается значимой.

Для визуального выявления наличия взаимосвязи между количественными переменными
полезно строить диаграммы рассеяния (scatterplot). В этом графике по горизонтальной оси
(X) откладывается одна переменная, по вертикальной (Y) другая. При этом каждому
объекту на диаграмме соответствует точка, координаты которой равняются значениям
пары выбранных для анализа переменных.




Различают два вида зависимостей, которые присущи объективным явлениям природы и
общества.
Функциональная зависимость – это взаимосвязь между признаками, в которой каждому
значению одного признака соответствует единственное значение другого признака.
Простейшей ее формой является линейная зависимость, характеризующаяся уравнением:
y = ax + b .




                                          17


К другими формами функциональной зависимости, относятся: парабола ( y = ax2 + bx + c
), гипербола (ax by k+= ), логарифмическая функция ( y = a lg x ), экспонента ( y = keax , k >
0, a > 0 ).

Функциональная зависимость предполагает изолированность взаимосвязанных признаков
от воздействия других факторов. Но такая ситуация в явлениях общественной жизни
практически не встречается. В случае, если на связь между признаками влияет множество
других факторов, и она проявляется лишь в тенденции, «в среднем», то такая зависимость
носит название статистической, или корреляционной.
Для того, чтобы определить тесноту связи между двумя признаками, следует высчитать
так называемый парный линейный коэффициент корреляции, рассчитывающийся по
формуле:




 где xi , yi - значения признаков x и y для i-го объекта; n - число объектов; x, y - средние
арифметические значения признаков x и y. Линейный коэффициент корреляции может
принимать значения от -1 до +1, причем чем ближе величина коэффициента корреляции к
предельным значениям, тем теснее будет взаимосвязь между признаками. В том случае,
если коэффициент равен нулю, линейная связи между признаками будет отсутствовать.
Прямая функциональная зависимость будет иметь место, если коэффициент корреляции
равен +1 (или -1).

Однако, зачастую необходимо не только оценить тесноту связи между изучаемыми
признаками, но и определить ту степень с которой один признак воздействует на другой.
В этом случае используется коэффициент детерминации, определяющий процентную
долю изменений, происходящих под влиянием факторного признака, в общей
изменчивости результативного признака:

D = r 2100%,

где r - коэффициент корреляции.

В качестве примера подобных вычислений приведем данные из книги Б.Н. Миронова
«История в цифрах», где была определена степень корреляционной зависимости между
доходом и размерами помещичьего хозяйства в России на рубеже XIX-XX вв. по
сведениям о размерах (в десятинах) и доходах (в тыс. руб.) десяти помещичьих
имений6.Доходность имения зависела от его размера, но, кроме этого на нее влияло и
качество земли, и состояние хозяйства, и деловые способности владельца, а также
близость рынка и другие факторы. В связи с этим, исследователь поставил задачу узнать,
насколько же размер имения влиял на доходность имения.



     6
         Миронов Б.Н. История в цифрах. Л., 1991. С.67.
                                                    18


Исходные данные (xi - размеры имения в десятинах, yi - доход имения в тыс. руб.) и
промежуточные вычисления были представлены в виде следующей таблицы:




                                                                             (   - )( -
                                     -          -     (    - )2   (   - )2
                                                                                    )
         1    240       1.50       -50       -0.10        2500     0.01           5.00
         2    255       1.25       -35       -0.35        1225    0.1225         12.25
         3    265       1.55       -25       -0.05         625    0.0025          1.25
         4    270       1.40       -20       -0.20         400     0.04           4.00
         5    285       1.45        -5       -0.15          25    0.0225          0.25
         6    295       1.60        5          0            25       0             0
         7    310       1.80       20        0.20          400     0.04           4.00
         8    320       1.80       30        0.20          900     0.04           6.00
         9    325       1.85       35        0.25         1225    0.0625          8.75
        10    330       1.90       40        0.30         1600     0.09          12.00

Из которой было выведено, что:



Следовательно доходность имения на 76% процентов может быть объяснена его
размером, и только на 24% другими факторами.
При анализе статистической зависимости важна не только оценка тесноты связи между
признаками, но и выявление ее формы. Данная задача решается методами регрессионного
анализа.
Регрессионный анализ представляет собой совокупность методов математической
статистики, которые позволяют определить форму связи между результативным и
факторным признаками, установленной корреляционным анализом. Корреляционная связь
описывается уравнением регрессии с помощью с помощью подходящей функции.
Простейшее уравнение линейной регрессии:
y = ax + b,
где x - факторный признак; y - результативный признак; a и b – параметры уравнения,
которые могут быть найдены методом наименьших квадратов по формулам:




где x i , y i - i-е значение признаков x и у соответственно; х, у - средние арифметические
признаков x и у; n - число значений признаков x и у.


                                           19


Регрессионный анализ не используется для определения наличия связи между
переменными, ввиду того, что наличие такой связи и есть предпосылка для применения
анализа.

Линейная регрессия достаточно хорошо работающим в ряде простых задач. К ее
достоинствам относится простота алгоритма и высокое быстродействие. Недостаток
только один – неприспособленность к решению существенно нелинейных задач.

Корреляционный анализ выявляет структуру взаимосвязей признаков, характеризующих
изучаемое явление или процесс, но не способен объяснить, чем обусловлена именно такая
структура связей. Ответить на этот вопрос позволяют методы факторного анализа.

Факторный анализ объединяет методы анализа структуры множества признаков,
характеризующих изучаемые явления и процессы, и выявления обобщенных факторов. В
его основе лежит положение о том, что корреляционные связи между большим числом
наблюдаемых показателей определяются существованием меньшего числа гипотетически
наблюдаемых показателей или факторов.

Объяснение множества исходных признаков через небольшое число общих факторов
осуществляется сжатием информации, которая содержится в исходных коррелированных
признаках.

Основными характеристиками факторного анализа являются факторные нагрузки и
факторные веса.

Факторная нагрузка - это значение коэффициентов корреляции каждого из исходных
признаков с каждым из выявленных факторов. Чем теснее связь данного признака с
рассматриваемым фактором, тем выше значение соответствующей факторной нагрузки.
Положительный знак факторной нагрузки указывает на прямую связь данного признака с
фактором, а отрицательный знак – на обратную. Если значение факторной нагрузки
близко нулю, то это свидетельствует о том, что этот фактор практически не влияет на
данный признак.




В приведенной таблице факторных нагрузок содержится m строк (по числу признаков) и k
столбцов (по числу факторов).
                                         20



    
Яндекс цитирования Яндекс.Метрика