Единое окно доступа к образовательным ресурсам

Анализ данных: Конспект лекций

Голосов: 4

Рассматриваются вопросы анализа данных. Приводятся некоторые из основополагающих методик анализа данных, такие как: регрессионный анализ, корреляция, дисперсионный анализ и др. Отражены вопросы интеллектуального анализа данных, с помощью которого можно выявить ранее неизвестные, нетривиальные закономерности в данных.

Приведенный ниже текст получен путем автоматического извлечения из оригинального PDF-документа и предназначен для предварительного просмотра.
Изображения (картинки, формулы, графики) отсутствуют.
                  Федеральное агентство связи
  Федеральное государственное образовательное бюджетное
   учреждение высшего профессионального образования
      «Поволжский государственный университет
          телекоммуникаций и информатики»
___________________________________________________
     Кафедра информационных систем и технологий




            КОНСПЕКТ ЛЕКЦИЙ
          ПО УЧЕБНОЙ ДИСЦИПЛИНЕ



              «АНАЛИЗ ДАННЫХ»




по специальности (направлению подготовки):
      Информационные системы и технологии,
      Бизнес-информатика




                        Самара
                         2013


    УДК 004.02:004.6


  Салмин А.А.
  Анализ данных. Конспект лекций.         –   Самара.:
ФГОБУ ВПО «ПГУТИ», 2013. - 111 с.



   Рассматриваются вопросы анализа данных. Приводятся
некоторые из основополагающих методик анализа данных,
такие    как:   регрессионный   анализ,    корреляция,
дисперсионный анализ и др. Отражены вопросы
интеллектуального анализа данных, с помощью которого
можно выявить ранее неизвестные, нетривиальные
закономерности в данных.



  Рецензент:
  Тарасов В.Н. – д.т.н., профессор, зав. кафедрой
«Программного обеспечения и управления в технических
системах» ПГУТИ




Федеральное государственное образовательное бюджетное
    учреждение высшего профессионального образования
             «Поволжский государственный университет
                     телекоммуникаций и информатики»


                                  © Салмин А.А., 2013

2


        Содержание конспекта лекций
ВВЕДЕНИЕ                                             5
1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ»                        7
     1.1. Работа с данными                           7
     1.2. Этапы решения задачи анализа данных и их
         взаимосвязи                                 9
2. РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ                        18
     2.1.Вероятность                                 18
     2.2.Распределения вероятностей                  20
     2.3.Случайные переменные и случайные выборки
         данных                                      23
     2.4.Нормальное распределение                    24
     2.5.Формула Байеса                              25
3. СТАТИСТИКА ВЫВОДОВ                                30
     3.1.Доверительные интервалы                     30
     3.2.Проверка гипотез                            32
         3.2.1. Типы ошибок                          33
         3.2.2. Области принятия и непринятия        34
         3.2.3. t-распределение                      35
     3.3. Применение непараметрического теста для
         парных данных                               39
4. АНАЛИЗ ТАБЛИЧНЫХ ДАННЫХ                           43
     4.1. Сводные таблицы                            43
     4.2. Вычисление ожидаемого количества
         наблюдений                                  46
     4.3. Статистика хи-квадрат Пирсона              48
5. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА                     51
     5.1. Понятие «регрессия»                        51
     5.2. Простая линейная взаимосвязь               52
         5.2.1. Уравнение регрессии                  52
         5.2.2. Подгонка линии регрессии             54
         5.2.3. Интерпретация параметров регрессии   57
     5.3. Проверка модели регрессии                  59

                                                          3


6. КОРРЕЛЯЦИЯ                                       63
     6.1. Понятие «корреляции»                      63
     6.2. Матрица корреляции                        65
     6.3. Матрица точечных диаграмм корреляций      66
7. АППАРАТ МНОЖЕСТВЕННОЙ РЕГРЕССИИ                  69
     7.1. Уравнение множественной регрессии         69
     7.2. Проверка допущений регрессии              73
     7.3. Пошаговая регрессия                       75
     7.4. Логистическая регрессия                   76
     7.5. Нелинейная регрессия                      77
8. ДИСПЕРСИОННЫЙ АНАЛИЗ                             78
     8.1. Однофакторный дисперсионный анализ        78
     8.2. Однофакторный дисперсионный анализ и
         анализ регрессии                           84
     8.2. Двухфакторный дисперсионный анализ        86
9. КОГНИТИВНЫЙ АНАЛИЗ. ГРАФЫ                        92
     9.1. Когнитивный анализ                        92
     9.2. Методика когнитивного анализа сложных
         ситуаций                                   93
     9.3. Регрессионно - когнитивный анализ         96
10. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ                  99
     10.1. Системы аналитической обработки данных 99
         10.1.1. CRM – технология                   99
         10.1.2. ERP – системы                      102
         10.1.3. OLAP – технология                  103
     10.2. Интеллектуальный анализ данных
         (Data Mining)                              105
         10.2.1. Этапы исследования данных с помощью
                 методов Data Mining                105
         10.2.2. Типы закономерностей               106
         10.2.3. Методы Data Mining                 107




4


    ВВЕДЕНИЕ

     Предлагаемый конспект лекций по дисциплине
«Анализ данных» обеспечивает подготовку студентов к
эффективному         использованию        современных
компьютерных средств анализа данных. Предлагаются
основные      темы,    посвященные      формированию
теоретических и практических навыков работы с пакетами
прикладных программ для решения задач анализа и
интерпретации данных для создания прогнозов ситуации и
принятия управленческих решений. В рамках конспекта
лекций по дисциплине рассматриваются различные
способы создания, форматирования, описания базовых
принципов работы с таблицами данных с целью их
последующего анализа при помощи статистических и
математических методов. Таким образом, у будущих
специалистов осуществляется формирование основ
теоретических знаний и практических навыков работы в
области анализа данных и принятия управленческих
решений.
     Следует также отметить тот факт, что в качестве
программного обеспечения        для усвоения курса
предлагается использовать продукт MS Excel, который
располагает достаточными средствами анализа данных,
такими как: пакет анализа, общими статистическими
функциями мастера функций и т.д. Кроме тог,
предлагается дополнительно использовать подключаемый
модуль StatPlus.
     Дисциплина «Анализ данных» базируется на знании
предметов «Информационные технологии», «Электронные

                                                    5


таблицы», «Вероятность и статистика», изучаемых в
образовательных учреждениях высшего образования.
      Элементы курса «Анализ данных» используются при
изучении       курсов      «Моделирование      систем»,
«Проектирование информационных систем», «Надежность
информационных систем».
      Задача материала данного конспекта лекций в том,
чтобы:
        - предоставить студентам общие сведения о
           принципах обработки и анализа данных с целью
           получения из них новых сведений;
        - показать методы, средства и технологии
           анализа данных;
        - показать на примере регрессионного анализа
           принцип получения новых знаний из данных.
      Знания и навыки, полученные в результате изучения
данной дисциплины, могут быть применены:
1. при проведении анализа данных с целью получения
статистической информации или прогноза ситуации;
2. для интерпретации полученных результатов в ходе
анализа;
3. при формулировании технического задания при
создании ИС силами профессиональных разработчиков.




6


    1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ»

    1.1. Работа с данными
     Данные – это воспринимаемые человеком факты,
события,   сообщения,   измеряемые характеристики,
регистрируемые сигналы.


     Специфика данных в том, что они, с одной стороны,
существуют независимо от наблюдателя, а с другой –
становятся собственно «данными» лишь тогда, когда
существует целенаправленно собирающий их субъект. В
итоге: данные должны быть тем основанием, на котором
возводятся все заключения, выводы и решения. Они
вторичны по отношению к цели исследования и
предметной области, но первичны по отношению к
методам их обработки и анализа, извлекающим из данных
только ту информацию, которая потенциально доступна в
рамках отобранного материала.
     Данные получаются в результате измерений. Под
измерением понимается присвоение символов образцам в
соответствии с некоторым правилом. Эти символы могут
быть буквенными или числовыми. Числовые символы
также могут представлять категории или быть числовыми.


     Различают 4 типа шкал измерений:
     1) Шкала наименований. Эта шкала используется
только для классификации. Каждому классу данных
присваивается свое обозначение так, чтобы обозначения
различных     классов    не   совпадали.     Например,
классификация людей по полу М и Ж (1 и 2, 10 и 100) или
категория да/нет. Причем арифметические операции не
имеют смысла для шкал наименований. Для данной шкалы

                                                      7


центром измерения является мода (часто повторяющийся
элемент).
     2) Порядковая шкала. Данная шкала позволяет не
только разбивать данные на классы, но и упорядочить сами
классы. Каждому классу присваивается различные
обозначения     так,   чтобы     порядок     обозначений
соответствовал порядку классов. Если мы нумеруем
классы, то классы находятся в числовом порядке; если
обозначаем классы по средствам букв, то классы
находятся в алфавитном порядке. Например, необходимо
идентифицировать индивидуумы по трем социально-
экономическим категориям – низкий, средний, высокий: 1 –
низкий, 2- средний, 3 – высокий; или X – низкий, Y –
средний, Z – высокий. Применяются любые обозначения
цифр или букв. Арифметические операции для этой шкалы
также не имеют смысла.
     3) Интервальная шкала. Эта шкала позволяет не
только классифицировать и упорядочивать данные, но и
количественно оценивать различие между классами. Для
проведения таких сравнений необходимо ввести единицу
измерения и произвольное начало отсчета (нуль-
пункт). Например, температура в градусах Фаренгейту
принадлежит интервальной шкале, где 0F является
началом, 1F - единицей измерения.
     4) Шкала отношений. Эта шкала отличается от
интервальной шкалы лишь тем, что в ней задано
абсолютное начало отсчета. Т.е. в данной шкале можно
определить, во сколько раз одно измерение превосходит
другое. Например: рост человека в дюймах принадлежит
шкале отношений, в которой в которой 0 дюймов есть
фиксированное начало отсчета, а 1 дюйм – единица
измерения.



8


     Кроме того, наблюдения делятся на: дискретные и
непрерывные. Именованные и порядковые данные всегда
дискретны, а интервальные и относительные могут быть
как дискретными, так и непрерывными. Например,
непрерывные: стрельба по мишени (любой исход),
температура (интервальная шкала); дискретные: игральная
кость (1, 2, 3 …6), монета (орел/решка), число телефонных
вызовов за один час (шкала отношений) (рис. 1.1).




           Рис. 1.1. Дискретные и непрерывные данные



    1.2. Этапы решения задачи анализа данных и их
взаимосвязи
     Анализ данных –    это совокупность методов и
средств   извлечения   из   организованных  данных
информации для принятия решений.

     Основные этапы решения задачи анализа данных
показаны в левой части рис. 1.2. В правой части каждый из
них разбит на более мелкие стадии.




                                                       9


Этап 1     1.1. Определение         цели
Постанов-  исследования
ка задачи  1.2. Определение      состава
           данных
           1.3. Сбор данных
           1.4. Выбор средств анализа
           данных
           1.5. Формализация данных
Этап 2     2.1. Ввод данных в память
Ввод       ЭВМ
данных в   2.2. Работа с архивом данных
обработку 2.3. Формирование задания
           обработки
Этап 3     3.1. Определение
Качествен- простейших характеристик
ный        данных
анализ     3.2. Визуализация данных
           3.3. Анализ структуры
           данных
Этап 4     4.1. Выбор модели данных
Количест- 4.2. Выполнение обработки
венное
описание
данных
Этап 5     5.1. Анализ результатов
Интерпрет 5.2. Принятие решений
ация
резуль-
татов
               Рис. 1.2. Этапы анализа данных

    Постановка задачи (является определяющим
этапом, от которого зависит весь ход анализа)
начинается со стадии формулировки цели всего

10



    
Яндекс цитирования Яндекс.Метрика