Docsity
Docsity

Подготовься к экзаменам
Подготовься к экзаменам

Учись благодаря многочисленным ресурсам, которые есть на Docsity


Получи баллы для скачивания
Получи баллы для скачивания

Заработай баллы, помогая другим студентам, или приобретай их по тарифом Премиум


Руководства и советы
Руководства и советы

Дисперсионный анализ при помощи системы MINITAB для WINDOWS учебное пособие по экономико-математическому моделированию , Руководство, Проектов, Исследование из Математическое моделирование

Дисперсионный анализ при помощи системы MINITAB для WINDOWS учебное пособие по экономико-математическому моделированию

Вид: Руководство, Проектов, Исследование

2016/2017

Загружен 11.04.2017

refbank17025
refbank17025 🇷🇺

5

(1)

8 документы

1 / 32

Toggle sidebar

Сопутствующие документы


Частичный предварительный просмотр текста

Скачай Дисперсионный анализ при помощи системы MINITAB для WINDOWS учебное пособие по экономико-математическому моделированию и еще Руководство, Проектов, Исследование в формате PDF Математическое моделирование только на Docsity! Министерство образования и науки Украины Севастопольский национальный технический университет МЕТОДИЧЕСКИЕ УКАЗАНИЯ к выполнению лабораторной работы № 3 и 4 ” Дисперсионный анализ при помощи системы MINITAB для WINDOWS “ по учебной дисциплине “Прикладная статистика” для студентов экономических специальностей всех форм обучения Севастополь 2008 Методические указания рассмотрены и утверждены на заседании кафедры Теоретические сведения 1.. Дисперсионный анализ 1...1... Однофакторный дисперсионный анализ При проведении экономического анализа часто необходимо оценить влияние на целевую функцию y качественного фактора x . Таким фактором могут быть, например, партии сырья, отрасли промышленности, регионы и т.д. Пусть данные о влиянии некоторого качественного фактора на количественный в форме таблицы. Таблица 1.1. – влияние качественного фактора на исследуемый показатель … …. … … … … … Модель зависимости значений от фактора столбцов можно представить в следующем виде [1-4]: где - общее среднее, -отклонение от общего среднего для j-го уровня фактора, - случайная составляющая. По выборочным данным можно вычислить: 1) среднее для каждого уровня фактора (среднее по столбцам) xj (j=1,2,...u ), по mj параллельным опытам, где mj – число данных в столбце j: ; 2) общее среднее по всем N опытам, т.е. по всем mj параллельным опытам на всех уровнях фактора xj (): ; 3) общую сумму квадратов отклонений Q0: 4) сумму квадратов, характеризующую влияние фактора x (отклонения между группами) ; 5) остаточную сумму квадратов, зависящую от ошибки F 06 5 (отклонения внутри групп) . Тождество дисперсионного анализа имеет вид: На основании вычисленных сумм квадратов вычисляются: 1) оценка дисперсии относительно общего среднего : , где - число степеней свободы; 2) оценка дисперсии «между группами», определяемыми уровнями xj: где число степеней свободы . 3) выборочная оценка дисперсии «внутри групп», вычисляемая как средняя оценка по всем u группам: с числом степеней свободы Числа степеней свободы должны удовлетворять соотношению Для того, чтобы сделать вывод о том, влияет ли на исследуемые показатели качественный фактор, сопоставляют дисперсию между группами с общей дисперсией. При этом выдвигают следующие гипотезы: H0: , т.е средние значения по всем столбцам равны и равны общему среднему, откуда следует, что среднеквадратическое отклонение по факторам равно среднеквадратическому отклонению по всем данным и равно нулю. Т.е. качественный фактор не оказывает влияния на исследуемый показатель. H1: , , т.е средние значения по всем столбцам не равны между собой и не равны общему среднему, откуда следует, что среднеквадратическое отклонение по факторам не совпадает со среднеквадратическим отклонением по всем данным. Т.е. качественный фактор оказывает существенное влияние на исследуемый показатель. Оценивание значимости влияния фактора x выполняется по F- критерию Фишера, для чего формируется следующее F-отношение: . Фактор x признается незначимым, если соответствующее F-отношение оказывается меньше критического, выбранного из таблиц для принятого уровня значимости и числа степеней свободы сравниваемых дисперсий и . Табличное значение критерия Фишера определяется дл числа степеней свободы u-1 и N-1 и вероятности ошибки . Т.е если , то принимается нулевая гипотеза при соответствующем уровне значимости о том, что исследуемый фактор не оказывает существенного влияния на количественные данные. Если , то нулевая гипотеза отвергается и принимается альтернативная при соответствующем уровне значимости. Исходя из этого, можно сделать вывод о том, что исследуемый фактор оказывает существенное влияние на количественные данные. Результаты дисперсионного анализа сводятся в таблицу 2. Таблица 2 Однофакторный дисперсионный анализ m В табл.2 вычисляется по выделенной части столбца, содержащей m параллельных опытов. Общая сумма квадратов отклонений Q0 рассчитывается по формуле: Эту сумму можно разложить на 4 составляющие: 1) сумму, характеризующую влияние фактора x1: ; 2) сумму, характеризующую влияние фактора x2: ; 3) сумму, характеризующую результат влияния взаимодействия x1x2: 4) сумму, характеризующую влияние ошибки F 06 5: Указанные пять сумм, поделенные на соответствующее число степеней свободы, дают пять различных оценок дисперсии, если влияние факторов x1 и x2 незначимо. Для проведения дисперсионного анализа вычисляются следующие дисперсии: 1) оценка дисперсии относительно общего среднего : , где -общее число наблюдений, а число степеней свободы ; 2) оценка дисперсии «между строками», определяемыми уровнями x1j: , где - число степеней свободы. 3) оценка дисперсии «между столбцами», соответствующими уровням фактора x2: , где - число степеней свободы; 4) оценка дисперсии «между сериями» по m параллельным опытам каждая с числом степеней свободы ; 5) оценка дисперсии «внутри серий» по m параллельным опытам, вычисляемая как средняя оценка по всем u1u2 сериям: с числом степеней свободы . Числа степеней свободы должны удовлетворять соотношению Статистическое оценивание значимости влияния факторов x1 , x2 и взаимодействия x1x2 выполняются по F-критерию Фишера, для чего формируются следующие F-отношения: , , . Фактор x1 или x2 , или взаимодействие x1x2 признаются незначимым, если соответствующее F-отношение оказывается меньше критического, выбранного из таблиц для принятого уровня значимости и числа степеней свободы сравниваемых дисперсий. Для того, чтобы сделать вывод о том, влияют ли на исследуемые показатели качественные факторы, выдвигают следующие гипотезы: H0: , т.е средние значения по всем столбцам равны фактор столбца не оказывает влияния на исследуемый показатель. H1: , , т.е средние значения по всем столбцам не равны фактор столбца оказывает существенное влияние на исследуемый показатель. H0: , т.е средние значения по всем строкам равны фактор строки не оказывает влияния на исследуемый показатель. H1: , , т.е средние значения по всем строкам не равны фактор строки оказывает существенное влияние на исследуемый показатель. H0: , т.е отклонение взаимодействия факторов равно нулю и взаимодействие не значимо.. H1: , фактор взаимодействия значим.. Если , то принимается нулевая гипотеза при соответствующем уровне значимости о том, что исследуемый фактор не оказывает существенного влияния на количественные данные. Если , то нулевая гипотеза отвергается и принимается альтернативная при соответствующем уровне значимости. Исходя из этого, можно сделать вывод о том, что исследуемый фактор оказывает существенное влияние на количественные данные. Результаты двухфакторного дисперсионного анализа представляются в виде табл.3. Таблица 3. - Двухфакторный дисперсионный анализ при равном числе наблюдений в ячейках Вид изменчивости Сумма квадратов отклонений Число степеней свободы Оценка дисперсии F – отношение От фактора x1 От фактора x2 От взаимо- действия x1x2 Остаточная (от F 0 6 5) Общая m – число данных в строке (число повторов в ячейке), - число столбцов, - число строк. 1. Отклик (Response) – выберите столбец, содержащий выходную (зависимую) переменную. Столбец должен содержать только числовые значения. 2. Фактор (Factor) – выберите столбец, содержащий качественную переменную, влияние которой исследуется. Фактор может иметь как числовые, так и символьные значения. 3. Сохранить остатки (Store Residuals), выбирается, если необходимо сохранить остатки для последующего анализа. Остатки сохраняются в свободном столбце. 4. Сохранить оценки (Store fits) Для однофакторного анализа оценки это средние значения для каждого уровня фактора. 5. Графики <Graphs> представляют данные в виде точечных и блочных диаграмм для каждой группы с отмеченным средним значением. Пример 1 Пусть данные о проценте износа оборудования для 12 предприятий разных отраслей промышленности и форм собственности представлены следующей таблицей. Таблица 4. Исходные данные Field Owner d Пищевая Частн 31 Пищевая Частн 49 Пищевая Частн 37 Пищевая Госуд 47 Пищевая Госуд 57 Пищевая Госуд 53 Машиностр Госуд 43 Машиностр Госуд 59 Машиностр Госуд 56 Машиностр Частн 47 Машиностр Частн 51 Машиностр Частн 53 Определим зависимость износа оборудования от отрасли промышленности. В этом случае в диалоговом окне указываются следующие значения Response: d Factor: field Результаты дисперсионного анализа включают таблицу анализа дисперсии, таблицу средних значений уровней факторов, индивидуальные доверительные интервалы для каждого уровня и общее стандартное отклонение. На рис.1 представлен листинг результатов вычислений. На рисунке используются следующие обозначения: DF – число степеней свободы, SS - сумма квадратов, MS – средний квадрат, F - отношение Фишера, P - уровень значимости для вычисленного F, Level – уровень фактора, Mean – среднее значение, StDev – стандартное отклонение. One-Way Analysis of Variance Analysis of Variance for d Source DF SS MS F P field 1 102.1 102.1 1.55 0.241 Error 10 656.8 65.7 Total 11 758.9 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -------+---------+---------+--------- Пищевая 6 45.667 9.852 (-----------*-----------) Машиност 6 51.500 5.857 (-----------*-----------) -------+---------+---------+--------- Pooled StDev = 8.105 42.0 48.0 54.0 Рис.1 Листинг результатов вычислений для однофакторной модели Если значения выходной переменной разбито на группы и каждая группа записана в отдельном столбце, то для проведения однофакторного дисперсионного анализа необходимо выбрать из меню Stat > ANOVA > Oneway [Unstacked] и заполнить следующее диалоговое окно. Диалоговое окно 1. Отклик в нескольких столбцах Responses [in separate columns] - выберите столбцы, содержащие выходную (зависимую) переменную. Столбцы должны содержать только числовые значения. Система не требует, чтобы в каждом столбце было одинаковое число наблюдений. 2. Графики <Graphs> представляют данные в виде точечных и блочных диаграмм для каждой группы с отмеченным средним значением. Пример 2 Пусть данные о проценте износа оборудования для 12 предприятий двух отраслей промышленности (пищевая - field1, машиностроение - field2) представлены в табл.5. Таблица 5. Исходные данные Field1 Field2 31 59 49 56 37 47 47 51 57 53 53 43 В этом случае в диалоговом окне указываются следующие значения. Responses [in separate columns]: field1 field2 табл.1. Определим, как влияют отрасль промышленности, форма собственности и их взаимодействие на процент износа оборудование. Для этого выберем из меню Stat > ANOVA > Balanced ANOVA и заполним диалоговое окно следующим образом Responses: d Model: field owner field*owner Результаты дисперсионного анализа представлены на рис.4. Analysis of Variance (Balanced Designs) Factor Type Levels Values field fixed 2 Пищевая Машиностр owner fixed 2 частн госуд Analysis of Variance for d Source DF SS MS F P field 1 102.08 102.08 2.14 0.182 owner 1 184.08 184.08 3.86 0.085 field*owner 1 90.75 90.75 1.90 0.205 Error 8 382.00 47.75 Total 11 758.92 Рис.4 Листинг результатов вычислений для двухфакторной модели Проанализируем полученные результатs/ Для фактора отрасли P> ( =0.05), значит принимается нулевая гипотеза о том, что фактор отрасли не влияет на уровень износа оборудования. Для фактора формы собственности P> ( =0.05), значит принимается нулевая гипотеза о том, что фактор формы собственности не влияет на уровень износа оборудования. Аналогичным образом делаем вывод о том, что на уровень износа оборудование не влияет взаимодействие факторов. Для анализа многофакторных моделей по несбалансированным данным необходимо выбрать из меню Stat > ANOVA > General Linear Model. 4 Выполнение дисперсионного анализа в Excel Рассмотрим дисперсионный анализ на следующем примере: за месяц известны данные о выработке рабочего за время работы в первую и во вторую смены. Таблица 2 - Исходные данные Смена Выработка рабочего, нормо-час 1 12,1; 11,1; 12,6; 12,9; 11,6; 13,1; 12,6; 12,4; 11,6; 17,3; 12,9; 11,6; 12,4 2 9,9; 11,4; 13,4; 10,4; 12,9; 12,6; 13,9; 13,4; 12,4; 9,9; 10,2; 11,2; 9,7 Можно ли считать, что расхождение между уровнями выработки рабочего в первую и во вторую смены несущественно, т.е. можно ли считать, что генеральные средние в двух подгруппах одинаковы и, следовательно, выработка рабочего может быть охарактеризована общей средней. Решение. Для того чтобы ответить на поставленные вопросы, рассчитаем среднюю выработку рабочих в каждой смене. Величина выработки в первую и вторую смены различна. Теперь возникает вопрос о том, насколько существенны эти расхождения, нужно проверить предположение о возможном влиянии сменности на выработку рабочих. Результаты расчетов сведены в таблицу 3. Таблица 3 – Промежуточные расчеты для проведения дисперсионного анализа Смена Средняя выработка, нормо-часы Число смен в месяце Сумма квадратов отклонений вариантов от групповой средней Квадраты отклонений групповых средних от общей средней 1 12.6308 13 28.09 3,2001 2 11.6385 13 28.08 3,2008 Итого 26 =56.1585 =6,4008 Используя данные таблицы, рассчитаем и . Результаты расчетов однофакторного дисперсионного анализа представлены на рисунке 3. Однофакторный дисперсионный анализ ИТОГИ Группы Счет Сумма Среднее Дисперсия Столбец 1 13 164,2 12,63077 2,34064103 Столбец 2 13 151,3 11,63846 2,33923077 Дисперсионный анализ Источник вариации SS df MS F P-Значение F критическое Между группами 6,400385 1 6,400385 2,73528203 0,111176312 4,259675279 Внутри групп 56,15846 24 2,339936 Итого 62,55885 25 Рисунок 3 – Результаты расчетов по однофакторному дисперсионному анализу Интерпретация результатов: «Группы» - данные по выработке в первую и вторую смены. «Счет» - количество наблюдений в каждой из групп. «Сумма» - сумма элементов каждой из групп. «Среднее» - средняя выработка в каждой из групп. «Дисперсия» - рассчитывается дисперсия по каждой из групп; SS - сумма квадратов; df - число степеней свободы; MS – средний квадрат; F – расчетное значение отношения Фишера; P - уровень значимости для вычисленного F; F критическое – табличное значение отношения Фишера. Результаты расчетов аналогичны результатам, полученным при расчетах вручную. Двухфакторный дисперсионный анализ в MS Exel Используя данный предыдущего примера, предположим, что у нас есть данные о поле работников. Для проведения двухфакторного дисперсионного анализа в MS Exel необходимо представить данные в виде перекрестной классификации: 1 2 муж 12,1 9,9 11,1 11,4 12,6 13,4 12,9 10,4 11,6 12,9 13,1 12,6 12,6 13,9 жен 12,4 13,4 11,6 12,4 17,3 9,9 12,9 10,2 11,6 11,2 12,4 9,7 13,1 12,6 В меню «Сервис» выбрать команду «Анализ данных» и команду «Двухфакторный дисперсионный анализ с повторениями». Далее необходимо заполнить окно «Двухфакторный дисперсионный анализ с повторениями»: «Входной интервал» - вводится ссылка на диапазон, содержащий анализируемые данные.Необходимо отметить не только сами числа, но и заголовок таблицы. «Число строк для выборки» - необходимо ввести количество повторений в одной ячейке. (Для нашего примера - 7) «Альфа» - введите уровень значимости, необходимый для оценки критических параметров F-статистики. Уровень альфа связан с вероятностью возникновения ошибки типа I (опровержение верной гипотезы). «Выходной диапазон» - введите ссылку на левую верхнюю ячейку выходного диапазона. Размеры выходной области будут рассчитаны автоматически, и соответствующее сообщение появится на экране в том случае, если выходной диапазон занимает место существующих данных или его размеры превышают размеры листа. «Новый лист» - установите переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1. Если в этом есть необходимость, введите имя нового листа в поле, расположенном напротив соответствующего положения переключателя. «Новая книга» - установите переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку A1 на первом листе в этой книге. Пример заполнения окна «Однофакторный дисперсионный анализ» представлен на рисунке 2. Рисунок 2 – Пример заполнения окна «Двухфакторный дисперсионный анализ» Результаты расчетов двухфакторного дисперсионного анализа представлены на рисунке 3. Дисперсионный анализ Источник вариации SS df MS F P-Значение F критическое Выборка 0,001429 1 0,001429 0,000643 0,979986 4,259677 Столбцы 6,412857 1 6,412857 2,884498 0,102366 4,259677 Взаимодействие 3,862857 1 3,862857 1,73751 0,199898 4,259677 Внутри 53,35714 24 2,223214 Итого 63,63429 27 Рисунок 3 – Результаты расчетов по однофакторному дисперсионному анализу Интерпретация результатов: SS - сумма квадратов; df - число степеней свободы; MS – средний квадрат; F – расчетное значение отношения Фишера; P - уровень значимости для вычисленного F; F критическое – табличное значение отношения Фишера. 4. Гуманит. Производ. Жен. Работник 125 120 Гуманит. Сельск,х. Муж. Руковод. 280 180 Гуманит. Сельск,х. Жен. Руковод. 300 280 Гуманит. Образов. Муж. Руковод. 240 230 Гуманит. Образов. Жен. Руковод. 230 200 Требуется методом двухфакторного дисперсионного анализа оценить степень влияния изучаемых факторов на результирующий экономический показатель. Первоначально оценить модель без взаимодействия факторов, затем с взаимодействием. Сравнить результаты. Сделать выводы. Варианты заданий приведены в табл.8. Таблица 8 Варианты заданий Вариант Первый фактор Второй фактор Отклик Вариант Первый фактор Второй фактор Отклик 1 X1 X2 Y1 7 X1 X2 Y2 2 X1 X3 Y1 8 X1 X3 Y2 3 X1 X4 Y1 9 X1 X4 Y2 4 X2 X3 Y1 10 X2 X3 Y2 5 X2 X4 Y1 11 X2 X4 Y2 6 X3 X4 Y1 12 X3 X4 Y2 5. Порядок выполнения работы 1. В соответствии с вариантом задания выполнить однофакторный дисперсионный анализ, сделать выводы, написать отчет. 2. В соответствии с вариантом задания выполнить двухфакторный дисперсионный анализ, сделать выводы, написать отчет. Контрольные вопросы 1. Сформулируйте основную идею дисперсионного анализа, для решения каких задач он наиболее эффективен ? 2. Что показывает F отношение Фишера? 3. Каковы основные теоретические предпосылки дисперсионный анализ? 4. Произведите разложение общей суммы квадратов отклонений на составляющие в однофакторном дисперсионном анализе. 5. Как получить оценки дисперсий из сумм квадратов отклонений? Как получаются необходимые числа степеней свободы? 6. Приведите свой пример двухфакторного дисперсионного анализа. 7. На какие суммы разлагается общая сумма квадратов отклонений в двухфакторном дисперсионном анализе? 8. Поясните схему двухфакторного дисперсионного анализа. 9. Чем отличается перекрестная классификация от иерархической классификации? 10. Чем отличаются сбалансированные данные? Литература 1. Шеффе Г. Дисперсионный анализ. – М.: Наука. 1980.- 512с. 2. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы планирования эксперимента. Пер. с англ. – М.: Мир, 1981.-520с. 3. Дэниел К. Применение статистики в промышленном эксперименте.-М.:Мир, 1979.-300с. 4. Хикс Ч. Основные принципы планирования эксперимента.- М.:Мир, 1967. Методические указания разработали: профессор, д.т.н. Цуканов А.В. и к.т.н., доцент, Русина Н.А.
Docsity logo