Методы анализа и обработки данных

Автор: Пользователь скрыл имя, 29 Ноября 2012 в 09:16, контрольная работа

Краткое описание

Какие методы обработки относят к простейшим?
Пользуясь формулой Сёрджеса, сравните рекомендуемое количество частичных интервалов при объеме выборки, равном и.
Сформулируйте задачу интерполяции в стандартной постановке.
Чем отличаются задачи собственно интерполяции и экстраполяции данных?
...

Файлы: 1 файл

методы.docx

— 89.71 Кб (Скачать)

МИНОБРНАУКИ РОССИИ

Федеральное государственное  автономное образовательное учреждение

высшего профессионального  образования

«ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ  УНИВЕРСИТЕТ»

 

Институт экономики  и внешнеэкономических связей

 

 

 

 

 

ПИСЬМЕННАЯ РАБОТА

по дисциплине «Методы  анализа и обработки данных»

 

 

 

                                                                                                   Студентки

   гр. 2010 –ЗФК-С (С)

   Зимкиной Е.К.

 

                                                                                                Научный руководитель:

                                                                                                   к.т.н. доц.   

                                                                                                   Попов А.П..                                                                                                                                                                                                                                                                                                                                                           

 

 

 

Ростов на Дону  –  2012

 

Какие методы обработки  относят к простейшим?

Простейшими методами, которые применяются  на самых ранних этапах

анализа и обработки исходных  данных являются упорядочение и 

группировка данных. Эти  методы являются вместе

с тем и наиболее универсальными, поскольку они применимы при анализе

практически любых данных вне зависимости  от их природы и типа.

 

 

Пользуясь формулой Сёрджеса, сравните рекомендуемое количество частичных интервалов при объеме выборки, равном и.

 

Полуэмпирическая формула Сѐрджеса:

m= 1 + log2

Здесь m – общее количество частичных интервалов, а N – объем выборки

(общее количество числовых данных, подлежащих группировке).

Выбор интервала группировки:

Интервал  группировки — это значение варьирующего признака, лежащее в определенных пределах. Нижняя граница интервала — это значение наименьшего признака в интервале. Верхняя граница — это наибольшее значение в интервале.

Величина  интервала — это разница между верхней и нижней границами.

Интервалы группировок могут  быть равными и неравными. 
Равные интервалы применяются в тех случаях, когда значение количественного признака внутри совокупности изменяется равномерно.

 

Величина равных интервалов определяется по формуле:

  •  — величина интервала
  •  - максимальное значение признака в совокупности
  •  — минимальное значение признака в совокупности
  •  — число групп

Если шаг разбиения (ширины частичных  интервалов) постоянен, то он должен быть равен:

ℎ = (xmax - xmin) / m

где  ℎ – шаг разбиения, а xmax и xmin   – нижняя и верхняя граница

диапазона значений числовых данных.

Подставляя численное значение N = 100, найдем рекомендуемое 

количество частичных интервалов  m = 7.644. Выбирая ближайшее к нему

целое число m = 8, и подставляя численные значения xmin = 7.1 и

xmax = 46.2, вычислим шаг разбиения ℎ = 4.888.

Абсолютной частотой  ni попадания данных в i-й частичный интервал

называют количество данных, лежащих  в этом интервале.

Относительной частотой *i попадания данных в i-й частичный интервал

называют отношение абсолютной частоты к общему количеству данных (к объему выборки):    

*i = ni / *

Плотностью  *i эмпирического распределения данных в i-м частичном

интервале называют отношение относительной частоты к ширине интервала:

*i = *i / ℎi = ni / *ℎi

 

Группировка сопровождается частичной потерей информации, но, тем не менее, процедура группировки  применяется на практике. Почему?

Процедура группировки  применима  при анализе практически любых  данных вне зависимости от её природы  и типа, поэтому эту систему обработки данных часто применяют на практике. Для того, существуют правила округления интервалов:

 

  • Если интервал имеет один знак ДО запятой, то полученное значение округляется до десятых (0,88 = 0,9; 8,715 = 8,7)
  • Если величина интервала имеет два знака ДО запятой, то полученное значение округляется до целых (11,11 = 11; 29,98 = 30)
  • Если интервал трех, четырех и более значимое число, то интервал принимают кратным 50 или 100

Интервалы бывают открытые и закрытые. Закрытым считается интервал, в котором есть и нижняя и верхняя  границы, в противном случае интервал считается открытым. При решении  задач неизвестную границу открытого  интервала определяют по величине смежного с ним интервала.

На практике иногда приходится пользоваться уже имеющимися группировками, которые могут быть несопоставимы  из-за неодинаковых границ интервалов или различного количества выделяемых групп. Для приведения таких группировок  к сопоставимому виду используется метод вторичной группировки.

Вторичная группировка заключается в образовании новых групп на основе ранее произведенной группировки.

Во вторичной группировке  применяются два способа образования  новых групп:

  • Первый способ состоит в укреплении первоначальных интервалов. Это наиболее простой и распространенный способ вторичной группировки.
  • Второй способ называется методом долевой перегруппировки и состоит в том, что за каждой группой закрепляется определенная доля единиц совокупности.

 

Что можно приблизительно оценить, используя гистограмму  плотности эмпирического распределения  данных?

По гистограмме или  полигону можно примерно определить вероятность того, что

случайная величина примет значение из некоторого интервала; эта  вероятность

определяется как часть  площади гистограммы, опирающаяся  на данный интервал;

например, вероятность попадания  в интервал [404,536] равна 0,373

При больших n площадь прямоугольника или относительная частота

(которая равна доле  попавших в соответствующий интервал  измерений) гистограммы

приближается к вероятности  попадания измерения в соответствующий  интервал

возможных значений; например, вероятность того, что значение случайной  величины

Среднегодовое количество осадков  окажется больше 536 но меньше 602,

приблизительно равна 0,25; поэтому полигон называют эмпирической плотностью

распределения вероятностей или эмпирическим распределением случайной  величины.

В математической статистике доказывается, что гистограмма и полигон  относительных частот являются состоятельными оценками плотности распределения, а полигон накопленных относительных частот (или эмпирическая функция распределения) – состоятельной оценкой истинной функции распределения генеральной совокупности.

При этом, чем больше объем выборки, тем мельче можно взять интервалы разбиения и тем точнее гистограмма и эмпирическая функция распределения будут аппроксимировать соответствующие теоретические распределения.

Какими свойствами обладают выборочные оценки математического  ожидания, дисперсии и среднеквадратичного отклонения?

 

Поскольку точечные оценки —  случайные величины,  то они также подчиняются не-

которым законам распределения. Поэтому при нахождении оценок встает задача выбора метода статистической обработки,  дающего наилучшую оценку параметров искомого распределения. Точечная оценка, полученная по экспериментальным данным,  считается в статистическом смысле наилучшей,  если она является состоятельной,  несмещенной и эффективной.

Оценку обозначают той же буквой, что и оцениваемую величину, но

с волнистой чертой сверху (тильдой).

Оценка  называется состоятельной, если при увеличении числа наблюдений она стремится по вероятности к истинному значению оцениваемой величины A

 

        (x1, x2,…..xn) ⎯⎯⎯→∞

                                           n-->∞

Сходимость по вероятности означает, что вероятность отличия  от A на любое конечное число ε, стремится к нулю при n → ∞. То есть для состоятельной оценки ее дисперсия стремится к нулю при увеличении объема выборки.

Несмещенной называется оценка,  математическое ожидание которой

равно оцениваемой величине, то есть для несмещенной оценки при любом

n должно выполняться условие:

 

M {   (x1, x2,…..xn) }= A

 

Эффективной считают ту из нескольких возможных несмещенных оценок, которая имеет наименьшую дисперсию. На практике не всегда удается удовлетворить одновременно всем этим требованиям.  В таком случае выбору оценки должен предшествовать ее

критический анализ со всех перечисленных точек зрения. Например,  требование несмещенности не всегда целесообразно.  Оценка с небольшим смещением и малой дисперсией может оказаться предпочтительнее несмещенной оценки с большой дисперсией.

Для определения оценок применяются два основных метода:  метод моментов и метод максимального правдоподобия. При использовании метода моментов необязательно знать вид распределения случайной величины. Если предполагаемый закон распределения зависит только от двух параметров  (например,  нормальный или равномерный законы),  то

достаточно оценить два первых момента распределения. За оценку истинного значения измеряемой физической величины принимают оценку первого начального момента (математического ожидания), а в качестве характеристики рассеивания результатов измерений —  оценку второго центрального момента (дисперсии). При необходимости более подробного описания особенностей распределения случайных погрешностей можно28

использовать моменты более  высоких порядков. Так, третий центральный

момент характеризует асимметрию распределения.

Метод максимального правдоподобия требует предварительного предположения о виде закона распределения при некоторых неизвестных параметрах, входящих в аналитическое выражение этого закона. В качестве оценки неизвестных параметров по выборке принимаются такие их значения,  которые максимизируют функцию правдоподобия,  представляющую собой вероятность наблюдения именно данной выборки. Простейшим

вариантом метода максимального правдоподобия является оценивание по методу наименьших квадратов.

В методе моментов точечная оценка математического ожидания результата измерения,  которая принимается за истинное значение измеряемой величины, — среднее арифметическое значение элементов выборки.

При любом законе распределения  среднее арифметическое значение является состоятельной и несмещенной оценкой для генерального среднего. По критерию наименьших квадратов среднее арифметическое значение является и наиболее эффективной оценкой.

Состоятельная и несмещенная точечная оценка дисперсии определяется как среднее арифметическое квадратов отклонений

 

Оценки, полученные на основе группированных и исходных данных, близки. Это служит доводом в пользу применения метода группировки или  в пользу отказа от него?

Да, это действительно служит доводом  для применения метода группировки. На практике экономического и любого другого вида анализа метод группировки используется также часто, как и расчет средней величины. Примеров здесь миллионы. Это и группировка товаров, и классификация химических элементов, растений, стран и т.д. и т.п. Сгруппированные данные встречаются повсеместно, о чем мы даже не задумываемся.

Группировки данных часто бывают элементарными и  интуитивно понятными, а бывают и  весьма проблематичными. К примеру, все товары в гипермаркете можно  разделить по поставщикам. Каждый товар  кто-то поставляет, если, конечно, это  не собственное производство. Вся  совокупность вполне однозначно разбивается  на группы. Далее эти группы можно  анализировать по объемам продаж, оборачиваемости, уровню запасов и  другим показателям. Однако может понадобиться сделать разбивку товаров по уровню оборачиваемости или рентабельности. В этом случае даже сам показатель оборачиваемости или рентабельности можно рассчитать по-разному –  методология здесь не однозначная. Далее товары нужно будет разбить  на группы. При этом четких границ, разделяющих  группы, как правило, не будет, и их придется придумывать или каким-либо образом рассчитывать. Результат  подобной группировки во многом будет  зависеть от опыта и профессионализма аналитика.

Информация о работе Методы анализа и обработки данных