МІНІСТЕРСТВО ОСВІТИ ТА НАУКИ,МОЛОДІ ТА СПОРТУ УКРАЇНИ
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА”
Графічно-розрахункова робота
на тему:
«Попереднє тестування»
з курсу
“ Інтелектуальний анаіз даних. ”
Виконала
Студентка групи КН-33
Нарушинська О.О.
Прийняв
Стех Ю.В.
Львів 2013
Зміст
Вступ. 3
Постановка завдання. 4
Основний результат. 5
Pretest-оцінка. 6
WALS-оцінка. 7
Теорема еквівалентності 8
Попереднє тестування і ефект «заниження». 9
Прогнозування і попереднє тестування. 11
Висновки. 13
Вступ
Зазвичай, в економетричних дослідженнях дані не є результатом експерименту, тому ми змушені використовувати одні й ті ж дані як для вибору моделі, так і для оцінки параметрів обраної моделі. Ця обставина впливає на властивості отриманих оцінок. Зрештою все, чим займаються в економетриці , неправильно, але це не є проблемою. Проблема виникає тоді,коли ці неточності мають значний вплив.
Якщо параметри моделі оцінюються тим самим набором даних де відбувався вибір моделі, тобто після попереднього тестування, то такі оцінки називають pretest-оцінками(оцінками, отриманими після попереднього тестування).
Проблема в тому, що зазвичай, описуючи властивості отриманої оцінки, ми вважаємо, що не було попереднього відбору моделі. У результаті (помилково) вважаємо оцінку незміщеною і користуємося неправильною оцінкою її дисперсії, оскільки застосовувані нами формули для середнього та дисперсії вірні тільки умовно.
Таким чином, нашим завданням є знаходження безумовних моментів pretest-оцінки, беручи до уваги те, що процедури вибору моделі і оцінки параметрів інтегровані в одну процедуру. Ми не стверджуємо, що слід уникати попереднього тестування, хоча добре відомо, що pretest-оцінки володіють поганими статистичними властивостями, одна з яких - рівномірна неефективність. На практиці уникнути попереднього тестування майже неможливо. Наша точка зору полягає в тому, що слід обчислювати коректно зсув і дисперсію (або середньоквадратичне відхилення) оцінки, повністю беручи до уваги те, що оцінювання та відбір моделі інтегровані в одну процедуру.
Постановка завдання
В подальшому, буде розглядатися лінійна модель множинної регресії
(1)
Де у – (n×1) вектор спостережень залежної змінної, X, Z- матриці невідомих параметрів розмірами (n×k), (n×m), ɛ-( n×1)вектор помилок, β і γ – вектори невідомих(невипадкових) параметрів розмірами(k×1),( m×1). Ми припускаємо, що блочна матриця
має повний ранг k+m, і помилки є незалежними нормальними однаково розподіленими випадковими величинами:
Введемо наступне позначення:
(2)
Тут ɳ - нормований вектор параметрів, а матриця Q- може бути представлена як (нормована) матриця кореляцій між X та Z. Очевидно, Q=0тільки тоді , коли Z ортогональна X. МНК-оцінки параметрів β і γ можна представити у вигляді
і
де
,
Індекси u та r означають «без обмежень» і «з обмеженнями». Нехай
, тоді відмітимо, що випадковий вектор
є тільки тоді, коли дисперсія помилки відома, а вектор
присутній завжди.
Основний результат
Ми часто будемо використовувати наступний результат, що стосується методу найменших квадратів. Нехай
матриця рангу
, така що , , бо виходить з останньої перестановки стовпців. Тоді рівняння
означає, що кілька компонент вектора γ дорівнюють нулю. Справедлива наступна теорема:
Теорема 14.1. МНК-оцінка параметрів β і γ в лінійній моделі (1) при обмеженні
має вигляд
де
є симетричними ідемпотентними m×m матрицями рангів
відповідно. (Рі = 0 в тому випадку, якщо ri = 0) Вектор залишків має вигляд
де
є симетричною ідемпотентною матрицею, рангу (n-k-m+ri). Оцінка має нормальний розподіл
а величина має нецентральний X2-розподіл
Pretest-оцінка
Розглянемо найпростіший випадок, коли у нас є тільки один допоміжний регресор, тобто m= 1. Ми можемо вибирати між двома моделями: моделлю з обмеженням (γ = 0) і моделлю без обмеження. У тому випадку, якщо ми вибираємо модель з обмеженням, ми отримуємо оцінку параметра рівну
Якщо ми вибираємо модель без обмеження, то отримуємо оцінку
. Зазвичай ми використовуємо t-статистику коефіцієнта γ для того, щоб зробити вибір між цими двома моделями. Таким чином, оцінка параметра β має наступний вигляд:
для деякого порогового значення с>= 0. Наприклад, с = 1.96 і с = 2.58 відповідають 5%-ому і 1%-ому рівнях значущості (для нормального розподілу; для розподілу Стьюдента значення с дещо вище). Підкреслимо, що оцінка
не збігається з оцінками або , але рівна тій чи іншій залежно від критерію, основаного на значенні випадкової величини t. Наведемо інший спосіб запису оцінки:
де
Таким чином, оцінка є зваженим середнім оцінок
з випадковою вагою λ.
У разі m = 2 у нас є чотири моделі: модель з обмеженням (γ1=γ2 = 0), дві моделі з частковими обмеженнями ( або ) і модель без обмежень
. У загальному випадку маємо 2m різних моделей, по одній для кожної підмножини параметрів γ1, ... , γm . (Мається на увазі, що параметри з підмножини прирівняні до 0) Рretest- оцінка вектора параметрів β виходить в результаті 1) вибору однієї з цих моделей (на основі t- чи F- тестів або інших критеріїв вибору моделі) 2) оцінювання β по обраної моделі.
Ми припустимо, що критерій вибору моделі залежить від у тільки через Му, залишки в моделі з обмеженнями. Ця умова виконана у всіх стандартних процедурах відбору моделей. (Зауважимо, що залишки в i-q моделі завжди виражаються як для деякої ідемпотентної матриці-
.) Це припущення приводить до істотних спрощень.
WALS-оцінка
Поняття pretest-оцінки допускає природне і, як буде показано нижче, корисне узагальнення. Як і раніше, розглянемо спочатку випадок m=1. Запишемо оцінку у вигляді , але тепер нехай λ є гладкою зростаючою функцією. Це виглядає розумним підходом і дозволяє нам довільно вибирати рівень значущості. У загальному випадку WALS-оцінка параметра визначається як:
де сума береться по всіх моделях, отриманих при прирівнювання декількох коефіцієнтів γ до нуля.
Ми припускаємо, що вагові коефіцієнти λі задовольняють умовb:
WALS-оцінка тоді може бути записана в наступному вигляді:
де
Зауважимо, що хоча матриці Pi , Wi невипадкові, однак матриці P,W випадкові, оскільки {λi} є випадковими величинами.
Очевидно, що pretest-оцінка є окремим випадком WALS-оцінки, коли всі λi рівні 0, за винятком одного, рівного 1.
Теорема еквівалентності
У тому випадку, коли дисперсія σ2 відома, будь-яка процедура попереднього тестування використовує t і F- статистики, які залежать тільки від Ѳ. У разі, коли σ2 не відома, можна отримати її оцінку Su2 (оцінка, заснована на МНК- оцінках регресії без обмеження). У цьому останньому випадку всі t - і F-статистики залежать від . Нарешті, в тому випадку, якщо дисперсія σ2 не відома і береться її оцінка S(i)2 по регресії з (частковим) обмеженням, відповідним матриці обмежень Si, t- й F- статистики залежать не тільки від . Однак вони як і раніше залежать тільки від Му.
Теорема 14.2. (Теорема еквівалентності).
Важливість цієї теореми полягає в тому, що якщо ми знайдемо λ і такі, що Wɳ буде оптимальною оцінкою ɳ, то такі самі λ і дадуть оптимальну WALS-оцінку вектора параметрів β. Проблема оцінювання вектора параметрів β в контексті регресії зводиться, таким чином, до задачі оцінювання вектора ɳ по єдиному вектору спостережень
Попереднє тестування і ефект «заниження»
У рамках стандартної лінійної моделі , з нормальними помилками
ми визначаємо процедуру попереднього тестування як двох крокову процедуру. На першому кроці відбувається вибір моделі. На другому кроці ми оцінюємо невідомі параметри β і σ2 обраної моделі. Така процедура породжує pretest-оцінку β(і S2). Для процедури попереднього тестування всі вагові коефіцієнти λі рівні 0, крім одного, рівного 1. Як і в теоремі 14.2, ми накладаємо умову, що відбір моделі залежить від у тільки через Му, крім того, надалі ми будемо припускати, що параметр σ2 відомий.
Матриця середньоквадратичних відхилень оцінки β згідно теоремі 14.2 дорівнює
тут W=Wi якщо вибрана i-а модель. Зауважимо, що матриця
випадкова, оскільки матриця W випадкова. Для того, щоб порівняти середньоквадратичне відхи-ня оцінки
(3)
з відповідним значенням, отриманим при ігноруванні процедури попереднього тестування
(4)
визначимо коефіцієнт заниження «істинного» МSЕ по відншенню до «інформаційного» МSЕ UR, як 1 мінус відношення (4) і (3). А саме:
(5)
де Зауважимо, що q"q = 1. Величина UR є випадковою, оскільки вона залежить від матриці W, яка залежить від ɳ. Як UR, так і її математичне сподівання не спостережувані, оскільки вони залежать від ɳ через R(ɳ).
Математичне сподівання Е (UR) є функцією величин q (з нормування q"q= 1), q 02, ɳ, Z’MZ (і m). Максимізація по q призводить до нерівності
Вводячи наступне позначення:
(7)
Отриманий вираз залежить від ɳ, Z’MZ (і m) . З (7) видно, що очікуване значення UR може бути як завгодно близько до 1, якщо матриця середньоквадратичних відхилень R не обмежена по ɳ. Це не може статися при m= 1 (крім випадку, коли ми завжди вибираємо модель з обмеженням, не звертаємо уваги на отримані значення t- статистик), але можливо при m >=2.
Оскільки Е (UR) залежить від ɳ, Z’MZ (і m), розглянемо коротко роль цієї матриці. Без шкоди спільності можна нормувати всі змінні zj так, що zj "M zj = 1 для всіх j= 1, ...m. Розглянемо окремий випадок, коли ми вибираємо «ортогональні» змінні zj. Тоді Z"МZ =Im , що приводить до суттєвих спрощень.
Теорема 14.3. Нехай λ(х) = 1 якщо х > с, інакше λ (х) = 0, для деякого с>0. Для окремого випадку, коли Z"МZ=Im і параметр σ2 відомий, маємо:
(А)Усі моделі, що включають регрессор zj , мають однакові значення t-статистики для γj.
(Б) Припустимо, що ми включаємо zj тоді і тільки тоді,коли t-статистика
значима, тобто , для деякого с> 0. Тоді матриця W- діагональна, з елементами
де V - діагональна mxm матриця, а d, - тx1 вектор з елементами відповідно
Оскільки процедура відбору моделі може вплинути на оцінки параметрів, які нас цікавлять, то бажано вибрати допоміжні регресори так, що Z"МZ =Im. У більшості випадків такий вибір дозволяє не тільки зробити pretest-оцінку незалежної від процедури вибору моделі, але також отримати точні аналітичні вирази для моментів оцінок і гарантувати обмеженість середньоквадратичного відхилення оцінок при m=1
Прогнозування і попереднє тестування
Розглянемо, наприклад, стандартну лінійну модель множинної регресії:
у = Xβ+γz+ɛ
Припустимо, що дані породжені моделлю (1), можливо, в ній кілька компонент вектора γ дорівнюють 0. При обмеженні S’I γ= 0 прогноз, заснований на МНК-оцінках , має вигляд
де
а xn+1 i zn+1 позначають набір значень основних та допоміжних регрессоров, для якого ми шукаємо прогнозоване значення. WLAS-прогноз має вигляд
(8)
Зауважимо, що вектор і, таким чином спостерігається, але тим не менше ун+1 залежить від σ.
Оскільки , помилка прогнозу (FЕ) дорівнює
Теорема 14.4 (теорема еквівалентності для прогнозу).
Математичне сподівання, дисперсія та середньоквадратичне відхилення WALS-прогнозу дорівнюють
Теорема 14.4 наводить істинні значення моментів помилки прогнозу, враховуючи, що була проведена процедура попереднього тестування. Але у прикладних роботах попереднє тестування не береться до уваги. У роботах вважається, що прогноз незміщений, і наводиться матриця середньо квадратичних відхилень .
відповідно, наводиться наступний 95%-вий довірчий інтервал для ун +1
(9)
де замість σ використовується деяка заможна оцінка σ^. Якщо ж правильно враховувати ефект процедури вибору моделі, то ми отримуємо те ж саме значення прогнозу ун +1, але зовсім інші моменти. Визначимо дві функції наступним чином:
Кожна з функцій залежить також і від σ, оскільки W залежить від σ. Тоді за теоремою 14.4 отримуємо
Звідси 95%-ний довірчий інтервал для ун++1 наближено дорівнює
(10)
Інтервал наближений, оскільки розподіл FЕ не є нормальним (проте воно є асимптотично нормальним, що і дозволяє зробити це наближення). Крім того, на відміну від (9) довірчий інтервал залежить від невідомих параметрів ɳ і σ.
Коли число спостережень n стає великим, σ^ сходиться до σ, проте ɳ^ не сходиться до ɳ, оскільки . Таким чином, оцінка ɳ^ незміщена. Для того, щоб застрахуватися від «великих» відхилень ɳ^ від ɳ , можна розглянути більш широкий інтервал.
Висновки
Тепер можна відповісти на деякі запитання. По-перше, чи має великий вплив ігнорування процедури попереднього тестування? Вплив може бути дуже значним і залежить від вибраної процедури попереднього тестування. По-друге, чи можна щось зробити з цією проблемою? Так, багато методів що ми розглядали можуть бути запроваджені на практиці. Це не означає, що ми не користуватимемося процедурами попереднього відбору моделей. Ми повинні правильно брати до уваги ефект процедури попереднього тестування. По-третє, чи існує альтернатива pretest-оцінці? Так, наведені теореми можна застосовувати до WALS-оцінки.
Список використаних джерел
1)
2) Ян Р. Магнус, П.К. Катишев, А.А Пересецький «Економетрика»(2004). Навчальний курс: пос.-6-е видання. – М.: Дело, 2004-576 с.