Методологічний підхід до прогнозування надходжень з податку на додану вартість

Вступ. Постановка задачі

Для ефективного стабільного соціально-економічного розвитку країни важливим є збільшення надходжень коштів до бюджетів усіх рівнів. І у зв’язку з цим набуває особливої актуальності питання підвищення ефективності формування доходної частини бюджету, яке безпосередньо пов’язано з прогнозуванням бюджетних надходжень та розподілом бюджетних призначень за різними типами податків у розрізі регіонів із урахуванням галузевих особливостей.

В Україні вже були спроби здійснення прогнозування податко­вих надходжень, зокрема, із застосуванням авторегресійної моделі ARIMA [1, 2]. Як зазначалось у працях [2, 3], для використання цієї моделі необхідна наявність щомісячних спостережень за податком, що прогнозується, протягом принаймні 5-6 років. Проте зауважимо, що з огляду на відсутність статистичної однорідності відповідних часових рядів в умовах української економіки перехідного періоду (тим більше протягом такого значного відрізку часу) виключається можливість здійснення адекватного прогнозування на основі екстра­поляційної регресійної моделі. Зазначимо, що навіть у згаданих вище працях, де використовуються моделі ARIMA [1], йдеться про відсутність нормального розподілу серед статистичних даних. Відповідно, застосування подібних підходів є необґрунтованим.

Тому ARIMA або інші регресійні моделі прогнозування у дослід­женні не розглядаються. В роботі зроблено вибір на користь багато­факторного прогнозування. А з метою збільшення статистики запро­поновано аналізувати одночасно багато різних часових рядів надхо­джень податку за різними регіонами України через незначну кількість статистичних даних. Відповідно, у такому разі здійснювати прогнозу­вання часових рядів шляхом їх екстраполяції вже не вдасться.

Для розв’язання задачі прогнозування бюджетних надходжень доцільно використовувати математичний апарат, який не вимагатиме обов’язковості дотримання гіпотези щодо нормального розподілу або статистичної однорідності відповідних випадкових процесів. Отже доречно запропонувати методологічний підхід до розв’язання задачі прогнозування бюджетних надходжень, що буде задовольняти поставленим вище вимогам.

При побудові економіко-математичних моделей у рамках відповідного методологічного підходу здійснюється специфікація моделей відповідно до відібраних факторів. Спочатку побудуємо кількісну економетричну модель прогнозування податкових надходжень регресійного типу, що базується на статистичних характеристиках випадкових величин пояснюючих змінних. Це доречно здійснити з метою отримання можливості порівняння якості прогнозування із більш складними моделями (хоча вище і було обґрунтовано проблематичність застосування моделей такого типу). А далі здійснимо побудову нелінійних моделей прогнозування надходжень за різними типами податків, що не вимагатимуть дотримання випадковими величинами пояснюючих змінних гіпотези щодо нормального розподілу та будуть ґрунтуватись на методах теорій нейронних мереж та нечіткої логіки. Тобто, паралельно будуть побудовано три типи моделей – регресійна, нейромережева та нечітка.

Після тестування розроблених моделей, вибору найбільш адекват­ної моделі та проведення додаткових узгоджень її можна буде взяти за базову для прогнозування податкових надходжень. Викладемо методо­логічний підхід, побудуємо відповідні економіко-математичні моделі та проведемо порівняльний аналіз їх ефективності на прикладі статис­тичних рядів надходжень податку на додану вартість у розрізі регіонів.

Формування переліку факторів впливу для моделювання надходжень ПДВ

Проведений аналіз динаміки надходжень податку на додану вар­тість, а також теоретичне узагальнення власного досвіду та наукових праць дослідників у цій галузі дозволили дійти висновку щодо важли­вості врахування при прогнозуванні надходжень податку на додану вартість таких показників: надходження ПДВ у попередньому періоді; втрати від надання податкових пільг; сума податкових зобов'язань з ПДВ; сума податкового кредиту з ПДВ; сума ПДВ, що підлягає відшкодуванню; відшкодування ПДВ; валова додана вартість; обсяг експорту; обсяг імпорту; ВВП; переплата ПДВ. Проте, це є первин­ним переліком факторів впливу, який у процесі побудови економіко-математичних моделей зазнає певних змін. Крім того, значення самих показників будуть проходити певну первинну обробку перед їх поданням на входи моделей прогнозування. Зокрема, важливим є перехід від абсолютних значень цих показників до відносних.

Крім того суттєва проблема прогнозування пов’язана з тим, що на момент прогнозу значення пояснюючих змінних ще невідомі (прогноз здійснюється у кінці поточного року на рік вперед). Можна лише застосовувати дані за попередні роки. Причому, наявна статистика є зовсім нерепрезентативною (це при тому, що дані офіційно були під­готовлені та передані для розрахунків ДПА України та Держаналіт­інформом). Статистика представлена для різних факторів у різних роках (часто не більше двох років спостережень). Для деяких показ­ників є дані помісячні, для деяких – поквартальні, деяких – щорічні. Оскільки статистика подана нерівномірно, то з метою побудови моделей виникає необхідність початкової обробки вхідних факторів.

Вирішенням проблеми браку статистики є об'єднання даних по надходженням ПДВ з усіх областей, звісно, перевівши їх у відносну форму. Таким чином ми втрачаємо чітку прив’язку до особливостей функціонування кожного окремого регіону, але зможемо виявити загальні тенденції впливу пояснюючих факторів на зміни податкових надходжень. І на основі цієї узагальненої моделі, в якій буде врахована одразу специфіка кожної територіальної одиниці країни, зможемо здійснювати прогнозування надходжень податку на додану вартість як для України в цілому, так і за регіонами.

Обґрунтування вибору критерію перевірки адекватності економіко-математичної моделі прогнозування

Оцінку адекватності моделей прогнозування можна здійснювати кількома способами. Одним з найбільш поширених та достовірних підходів є перевірка точності прогнозування із застосуванням різних критеріїв ефективності, наприклад, середньоквадратичної помилки прогнозу, що дозволяє визначити ступінь розкиду прогнозованих оцінок від реальних значень фінансового показника:

, (1)

де n – кількість елементів часового ряду, на які робиться прогноз;

 – прогнозоване та реальне значення i-го елементу часового ряду.

Проте, один лише показник середньоквадратичної помилки (1) несе небагато інформативності про якість прогнозу, оскільки для стійких часових рядів прогноз робити набагато легше, ніж для показ­ників із сильно коливним курсом. Тому при оцінюванні якості про­гнозу важливо враховувати інтенсивність коливання аналізованого показника на визначеному відрізку часу. Для того, щоб можна було порівнювати якість прогнозу за різноманітними методиками для різ­них часових рядів, варто використовувати показник нормалізованої середньоквадратичної помилки, що являє собою відношення серед­ньоквадратичної помилки (1) до середньоквадратичного відхилення значень випадкової величини прогнозованого показника відносно свого математичного сподівання на прогнозованому інтервалі часу:

, (2)

де E(∙) – математичне сподівання.

Подібним чином можна здійснювати порівняльний аналіз точності прогнозування на основі різних підходів. Перевірку адекватності лінійних моделей можна також здійснювати шляхом оцінки можливості відтворення вихідної змінної на основі відповідних значень вхідних змінних із застосуванням F-критерію Фішера чи коефіцієнту детермінації R2.

Оцінка значимості регресійних моделей прогнозування із різними наборами пояснюючих змінних

У проведеному дослідженні було побудовано значну кількість економетричних моделей прогнозування надходжень ПДВ, які ґрун­тувались на різних множинах пояснюючих змінних, та, відповідно, зважаючи на брак статистичної інформації, налаштовувались на да­них щодо цих змінних за різними роками. Тобто, для деяких моделей брались статистичні дані лише за 2006 рік (для тих пояснюючих змінних, для яких була наявна статистика за 2006 рік), відтворюючи при цьому надходження ПДВ у відповідних кварталах 2007 року. Деякі моделі будувались на статистиці за 2004-2005 рр., прогнозуючи надходження ПДВ у 2005-2006 рр., відповідно. Також було побудо­вано економіко-математичні моделі і на інших часових інтервалах.

Усі побудовані економетричні моделі показали коефіцієнт детермінації на рівні до 0,15 та відповідні низькі значення F-критерію (які значно нижчі за відповідні табличні значення), що вказує на їх недостатню придатність для прогнозування надходжень податку на додану вартість. Нормалізована середньоквадратична помилка прогнозу для цих моделей була у межах від 0,9 до 1,0. Такі значення нормалізованої середньоквадратичної помилки прогнозу (2) вказують на те, що середньоквадратична помилка прогнозу (1) близька до середньоквадратичного відхилення часового ряду, а прогноз, відповідно, є ненабагато кращим за звичайне середнє арифметичне.

У результаті проведеного порівняльного аналізу точності відтворення надходжень ПДВ на основі низки пояснюючих змінних попередніх періодів було відібрано економіко-математичні моделі, що будувались на основі статистики за роками з 2002 по 2005 для показників "Надходження ПДВ", "Втрати від надання податкових пільг", "Валова додана вартість", "Обсяг експорту", "Обсяг імпорту" та "Переплата". На рис. 1 показано відтворення відносних змін надходжень ПДВ за регіонами по першому кварталу із застосуванням відповідної економетричної моделі на основі вказаних показників.

Рис. 1. Відтворення відносних змін надходжень ПДВ по першому кварталу із застосуванням лінійної моделі

З рис. 1 видно, наскільки сильно прогноз надходжень ПДВ, отри­маний на підґрунті регресійних моделей, розходиться із реальними даними. Подібна ситуація з прогнозування, як зображено на рис. 1, спостерігається і для інших кварталів. Практично всі побудовані економетричні моделі виявились нездатними відтворювати надходження ПДВ на підґрунті значень низки різних показників попереднього періоду. І пояснити це можна низькою залежністю вихідної змінної "Надходження ПДВ" від змін інформативних факторів. Високі коефіцієнти кореляції між вхідними та вихідною змінними з'являються лише у абсолютних величинах, що пояснюється загальною тенденцією зростання усіх фінансових та економічних показників, пов'язаною із загальним розвитком економіки країни та супутніми інфляційними процесами. Відповідно, можливість моделювання податкових надходжень із застосуванням класичного економетричного інструментарію викликає значні сумніви.

Спробуємо здійснити відтворення надходжень ПДВ із застосуванням економіко-математичних моделей, побудованих на підґрунті методів нейронних мереж на цій же статистиці та з відібраними до регресійних моделей пояснюючими змінними. Формування цих моделей зводиться до вибору оптимальної конфігурації нейронних мереж, визначення кількості внутрішніх шарів мереж та нейронів у цих шарах.

Побудова економіко-математичних моделей прогнозування надходжень ПДВ на нейронних мережах

Налаштування параметрів економіко-математичних моделей на нейронних мережах будемо здійснювати на базі тих пояснюючих змінних, за якими будувались останні економетричні моделі, оскільки для них є найбільш повна статистика за всіма регіонами. Обсяг на­вчальної вибірки особливо важливий для коректності налаштування нейронної мережі, щоб уникнути ефекту перенавчання (сутність чого розкрито, зокрема, у роботі [4]).

Перша побудована модель на основі інструментарію нейронних мереж мала таку конфігурацію: повнозв'язна нейронна мережа типу багатошаровий персептрон з одним внутрішнім шаром, що складався з трьох нейронів; перший шар складається з шести нейронів за кількістю вхідних змінних моделі та один нейрон вихідного шару. Перша ж побудована нелінійна модель на підґрунті інструментарію нейронних мереж виявила високу точність відтворення вихідної змінної на основі множини вхідних показників. Це підтверджується і значенням нормалізованої середньоквадратичної помилки прогнозу snorm = 0,177, яке вказує на покращення точності прогнозу у (1-0,177)/(1-0,983) = 48,4 рази у порівнянні з лінійною економетрич­ною моделлю, побудованою на цьому ж статистичному матеріалі. Результат відтворення показника "Надходження ПДВ" для першого кварталу із застосуванням цієї моделі можна спостерігати на рис. 2.

Здійснимо тепер відтворення вихідного показника "Надходження ПДВ" із застосуванням нейронних мереж іншої конфігурації. Вже із структурою мережі у три шари, де на внутрішньому було 5 нейронів, модель виявила ефект перенавчання – кількість її внутрішніх параме­трів виявилась більшою за обсяг статистичної вибірки. У результаті налаштування моделі помилка прогнозу прямує до нуля, від­повідно, модель точно відтворює дані з навчальної вибірки. Але для того, щоби уникнути екстремальної поведінки моделей доцільно, щоб обсяг вибірки перевищував кількість її параметрів та модель не точно апроксимувала вихідний часовий ряд, а була деяка незначна похибка навчання. Відповідно, при побудові нейромережевих моделей про­гнозування надходжень ПДВ за кожним кварталом будемо відбирати таку нейронну мережу, що найбільш точно відтворює статистику, але має більш просту структуру та уникає ефекту перенавчання.

Рис. 2. Відтворення відносних змін надходжень ПДВ по першому кварталу із застосуванням нейромережевої моделі

Отримані результати відтворення надходжень ПДВ із застосу­ванням методів нейронних мереж підтверджують високу ефективність даного інструментарію та доцільність його використання для розв'язання задачі прогнозування бюджетних надходжень. Нарешті, після побудови лінійних економетричних та нелінійних нейромережевих моделей, спробуємо перевірити можливість відтворення відносних змін надходжень ПДВ із застосуванням економіко-математичних моделей на нечіткій логіці.

Прогнозування надходжень ПДВ із застосуванням нечітких моделей типу Сугено

Для побудови економіко-математичних моделей прогнозування надходжень ПДВ скористаємось також методом Сугено побудови нечітких моделей, який полягає у автоматичній екстракції правил прийняття рішень з наявної статистики. Зауважимо, що для моделей на нечіткій логіці такого типу також є важливим, як і для нейронних мереж, обсяг навчальної вибірки через необхідність виявлення прихо­ваних закономірностей у вихідних часових рядах, що реалізується в процесі налаштування їх параметрів на наявній статистиці.

Так, навіть за умови побудови моделі типу Сугено з найпрості­шою структурою (коли кожна змінна описується лише двома лінгвіс­тичними термами, функції належності яких мають по два параметри настройки), у випадку шести входів та одного виходу кількість параметрів моделі сягає вже 472. Зазначимо, що обсяг статистичних даних по кожному кварталу не перевищував і 100 значень, що унеможливлює застосування методу Сугено для моделювання надходжень ПДВ на наявній у нас статистичній базі. Відповідно, вже після десяти епох навчання моделі похибка відтворення вихідного часового ряду наближується до нуля, виявляючи ефект перенавчання.

У такому випадку, коли обсяг навчальної вибірки є незначним, залишається або скористатись нейронною мережею із максимально спрощеною структурою, або застосувати економіко-математичні моделі на нечіткій логіці типу Мамдані. І у випадку, коли серед пояснюючих змінних є якісні показники, або за необхідності врахування експертно встановлених правил прийняття рішень, підхід Мамдані до побудови моделей аналізу та прогнозування розвитку економічних систем є найбільш прийнятним. З подібним підходом можна ознайомитись, зокрема, в роботі [5].

Нагадаємо, що нечіткі моделі типу Мамдані здатні працювати навіть без налаштування на реальних даних – лише базуючись на закладених в них наборах логічних правил та експертно встановлених параметрах функцій належності. Ці моделі володіють усім набором переваг, властивих нейронним мережам, та на відміну до всіх інших методів здатні поєднувати можливість налаштування своїх параметрів на реальних даних із урахуванням при проведенні аналізу як кількіс­них, так і якісних факторів впливу на обсяги податкових надходжень.

Література

Скрипник А. В. Моделювання податкової політики у трансфор­маційній економіці: Дис... докт. екон. наук: 08.03.02.– К., 2004.– 421 с.

Скрипник А. В., Терещенко Л. А. Динаміка податкових надхо­джень та їх прогноз за допомогою моделі ARIMA // Моделювання та інформаційні системи в економіці.– К.: КНЕУ, 2001.– Вип. 66.– С. 7-12.

Ситник В. Ф. Інформаційні системи в економіці та бізнесі: сучасний стан і перспективи // Моделювання та інформаційні системи в економіці.– К.: КНЕУ, 2000.– Вип. 64.– С. 5-19.

Матвійчук А. В. Виявлення і запобігання ефекту перенавчання нейронної мережі // Збірник наукових праць Черкаського державного технологічного університету. Серія: Економічні науки.– 2002.– Випуск 3.– С. 124-131.

Матвійчук А. В. Прогнозування розвитку фінансових показників із використанням апарату нечіткої логіки // Фінанси України.– 2006.– № 1.– С. 107-115.