
Компанія IBM випустила оновлену версію свого флагманського продукту для статистичного аналізу – IBM SPSS Statistics 31. Новий реліз пропонує бізнес-користувачам та аналітикам розширений набір інструментів, що дозволяють глибше проникати в суть даних, виявляти неочевидні зв’язки та будувати точніші прогнозні моделі. Оновлення зосереджено на додаванні нових процедур, які відповідають сучасним вимогам до аналізу складних даних, та на підвищенні зручності роботи з програмним забезпеченням.
Ключові нововведення IBM SPSS включають потужні алгоритми, такі як Proximity Mapping (PROXMAP) для візуалізації ринкових позицій, Time Series Filtering для очищення даних від шуму та виділення трендів, Distance Correlation для виявлення нелінійних залежностей, Conditional Inference Trees для побудови стабільних дерев рішень, а також процедуру STATS Earth для гнучкого предиктивного моделювання. Окрім цього, впроваджено функцію Curated Help, що спрощує інтерпретацію результатів аналізу.
Proximity Mapping (PROXMAP): Візуалізація конкурентного середовища
Одним із найцікавіших доповнень у IBM SPSS Statistics 31 є процедура Proximity Mapping (PROXMAP). Цей метод, що є розвитком багатовимірного шкалювання (MDS), дозволяє візуалізувати відносини між об’єктами (наприклад, товарами, брендами, сегментами клієнтів) у вигляді просторової карти. На відміну від попередніх інструментів, PROXMAP може працювати з різними джерелами даних про “близькість” або “схожість” об’єктів і враховувати додаткові змінні, що описують їхні атрибути.
Для бізнесу це відкриває широкі можливості. Маркетологи можуть створювати карти сприйняття, щоб побачити, як споживачі порівнюють їхній бренд з конкурентами за такими параметрами, як ціна, якість, інноваційність та рівень сервісу. Це допомагає ідентифікувати вільні ринкові ніші, оцінити ефективність рекламних кампаній та прийняти обґрунтовані рішення щодо репозиціонування продукту.
Практичне застосування:
Аналіз ринку: Роздрібна мережа може проаналізувати, як покупці сприймають різні торгові марки кави. Карта PROXMAP може показати, що одні бренди асоціюються з високою ціною та преміальною якістю, інші – з доступністю та сімейним споживанням, а треті – з інноваційними смаками. Це дозволить оптимізувати асортимент та стратегію просування для кожної групи товарів.
Сегментація клієнтів: Банк може візуалізувати сегменти своїх клієнтів на основі їхньої поведінки: частоти транзакцій, використання різних продуктів (кредити, депозити, інвестиції) та рівня ризику. Це допоможе розробити цільові пропозиції для кожної групи та підвищити їхню лояльність.
Time Series Filtering: Очищення сигналу від шуму для точних прогнозів
Робота з даними часових рядів, такими як щоденні продажі, обсяги виробництва або коливання цін на акції, часто ускладнюється через наявність “шуму” – випадкових коливань, що маскують основні тенденції та цикли. У IBM SPSS Statistics 31 з’явилися нові інструменти для фільтрації часових рядів, які допомагають вирішити цю проблему.
Нова процедура включає три потужні фільтри:
- Фільтр Ходріка-Прескотта (HP): Дозволяє розділити часовий ряд на дві компоненти: довгостроковий тренд та циклічну складову. Це ідеальний інструмент для аналізу бізнес-циклів та макроекономічних показників.
- Фільтр Бакстера-Кінга (BK): Є смуговим фільтром, який виділяє коливання певної періодичності, що відповідають бізнес-циклам (наприклад, від 1.5 до 8 років), ігноруючи короткострокові та дуже довгострокові коливання.
- Фільтр Крістіано-Фіцджеральда (CF): Асиметричний фільтр, який також добре підходить для виділення циклічної компоненти в режимі реального часу, оскільки він ефективний навіть на кінцях часового ряду.
Практичне застосування:
Прогнозування попиту: Виробнича компанія може використовувати фільтри для очищення даних про щомісячні продажі від випадкових сплесків та падінь. Це дозволить побачити реальний сезонний попит та довгостроковий тренд зростання, що є критично важливим для планування запасів та виробничих потужностей.
Фінансовий аналіз: Інвестиційний аналітик може застосувати фільтр Бакстера-Кінга до динаміки ВВП або індексів фондового ринку, щоб ідентифікувати фази економічного циклу (зростання, пік, спад, дно) та приймати більш зважені інвестиційні рішення.
Distance Correlation: Пошук прихованих нелінійних зв’язків
Класичний коефіцієнт кореляції Пірсона ефективний лише для виявлення лінійних зв’язків між змінними. Однак у реальному світі бізнесу залежності часто є складнішими. Наприклад, підвищення витрат на рекламу може спочатку давати стрімке зростання продажів, а потім ефект сповільнюється (U-подібна залежність).
Нова функція Distance Correlation (кореляція відстаней) у IBM SPSS Statistics 31 є потужним інструментом, який здатний виявляти будь-які типи залежностей між двома змінними, включно з нелінійними та складними. Значення коефіцієнта варіюється від 0 (повна незалежність) до 1 (ідеальна залежність). Це дозволяє аналітикам знаходити значущі зв’язки там, де традиційні методи показують їх відсутність.
Практичне застосування:
Маркетингова аналітика: Компанія може дослідити зв’язок між задоволеністю клієнтів та їхньою лояльністю. Цей зв’язок рідко буває лінійним. За допомогою Distance Correlation можна виявити порогове значення задоволеності, після якого лояльність починає стрімко зростати.
Управління ризиками: Фінансова установа може аналізувати залежність між різними ринковими факторами (наприклад, ціною нафти та курсом валют), які можуть мати складну нелінійну взаємодію, щоб точніше моделювати потенційні ризики для свого портфеля.
Conditional Inference Trees: Побудова надійних та інтерпретованих моделей
Дерева рішень є популярним інструментом для класифікації та прогнозування. Однак традиційні алгоритми, такі як CHAID або CART, іноді схильні до “перенавчання” (коли модель занадто добре підлаштовується під навчальні дані і погано працює на нових) та можуть віддавати перевагу змінним з великою кількістю можливих значень.
Новий алгоритм Conditional Inference Trees (умовні дерева висновків) використовує інший підхід. Він базується на статистичних тестах значущості (пермутаційних тестах) для вибору змінних на кожному кроці розбиття. Це призводить до побудови більш стабільних та об’єктивних дерев, які краще узагальнюють закономірності в даних.
Практичне застосування:
Прогнозування відтоку клієнтів: Телекомунікаційна компанія може побудувати модель для визначення клієнтів, схильних до розірвання контракту. Умовне дерево висновків покаже найбільш значущі фактори ризику (наприклад, тривалість користування послугами, кількість звернень до служби підтримки, тип тарифного плану) у вигляді простої та зрозумілої ієрархії правил.
Кредитний скоринг: Банк може використовувати цей алгоритм для створення моделі оцінки кредитоспроможності позичальників. Модель буде менш схильною до помилок і забезпечить більш надійну класифікацію клієнтів на “надійних” та “ризикованих”.
STATS Earth: Гнучке моделювання нелінійних залежностей
Процедура STATS Earth реалізує алгоритм Multivariate Adaptive Regression Splines (MARS). Це сучасний метод регресійного аналізу, який автоматично моделює складні нелінійні зв’язки між предикторами та залежною змінною. На відміну від традиційної лінійної регресії, яка описує зв’язок однією прямою лінією, MARS будує модель з кількох відрізків прямих (сплайнів), кожен з яких має свій нахил.
Це дозволяє моделі гнучко “підлаштовуватися” під складну структуру даних, виявляючи точки, де характер залежності змінюється. Алгоритм автоматично відбирає найважливіші змінні та знаходить їх взаємодії.
Практичне застосування:
Прогнозування цін на нерухомість: Агентство нерухомості може побудувати модель, що прогнозує вартість квартири. STATS Earth може виявити, що вплив площі на ціну є нелінійним: наприклад, для маленьких квартир кожен додатковий метр значно підвищує вартість, а для великих – цей ефект слабшає.
Оптимізація виробничих процесів: Інженер на виробництві може моделювати залежність якості продукції від параметрів процесу (температури, тиску). Модель MARS допоможе знайти оптимальні налаштування, навіть якщо залежності є складними і нелінійними.
Curated Help: Інтелектуальний помічник для інтерпретації результатів IBM SPSS
Однією з перешкод для широкого використання статистичних методів у бізнесі є складність інтерпретації результатів. У IBM SPSS Statistics 31 з’явилася функція Curated Help (також відома як Smart Output), яка аналізує таблиці з результатами та надає короткий, зрозумілий висновок.
На даний момент ця функція реалізована для процедур кореляційного аналізу. Після розрахунку кореляційної матриці система автоматично виводить текстове резюме та використовує кольорове кодування в таблиці, виділяючи статистично значущі позитивні та негативні зв’язки. Це значно прискорює аналіз та знижує ризик помилкової інтерпретації для користувачів, які не є професійними статистиками.
Практичне застосування:
Аналіз даних опитувань: Менеджер з персоналу, проаналізувавши результати опитування залученості, може миттєво побачити, які фактори (наприклад, стосунки з керівником, можливості для розвитку) найсильніше корелюють із загальним рівнем задоволеності співробітників, не заглиблюючись у деталі статистичних показників.
Висновок
Реліз IBM SPSS Statistics 31 є логічним кроком у розвитку аналітичних платформ, де акцент зміщується від простої обробки даних до глибокого, багатогранного аналізу та автоматизації інтерпретацій. Впровадження таких інструментів, як PROXMAP, Distance Correlation та STATS Earth, надає бізнесу можливість працювати зі складними нелінійними залежностями, які є нормою в сучасній економіці. Водночас функції Time Series Filtering та Conditional Inference Trees підвищують надійність та точність прогнозних моделей. У сукупності ці оновлення не просто розширюють функціонал програми, а надають аналітикам більш потужний, гнучкий та інтуїтивно зрозумілий інструментарій для прийняття рішень, що базуються на даних.
* Стаття підготовлена за матеріалами “Release notes: IBM® SPSS® Statistics 31”.