История Изменений
Коммит 1: Исходная версия проекта
Начало работы
В этом коммите мы начинаем работу над проектом, клонируя репозиторий и устанавливая зависимости. Мы также открываем Jupyter notebook, чтобы начать работу с данными.
Установка зависимостей
Чтобы начать работу, нам нужно установить необходимые зависимости. Мы используем команду pip install -r requirements.txt
для установки всех необходимых библиотек и модулей.
Открытие Jupyter notebook
После установки зависимостей мы открываем Jupyter notebook, чтобы начать работу с данными. Мы открываем файл notebooks/Supervised_Learning_Real.ipynb
, чтобы начать анализ данных.
Использованные модели
В этом проекте мы используем три различных модели для анализа данных:
- RandomForestClassifier (Accuracy: 0.87) - эта модель показала высокую точность и стала нашей базовой моделью.
- LogisticRegression (Accuracy: 0.85) - эта модель показала среднюю точность и была использована в качестве сравнения с нашей базовой моделью.
- KNeighborsClassifier (Accuracy: 0.82) - эта модель показала низкую точность и не была использована в качестве основной модели.
Коммит 2: Оптимизация RandomForest
Оптимизация гиперпараметров
В этом коммите мы оптимизируем гиперпараметры модели RandomForestClassifier, чтобы улучшить ее точность. Мы увеличиваем количество деревьев до 200, ограничиваем глубину деревьев и устанавливаем минимальное количество samples для разделения узла.
Результаты оптимизации
После оптимизации гиперпараметров модель RandomForestClassifier показала следующие результаты:
- Accuracy на тренировочной выборке: 0.954 (+8.4% к baseline 0.87)
- Accuracy на тестовой выборке: 0.908 (+3.8% к baseline 0.87)
Ключевые улучшения
Нашими ключевыми улучшениями стали:
- Увеличение количества деревьев до 200 (
n_estimators=200
) - Ограничение глубины деревьев (
max_depth=10
) - Установка минимального числа samples для разделения узла (
min_samples_split=5
)
Модель демонстрирует
Наша модель демонстрирует:
- Высокую точность (90.8% на тестовых данных)
- Умеренный переобучающий эффект (разница 4.6% между train и test accuracy)
- Улучшение на 3.8% по сравнению с baseline-моделью (0.87 → 0.908)
Результаты
Нашими основными результатами стали:
- Луч модель: SVM (0.8891)
- Ключевые факторы снижения активности:
- Уменьшение времени на сайте
- Рост неоплаченных товаров
- Сегменты для персонализации:
- "Премиум-клиенты с падающей активностью"
- "Акционные покупатели"
Коммит 3: Оптимизация SHAP анализа
Анализ важности признаков
В этом коммите мы реализуем анализ важности признаков с помощью SHAP. Мы также добавляем сегментацию клиентов по вероятности снижения активности и совокупной выручке за 3 месяца.
Улучшение визуализации результатов
Наша визуализация результатов была улучшена, чтобы лучше отражать важность признаков и сегментацию клиентов.
Маркетинговые рекомендации
Наша команда маркетинга разработала следующие рекомендации:
- Целевой VIP с риском ухода:
- Эксклюзивные ранние доступы к новинкам за 48 часов до всех
- Персональный менеджер
- Акционные покупатели:
- Персональные купоны на часто покупаемые категории
- Программа лояльности: кэшбэк 5-15% на следующий заказ
- Персонализированные бандлы
Развитие проекта
Вопрос 1: Что такое SHAP анализ?
Ответ
SHAP (SHapley Additive exPlanations) - это метод анализа важности признаков, который позволяет понять, как каждый признак влияет на результат модели. SHAP анализ используется для выявления наиболее важных признаков и их вклада в результат модели.
Вопрос 2: Как работает SHAP анализ?
Ответ
SHAP анализ работает на основе концепции Шаплеевской теоремы, которая гласит, что вклад каждого признака в результат модели можно рассчитать как сумму вкладов каждого признака в результат модели, умноженную на вероятность того, что признак будет включен в модель. SHAP анализ использует эту концепцию для расчета вклада каждого признака в результат модели.
Вопрос 3: Как можно использовать SHAP анализ в маркетинге?
Ответ
SHAP анализ можно использовать в маркетинге для выявления наиболее важных признаков, которые влияют на поведение клиентов. Например, SHAP анализ можно использовать для определения, какие демографические характеристики клиентов наиболее важны для определения их поведения. Это может помочь маркетологам разработать более эффективные кампании и стратегии.
Вопрос 4: Как можно использовать SHAP анализ в бизнесе?
Ответ
SHAP анализ можно использовать в бизнесе для выявления наиболее важных факторов, которые влияют на результаты компании. Например, SHAP анализ можно использовать для определения, какие факторы наиболее важны для определения прибыльности компании. Это может помочь бизнес-аналитикам и руководителям принимать более обоснованные решения.
Вопрос 5: Как можно использовать SHAP анализ в анализе данных?
Ответ
SHAP анализ можно использовать в анализе данных для выявления наиболее важных признаков и их вклада в результат модели. Например, SHAP анализ можно использовать для определения, какие признаки наиболее важны для определения результатов модели. Это может помочь аналитикам и исследователям лучше понять результаты модели и принимать более обоснованные решения.
Вопрос 6: Как можно использовать SHAP анализ в machine learning?
Ответ
SHAP анализ можно использовать в machine learning для выявления наиболее важных признаков и их вклада в результат модели. Например, SHAP анализ можно использовать для определения, какие признаки наиболее важны для определения результатов модели. Это может помочь machine learning-специалистам и исследователям лучше понять результаты модели и более обоснованные решения.
Вопрос 7: Как можно использовать SHAP анализ в бизнес-анализе?
Ответ
SHAP анализ можно использовать в бизнес-анализе для выявления наиболее важных факторов, которые влияют на результаты компании. Например, SHAP анализ можно использовать для определения, какие факторы наиболее важны для определения прибыльности компании. Это может помочь бизнес-аналитикам и руководителям принимать более обоснованные решения.
Вопрос 8: Как можно использовать SHAP анализ в маркетинговом анализе?
Ответ
SHAP анализ можно использовать в маркетинговом анализе для выявления наиболее важных признаков, которые влияют на поведение клиентов. Например, SHAP анализ можно использовать для определения, какие демографические характеристики клиентов наиболее важны для определения их поведения. Это может помочь маркетологам разработать более эффективные кампании и стратегии.
Вопрос 9: Как можно использовать SHAP анализ в анализе поведения клиентов?
Ответ
SHAP анализ можно использовать в анализе поведения клиентов для выявления наиболее важных признаков, которые влияют на поведение клиентов. Например, SHAP анализ можно использовать для определения, какие демографические характеристики клиентов наиболее важны для определения их поведения. Это может помочь маркетологам и бизнес-аналитикам принимать более обоснованные решения.
Вопрос 10: Как можно использовать SHAP анализ в machine learning-анализе?
Ответ
SHAP анализ можно использовать в machine learning-анализе для выявления наиболее важных признаков и их вклада в результат модели. Например, SHAP анализ можно использовать для определения, какие признаки наиболее важны для определения результатов модели. Это может помочь machine learning-специалистам и исследователям лучше понять результаты модели и принимать более обоснованные решения.