Metadata-Version: 2.4
Name: mlprotection
Version: 0.1.3
Summary: Библиотека для обнаружения аномалий и потенциально "отравленных" данных в датасетах
Home-page: https://github.com/ivblz/mlprotection
Author: ivblz
Project-URL: Documentation, https://github.com/ivblz/mlprotection
Requires-Python: >=3.6
Description-Content-Type: text/markdown
Requires-Dist: pandas>=1.3.0
Requires-Dist: numpy>=1.20.0
Requires-Dist: scikit-learn>=1.0.0
Requires-Dist: matplotlib>=3.4.0
Requires-Dist: seaborn>=0.11.0
Dynamic: author
Dynamic: description
Dynamic: description-content-type
Dynamic: home-page
Dynamic: project-url
Dynamic: requires-dist
Dynamic: requires-python
Dynamic: summary

# mlprotection

Библиотека для обнаружения аномалий и потенциально "отравленных" данных в датасетах, предназначенных для обучения моделей машинного обучения.

## Информация о пакете

- Версия: 0.1.3
- Автор: ivblz
- Требования: Python >= 3.6

## Системные требования

- pandas >= 1.3.0
- numpy >= 1.20.0
- scikit-learn >= 1.0.0
- matplotlib >= 3.4.0
- seaborn >= 0.11.0

## Важное замечание

Библиотека `mlprotection` предоставляет инструменты для выявления потенциальных аномалий и несоответствий в данных. Важно понимать, что результаты анализа являются **предположительными** и требуют внимательной интерпретации со стороны пользователя. Библиотека не дает однозначных ответов о "правильности" или "неправильности" данных, а скорее указывает на области, которые могут потребовать дополнительного исследования. Ответственность за окончательные выводы и решения, принятые на основе анализа, полностью лежит на пользователе.

## Установка

```bash
pip install -e .
```
или
```bash
pip install mlprotection
```

## Использование

```python
import mlprotection

# Загрузите ваш датасет
df = pd.read_csv('ваш_датасет.csv')

# Запустите проверку
# classification=True/False или число min_samples для DBSCAN
# save=True для сохранения подозрительных данных в `warning_data.csv` и обработанных данных в `treat_data.csv`
# visualize=True для отрисовки графиков (если возможно)
# backups=True для создания резервной копии исходного датасета
mlprotection.start(df, classification=False, save=True, visualize=False, backups=True)
```

## Функции

*   `start()`: Основная функция для запуска всех проверок.
*   `check_isolation_forest()`: Проверка с использованием Isolation Forest.
*   `check_dbscan()`: Проверка с использованием DBSCAN (полезна для кластеризованных данных).
*   `check_zscore()`: Проверка на основе Z-оценки.
*   `create_backup()`: Создание резервной копии датасета. 
