Metadata-Version: 2.2
Name: openav
Version: 1.0.0a19
Summary: OpenAV
Home-page: https://github.com/DmitryRyumin/openav
Author: Dmitry Ryumin, Denis Ivanko, Nikolay Shilov, Maxim Markitantov, Alexey Karpov
Author-email: dl_03.03.1991@mail.ru, denis.ivanko11@gmail.com, nick@iias.spb.su, m.markitantov@yandex.ru, karpov@iias.spb.su
Maintainer: Dmitry Ryumin
Maintainer-email: dl_03.03.1991@mail.ru
License: MIT
Project-URL: Bug Reports, https://github.com/DmitryRyumin/openav/issues
Project-URL: Documentation, https://openav.readthedocs.io
Project-URL: Source Code, https://github.com/DmitryRyumin/openav/tree/main/openav
Project-URL: Download, https://github.com/DmitryRyumin/openav/tags
Keywords: OpenAV,LipReading,SpeechRecognition,SignalProcessing,DataAugmentation,ArtificialNeuralNetworks,DeepMachineLearning,TransferLearning,Statistics,ComputerVision,ArtificialIntelligence,Preprocessing
Classifier: Development Status :: 3 - Alpha
Classifier: Natural Language :: Russian
Classifier: Natural Language :: English
Classifier: Intended Audience :: Developers
Classifier: Intended Audience :: Education
Classifier: Intended Audience :: End Users/Desktop
Classifier: Intended Audience :: Science/Research
Classifier: Intended Audience :: Information Technology
Classifier: Intended Audience :: Science/Research
Classifier: License :: OSI Approved :: MIT License
Classifier: Programming Language :: Python
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.10
Classifier: Programming Language :: Python :: 3.11
Classifier: Programming Language :: Python :: 3.12
Classifier: Programming Language :: Python :: 3 :: Only
Classifier: Programming Language :: Python :: Implementation :: CPython
Classifier: Topic :: Scientific/Engineering
Classifier: Topic :: Scientific/Engineering :: Mathematics
Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
Classifier: Topic :: Scientific/Engineering :: Image Processing
Classifier: Topic :: Scientific/Engineering :: Image Recognition
Classifier: Topic :: Software Development
Classifier: Topic :: Software Development :: Libraries
Classifier: Topic :: Software Development :: Libraries :: Python Modules
Classifier: Topic :: Documentation
Classifier: Topic :: Documentation :: Sphinx
Classifier: Topic :: Multimedia :: Sound/Audio
Classifier: Topic :: Multimedia :: Sound/Audio :: Analysis
Classifier: Topic :: Multimedia :: Sound/Audio :: Speech
Classifier: Topic :: Software Development :: Libraries
Classifier: Topic :: Software Development :: Libraries :: Python Modules
Classifier: Topic :: Software Development :: Localization
Classifier: Topic :: Utilities
Classifier: Operating System :: MacOS :: MacOS X
Classifier: Operating System :: Microsoft :: Windows
Classifier: Operating System :: POSIX :: Linux
Classifier: Framework :: Jupyter
Classifier: Framework :: Jupyter :: JupyterLab :: 4
Classifier: Framework :: Sphinx
Requires-Python: >=3.9, <4
Description-Content-Type: text/markdown
License-File: LICENSE
Requires-Dist: ipython==8.31.0
Requires-Dist: colorama==0.4.6
Requires-Dist: numpy==1.26.4
Requires-Dist: pandas==2.2.3
Requires-Dist: prettytable==3.12.0
Requires-Dist: torch==2.2.2
Requires-Dist: torchaudio==2.2.2
Requires-Dist: torchvision==0.17.2
Requires-Dist: av==14.0.1
Requires-Dist: filetype==1.2.0
Requires-Dist: vosk==0.3.44
Requires-Dist: requests==2.32.3
Requires-Dist: pyyaml==6.0.2
Requires-Dist: streamlit==1.41.1
Requires-Dist: watchdog==6.0.0
Requires-Dist: pymediainfo==6.1.0
Requires-Dist: pillow==11.0.0
Requires-Dist: imgaug==0.4.0
Requires-Dist: ffmpeg==1.4
Requires-Dist: librosa==0.10.2.post1
Requires-Dist: matplotlib==3.10.0
Requires-Dist: mediapipe==0.10.13
Requires-Dist: opencv_contrib_python==4.10.0.84
Requires-Dist: einops==0.8.0
Requires-Dist: lion_pytorch==0.2.3
Requires-Dist: scikit-learn==1.6.0
Requires-Dist: tqdm==4.67.1
Requires-Dist: seaborn==0.13.2
Requires-Dist: Flask==3.1.0
Dynamic: author
Dynamic: author-email
Dynamic: classifier
Dynamic: description
Dynamic: description-content-type
Dynamic: home-page
Dynamic: keywords
Dynamic: license
Dynamic: maintainer
Dynamic: maintainer-email
Dynamic: project-url
Dynamic: requires-dist
Dynamic: requires-python
Dynamic: summary

# [OpenAV](https://github.com/DmitryRyumin/openav)

![PyPI](https://img.shields.io/pypi/v/openav)
![PyPI - Python Version](https://img.shields.io/pypi/pyversions/openav)
![PyPI - Implementation](https://img.shields.io/pypi/implementation/openav)
![GitHub repo size](https://img.shields.io/github/repo-size/dmitryryumin/openav)
![PyPI - Status](https://img.shields.io/pypi/status/openav)
![PyPI - License](https://img.shields.io/github/license/dmitryryumin/openav)
![GitHub top language](https://img.shields.io/github/languages/top/dmitryryumin/openav)
![Documentation Status](https://readthedocs.org/projects/openav/badge/?version=latest)

<h1 align="center"><span style="color:#EC256F;">Описание</span></h1>

---

> **[OpenAV](https://github.com/DmitryRyumin/openav/blob/main/README.md)** - библиотека с открытым исходным кодом, предназначена для решения задач автоматического распознавания речевых команд на основе интеллектуального анализа аудиовизуальных данных.

**[Подробная документация по использованию библиотеки OpenAV](https://openav.readthedocs.io/ru/latest/)**

---

<!-- | [Документация на английском](https://github.com/DmitryRyumin/openav) |
|----------------------------------------------------------------------| -->

## Содержание

- [Установка и обновление](https://openav.readthedocs.io/ru/latest/user_guide/installation.html)
- [Модули](https://openav.readthedocs.io/ru/latest/user_guide/modules.html)
- [API](https://openav.readthedocs.io/ru/latest/api/index.html)
- [Диаграмма классов](https://openav.readthedocs.io/ru/latest/api/class_diagram.html)
- [Набор аудиовизуальных данных](https://openav.readthedocs.io/ru/latest/dataset.html)
- [Команда разработчиков](https://openav.readthedocs.io/ru/latest/about.html)
- [Руководство программиста](./guides/Руководство_программиста.docx)
- [Руководство пользователя](./guides/Руководство_пользователя.docx)

## Перечень возможных направлений прикладного использования библиотеки

1. **Автомобильная промышленность**
    - **Системы помощи водителю**: Голосовое управление навигацией, климат-контролем, мультимедийными системами.
    - **Каршеринг и таксопарки**: Безопасное управление транспортным средством и взаимодействие с пассажирами в шумных условиях.
    - **Умные автомобили**: Распознавание жестов и команд для управления функциями автомобиля.
2. **Авиация**
    - **Кабины пилотов**: Голосовое управление бортовыми системами, особенно в условиях высокого уровня шума.
    - **Обучение и симуляторы**: Реалистичное взаимодействие с системами управления и обучающими симуляторами.
3. **Производственные предприятия**
    - **Управление оборудованием**: Голосовое управление станками и роботами на производственных линиях.
    - **Безопасность и контроль**: Мониторинг и управление безопасностью в условиях шума.
4. **Логистика и складское хозяйство**
    - **Управление инвентарем**: Голосовое управление системами управления складом.
    - **Распознавание команд операторов**: Автоматизация процессов загрузки и разгрузки товаров.
5. **Медицинские учреждения**
    - **Оборудование**: Голосовое управление медицинскими устройствами и инструментами.
    - **Запись и управление данными**: Голосовое ведение медицинских записей и управление информационными системами.
6. **Охрана и безопасность**
    - **Системы видеонаблюдения**: Анализ видеопотоков и распознавание подозрительных действий или команд.
    - **Управление доступом**: Голосовое управление системами безопасности и контроля доступа.
7. **Умный дом**
    - **Умные устройства**: Голосовое управление бытовыми приборами, системами освещения, климат-контролем.
    - **Безопасность дома**: Распознавание голосовых команд для управления системами безопасности.
8. **Образование и тренинги**
    - **Обучающие программы**: Голосовое управление обучающими системами и симуляторами.
    - **Дистанционное обучение**: Интерактивное взаимодействие с учебными материалами и системами.
9. **Развлечения и медиа**
    - **Мультимедийные системы**: Голосовое управление телевизорами, музыкальными системами, игровыми консолями.
    - **Интерактивные развлечения**: Распознавание голосовых и жестовых команд в видеоиграх и VR/AR приложениях.
10. **Гостиничный и ресторанный бизнес**
    - **Обслуживание клиентов**: Голосовое управление системами бронирования, обслуживания номеров, заказов в ресторанах.
    - **Интерактивные системы**: Голосовое взаимодействие с информационными киосками и справочными системами.
11. **Правоохранительные органы и аварийные службы**
    - **Оперативное управление**: Голосовое управление системами связи и управления в условиях чрезвычайных ситуаций.
    - **Мониторинг и контроль**: Распознавание команд для автоматизации процессов управления и мониторинга.
12. **Публичные службы и правительственные учреждения**
    - **Обслуживание граждан**: Голосовое взаимодействие с информационными системами и справочными службами.
    - **Управление документами**: Автоматизация голосового управления документооборотом и административными процессами.

> Эти направления показывают, насколько универсальной и полезной может быть разработанная библиотека в самых разных областях. Она может существенно улучшить эффективность и удобство использования различных систем и устройств, особенно в условиях, требующих надежного распознавания речевых команд и устойчивости к шумам.

## Рекомендуемые технические требования для использования библиотеки

- **Процессор**: AMD Ryzen 5950x или лучше.
- **Видеокарта (GPU)**: NVIDIA GeForce 4090 RTX или лучше.
- **ОЗУ**: 128GB или больше.
- **Накопитель**: Твердотельный накопитель (SSD) или лучше (NVMe SSD M.2).
- **Операционная система**: Windows 8 64-bit или новее / Linux Ubuntu 20.04 или новее.

## Минимальные технические требования для использования библиотеки (при которых достигаются заявленные технические требования по точности и скорости обработки)

- **Процессор**: 4-х ядерный процессор 2.8 ГГц или больше
- **Видеокарта (GPU)**: 16GB или больше.
- **ОЗУ**: 32GB или больше.
- **Накопитель**: Твердотельный накопитель (SSD).
- **Операционная система**: Windows 8 64-bit или новее / Linux Ubuntu 20.04 или новее.

> **[Пример обучения аудиовизуальных моделей распознавания речи на основе библиотеки OpenAV](https://github.com/DmitryRyumin/openav/blob/main/examples/train_openav.md)**
>
> **[Пример тестирования библиотеки OpenAV](https://github.com/DmitryRyumin/openav/blob/main/examples/test_openav.md)**
