Metadata-Version: 2.3
Name: dataharvest
Version: 0.1.6
Summary: Add your description here
Author-email: yuvenhol <yuvenhol@gmail.com>
Requires-Python: >=3.8
Requires-Dist: html2text>=2024.2.26
Requires-Dist: parsel>=1.9.1
Requires-Dist: playwright>=1.44.0
Description-Content-Type: text/markdown

# DataHarvest

DataHarvest 是一个用于数据搜索、爬取、清洗的工具。

![DataHarvest](https://yuvenhol-1255563050.cos.ap-beijing.myqcloud.com/img/202407022046608.png)

## 数据爬取&清洗

| 网站   | 内容 | url pattern           | 爬取 | 清洗 |
|------|----|-----------------------|----|----|
| 百度百科 | 词条 | baike.baidu.com/item  | ✅  | ✅  |
| 知乎   | 文章 | zhuanlan.zhihu.com/p/ | ✅  |    |
| 百度百家号 | 文章 | baijiahao.baidu.com/s  | ✅  | ✅  |
| 360个人图书馆 | 文章 | www.360doc.com/content  | ✅  | ✅  |
| 搜狗百科 | 词条 | baike.sogou.com/v  | ✅  | ✅  |
| 搜狐 | 文章 | www.sohu.com/a  | ✅  | ✅  |
| 网易 | 文章 | www.163.com/\w+/article/.+  | ✅  | ✅  |

## 安装与使用

```shell
pip install DataHarvest
```


