Metadata-Version: 2.1
Name: sense-text-extractor
Version: 0.0.2
Summary: sense_text_extractor
Home-page: UNKNOWN
Author: kafka0102
Author-email: yujianjia@sensedeal.ai
License: BSD License
Platform: UNKNOWN
Classifier: Intended Audience :: Developers
Classifier: License :: OSI Approved :: BSD License
Classifier: Operating System :: OS Independent
Classifier: Programming Language :: Python
Classifier: Programming Language :: Python :: 3.6
Classifier: Topic :: Internet :: WWW/HTTP
Classifier: Topic :: Internet :: WWW/HTTP :: Dynamic Content
Description-Content-Type: text/markdown
Requires-Dist: grpcio
Requires-Dist: protobuf
Requires-Dist: sense-core (>=0.0.18)

# sense-text-extractor

sense-text-extractor是正文抽取客户端库


## 安装方式(当前版本0.0.1)

    pip install sense-text-extractor

## 使用指南

基于sense-core的settings.ini的label配置调用：

    from sense_text_extractor import SenseTextExtractor
    extractor = SenseTextExtractor(label='text_extractor')
    text = extractor.extract_text("http://sports.sina.com.cn/g/pl/2019-01-11/doc-ihqhqcis5048507.shtml", "穆里尼奥在等待复出")
    print(text)

使用host和port的调用：

    extractor = SenseTextExtractor('52.83.143.61', '6681')
    text = extractor.extract_text("http://sports.sina.com.cn/g/pl/2019-01-11/doc-ihqhqcis5048507.shtml", "穆里尼奥在等待复出")
    print(text)


## 使用说明

extract_text方法可能抛出异常，需要自己捕捉。返回结果是string，如果是''字符串，表示可能没有抽取出正文。
如果用于爬虫，extract_text需要传入第三个参数，也就是下载的html源码，否则extractor的sever端因为获取超时而抛出异常，也容易被反爬虫限制。



