فارسی شکر است!
یکنواختسازی نوشته
یکسانسازی الفبا، اعداد، نیمفاصله، نشانهگذاری و فاصلهگذاری
تکهسازی (Tokenization)
جداسازی نوشته به واژهها یا گزارهها
توکنها
ریشهیابی (Stemming/Lemmatization)
یافتن ریشه یا بن هر واژه با زدودن وندهای واژهساز
واژه ← ریشه
شناسایی موجودیتهای نامدار (NER)
شناسایی نامها، مکانها، سازمانها، تاریخها و رویدادها
شخص
مکان
سازمان
تاریخ
رویداد
موجودیتهای شناساییشده
برچسبگذاری دستوری (POS Tagging)
تعیین نقش دستوری هر واژه: اسم، فعل، صفت، قید و …
برچسبهای دستوری
بررسی املای واژگان (Spell Checking)
بررسیکنندهٔ خودکار املای واژگان فارسی
نوشتهٔ ویراششده
یافتن کلیدواژه (Keywords Extraction)
شناسایی کلیدواژههای مهم از متن با الگوریتمهای RAKE و TextRank
کلیدواژهها
واکاوی وابستگی دستوری (Dependency Parsing)
شناسایی وابستگی میان واژهها و نمایش درخت دستوری