Skip to content

PyThaiNLP 2.1

Compare
Choose a tag to compare
@wannaphong wannaphong released this 10 Dec 09:16
· 2868 commits to dev since this release
c63e808

English

Hello World. Today, we're happy to announce the availability of PyThaiNLP. Since the project moved to GitHub, we have recorded over 197,000 downloads -- thank you for using PyThaiNLP.

Summary – Release Highlights

New Features

Tokenizer

  • AttaCut, a fast and accurate tokenizer, is now available through engine="attacut" in pythainlp.tokenize.word_tokenize(). Read more about AttaCut implementation at https://arxiv.org/abs/1911.07056, as presented at New in ML Workshop, NeurIPS 2019.
  • ssg, a syllable segmentor, is now available through engine=”ssg” in pythainlp.tokenize.subword_tokenize()
  • Tokenization benchmark

Corpus

  • Add Thai female, male names corpus
  • Add PYTHAINLP_DATA_DIR environment variable to set location of downloaded data

Named-Entity Tagger

  • Add HTML-like tag in output

Localization

  • New function: pythainlp.util.thai_time, time spell out to Thai words

Other improvements

  • Removing and updating many dependencies
  • Remove marisa-trie from pythainlp
  • Updated tutorial notebooks and documentation
  • Better command-line interface

Installation

You can install or upgarde from pip install -U pythainlp

Change log: #181

Documentation: https://www.thainlp.org/pythainlp/docs/2.1/

Tutorials: https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

We build Thai NLP

PyThaiNLP Team

ภาษาไทย

สวัสดีชาวโลก วันนี้ 10 ธันวาคม 2562 พวกเราได้ปล่อย PyThaiNLP 2.1 ตอนนี้ PyThaiNLP มียอดดาวน์โหลดมากกว่า 197,000 ครั้ง ขอบคุณที่ใช้ PyThaiNLP

สรุป – สิ่งที่สำคัญ

คุณลักษณะใหม่

ตัวตัดข้อความ

  • เพิ่ม AttaCut ตัวตัดคำที่เร็วและแม่นยำ เรียกใช้ผ่าน engine="attacut" ใน pythainlp.tokenize.word_tokenize() อ่านวิธีการทำงานของ AttaCut ตามที่นำเสนอที่ New in ML Workshop, NeurIPS 2019 ได้ที่ https://arxiv.org/abs/1911.07056
  • เพิ่ม ssg ตัวตัดพยางค์แบบ CRF เรียกใช้ผ่าน engine="ssg" ใน pythainlp.tokenize.subword_tokenize()
  • ตัววัดประสิทธิภาพตัวตัดคำ

คลังข้อความ

  • เพิ่มคลังข้อมูลชื่อผู้หญิงและผู้ชาย
  • เพิ่ม PYTHAINLP_DATA_DIR environment variable สำหรับตั้งค่าการโหลดข้อมูลโมเดล

ตัวหาชื่อ

  • เพิ่ม tag ทำนอง HTML ครอบข้อความที่มีชื่อ

การปรับเป็นท้องถิ่น

  • เพิ่ม pythainlp.util.thai_time สำหรับแปลงเวลาเป็นคำอ่านภาษาไทย

การปรับปรุงอื่นๆ

  • ลบและอัปเดตไลบรารีหลายอัน
  • ลบ marisa-trie จาก pythainlp
  • ปรับปรุง tutorial notebooks และเอกสาร
  • ปรับปรุง command-line interface

การติดตั้ง

สามารถติดตั้งหรือปรับรุ่นได้ด้วยคำสั่ง pip install -U pythainlp

Change log: #181

Documentation: https://www.thainlp.org/pythainlp/docs/2.1/

Tutorials https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

พวกเราสร้าง Thai NLP

ทีม PyThaiNLP