แปลง Orchid Corpus ไว้ใช้งาน

27 Oct
screen-shot-2559-10-27-at-7-39-57-pm

เมื่อวันก่อนทำการแปลง Lexcitron ไว้ใช้งาน ให้อยู่ในรูปแบบ CSV สำหรับเอาไว้ใช้ในงานวิจัยแล้วซึ่งรูปแบบ CSV น่าจะเป็นรูปแบบที่สะดวกใช้ที่สุด วันนี้เลยทำการแปลงตัว Orchid Corpus ไว้ใช้งานบ้าง ซึ่ง Orchid Corpus นี้เป็นคลังคำภาษาไทยที่รวบรวมและจำแนกโดย nectec ซึ่งข้อดีของของ Orchid Corpus คือมี Part of Speech ที่ละเอียดมากกว่าของ Lexcitron ซึ่งจำเป็นต้องใช้ในงานวิจัยนี้ และตัว Orchid Corpus ก็ไม่ได้มีโครงสร้างที่ซับซ้อนอะไรมากนัก เลยลองเขียน Code ด้วยภาษา Python ง่ายๆ เพื่ออ่านไฟล์ Orchid Corpus ออกมาและจัดเรียงรูปแบบที่สะดวกใช้งานให้อยู่ในรูปแบบ … Read More »