แปลง Orchid Corpus ไว้ใช้งาน

27 Oct
screen-shot-2559-10-27-at-7-39-57-pm

เมื่อวันก่อนทำการแปลง Lexcitron ไว้ใช้งาน ให้อยู่ในรูปแบบ CSV สำหรับเอาไว้ใช้ในงานวิจัยแล้วซึ่งรูปแบบ CSV น่าจะเป็นรูปแบบที่สะดวกใช้ที่สุด วันนี้เลยทำการแปลงตัว Orchid Corpus ไว้ใช้งานบ้าง ซึ่ง Orchid Corpus นี้เป็นคลังคำภาษาไทยที่รวบรวมและจำแนกโดย nectec ซึ่งข้อดีของของ Orchid Corpus คือมี Part of Speech ที่ละเอียดมากกว่าของ Lexcitron ซึ่งจำเป็นต้องใช้ในงานวิจัยนี้ และตัว Orchid Corpus ก็ไม่ได้มีโครงสร้างที่ซับซ้อนอะไรมากนัก เลยลองเขียน Code ด้วยภาษา Python ง่ายๆ เพื่ออ่านไฟล์ Orchid Corpus ออกมาและจัดเรียงรูปแบบที่สะดวกใช้งานให้อยู่ในรูปแบบ … Read More »

แปลง Lexitron Dictionary เอาไว้ใช้งาน

23 Oct
Screen Shot 2559-10-23 at 11.17.41 AM

เริ่มต้นงานวิจัยใหม่อีกครั้ง สำหรับครั้งนี้คงยังเป็นเรื่อง Text Analysis อยู่เหมือนเคย แต่จะเป็นไปลักษะของการวิเคราะห์ประโยค์ที่เป็นข้อคิดเห็น และข้อเสนอแนะ ซึ่งจะอยู่ในส่วนของ Opinion Mining เริ่มรวบรวมความรู้ และข้อมูลพื้นฐานเหมือนเคย และส่ิงหนึ่งที่ต้องจัดการก่อนเลยคือ พจนานุกรมหรือคลังคำที่ใช้สำหรับการคัดคำภาษาไทย และคราวนี้จะต้องประกอบกับคำกำกับหน้าที่ของคำด้วย (Past of Speech) ซึ่งข้อมูลที่ดีที่สุดที่มีอยู่คือ ตัวพนานุกรมภาษาไทยของ Lexitron และ Ochid Corpus เลยเริ่มต้นที่ Lexitron ก่อนซึ่งข้อมูลคำภาษาไทยทำไว้อย่างดี ประกอบไปด้วยคำทั้งหมด คำ 40,853 คำ พร้อมกับการกำกับ Past of Speech มาให้ คำแปลภาษาอังกฤษ ตัวอย่างของคำ ฯลฯ ให้เรียบร้อยเป็นอย่างดี … Read More »