แปลง Orchid Corpus ไว้ใช้งาน

27 Oct
screen-shot-2559-10-27-at-7-39-57-pm

เมื่อวันก่อนทำการแปลง Lexcitron ไว้ใช้งาน ให้อยู่ในรูปแบบ CSV สำหรับเอาไว้ใช้ในงานวิจัยแล้วซึ่งรูปแบบ CSV น่าจะเป็นรูปแบบที่สะดวกใช้ที่สุด วันนี้เลยทำการแปลงตัว Orchid Corpus ไว้ใช้งานบ้าง ซึ่ง Orchid Corpus นี้เป็นคลังคำภาษาไทยที่รวบรวมและจำแนกโดย nectec ซึ่งข้อดีของของ Orchid Corpus คือมี Part of Speech ที่ละเอียดมากกว่าของ Lexcitron ซึ่งจำเป็นต้องใช้ในงานวิจัยนี้ และตัว Orchid Corpus ก็ไม่ได้มีโครงสร้างที่ซับซ้อนอะไรมากนัก เลยลองเขียน Code ด้วยภาษา Python ง่ายๆ เพื่ออ่านไฟล์ Orchid Corpus ออกมาและจัดเรียงรูปแบบที่สะดวกใช้งานให้อยู่ในรูปแบบ … Read More »

แปลง Lexitron Dictionary เอาไว้ใช้งาน

23 Oct
Screen Shot 2559-10-23 at 11.17.41 AM

เริ่มต้นงานวิจัยใหม่อีกครั้ง สำหรับครั้งนี้คงยังเป็นเรื่อง Text Analysis อยู่เหมือนเคย แต่จะเป็นไปลักษะของการวิเคราะห์ประโยค์ที่เป็นข้อคิดเห็น และข้อเสนอแนะ ซึ่งจะอยู่ในส่วนของ Opinion Mining เริ่มรวบรวมความรู้ และข้อมูลพื้นฐานเหมือนเคย และส่ิงหนึ่งที่ต้องจัดการก่อนเลยคือ พจนานุกรมหรือคลังคำที่ใช้สำหรับการคัดคำภาษาไทย และคราวนี้จะต้องประกอบกับคำกำกับหน้าที่ของคำด้วย (Past of Speech) ซึ่งข้อมูลที่ดีที่สุดที่มีอยู่คือ ตัวพนานุกรมภาษาไทยของ Lexitron และ Ochid Corpus เลยเริ่มต้นที่ Lexitron ก่อนซึ่งข้อมูลคำภาษาไทยทำไว้อย่างดี ประกอบไปด้วยคำทั้งหมด คำ 40,853 คำ พร้อมกับการกำกับ Past of Speech มาให้ คำแปลภาษาอังกฤษ ตัวอย่างของคำ ฯลฯ ให้เรียบร้อยเป็นอย่างดี … Read More »

PHP : ใช้ Regular Expression สำหรับกำจัด Style Sheet และ Javascript ที่ไม่ต้องการ

3 Jan
Screen Shot 2559-01-03 at 10.55.23 AM

ตอนนี้ต้องการใช้ PHP ประมวลผลเอกสาร Hypertext เพื่อดึงข้อมูลที่เป็นเฉพาะข้อความออกมาใช้งาน ดังนั้นสิ่งที่จำเป็นคือการกำจัด HTML Tag ออกไปให้หมด สำหรับ PHP เองก็เตรียมฟังก์ชันที่ง่ายที่สุดสำหรับการช่วยกำจัด HTML Tag ให้อยู่แล้ว คือ strip_tags() แต่จากการใช้งานงาน ปัญหาของ strip_tags() คือมันจะดึงเฉพาะ Tags มาตรฐานที่รู้จักกันดีออกไป แต่ยังคงเหลือพวก Javascript และ Inner Style Sheet เอาไว้ ดังนั้นก่อนที่จะใช้ strip_tags จึงมีความจำเป็นจะต้อง ใช้ Regular Expression ในการตรวจสอบ และกำจัด Tags ของ … Read More »

วิจัย : ทดสอบเครื่องมือที่ใช้ในการวิจัยที่ รร.วนาสวรรค์

19 Nov
IMG_3834

วันนี้คณะทำงานของเราออกปฏิบัติงานภาคสนามที่ รร.วนาสวรรค์ อ.ภูสิงห์ จ.ศรีสะเกษ จุดประสงค์หลักของการทำงานวันนี้คือการ try out ชุดเครื่องมือที่เราใช้ในกระบวนการเกือบทั้งหมด ผลการทำงานออกมาค่อนข้างดี เด็กๆ นักศึกษาช่วยงานมีความรู้ความเข้าใจในเครื่องมือ และเข้าใจวัตถุประสงค์ในการเก็บข้อมูลอย่างดี ตลอดจนมีการปฏิสัมพันธ์กับผู้ให้ข้อมูลเป็นอย่างดี และที่สำคัญทำให้คณะทำงานของเราได้มีโอกาสเรียนรู้ปัญหาที่เกิดขึ้นในระหว่างการทำงานในพื้นที่ และการบริหารจัดการกับปัญหาที่เกิดขึ้น เพื่อเตรียมรับมือกับการจัดเก็บข้อมูลจริง และได้ข้อมูลที่เที่ยงตรงไม่คลาดเคลื่อนในการทำงานต่อไปครับ ประมวลภาพบรรยายกาศการทำงาน : Flickr

ประสานพื้นที่เพื่อเตรียมทดสอบเครื่องมือ

8 Nov
22216618894_0f0f1b4f2b_o

วันที่ 6 พ.ย. 58 ทีมงานวิจัยของเราเข้าพื้นที่โรงเรียนบ้านวนาสรรค์ อ.ภูสิงห์ จังหวัดศรีสะเกษ โดยสาเหตุที่เราเลือกโรงเรียนวนาสวรรค์ เป็นพื้นที่สำหรับการทดสอบ มีปัจจัยสำคัญ อยู่ 2 ประการคือ เป็นโรงเรียนระดับประถมศึกษาขนาดเล็ก อยู่ในเขตอำเภอภูสิงห์ ซึ่งมีความคล้ายคลึงกับหน่วยตัวอย่างที่เราใช้ศึกษา ในการลงพื้นที่ติดต่อประสานงานเราได้รับความร่วมมือกับท่านผู้อำนวยการโรงเรียนเป็นอย่างดี โดยมีกำหนดการคร่าวๆ ดังนี้ วันจันทร์ที่ 16 พ.ย. 58 ลงพื้นที่เพื่อจัดเตรียมการทดสอบเครื่องมือ และทำความเข้าใจกับครูในโรงเรียน วันศุกร์ที่ 20 พ.ย. 58 ลงพื้นที่เพื่อดำเนินการทดสอบเครื่องมือ

BeautifulSOUP : remove javascript

19 Oct
1book24

หาทาง remove ตัว javascript ออกจากหน้าเว็บเพจที่ใช้ liburl ดาวน์โหลดเข้ามาและประมวลผลโดยใช้ BeautifulSoup มานานแล้ว คราวนี้มาเจอโค๊ดง่ายๆ จาก Stackoverflow และทดสอบแล้วว่าใช้งานได้ดี เลขขอบันทึกเอาไว้ก่อนครับ html = urlopen(url).read() soup = BeautifulSoup(html, ‘html.parser’) to_extract = soup.findAll(’script’)     for item in to_extract:         item.extract()

Python : แก้ปัญหาการมีภาษาไทยอยู่ใน Source Code

19 Oct
Screen Shot 2558-10-19 at 2.18.31 PM

วันนี้เจอปัญหาเล็กน้อยเกี่ยวกับกับใส่ภาษาไทยไว้ในตัว Source Code ของ Python เช่น url = ‘http://clonedbabies.com/category/สมุนไพรไทย’ พอมีภาษาไทยอยู่ใน Source Code แบบนี้จะเจอ error message คือ SyntaxError: Non-ASCII character ‘\xe0’ เลยค้นทางแก้ไขจาก Stackoverflow เจอทางแก้ที่ง่ายมากๆ โดยใส่ # -*- coding: utf-8 -*- ใว้บน Source Code เลย #!/usr/local/bin/python # -*- coding: utf-8 -*-