แปลง Lexitron Dictionary เอาไว้ใช้งาน

23 Oct
Screen Shot 2559-10-23 at 11.17.41 AM

เริ่มต้นงานวิจัยใหม่อีกครั้ง สำหรับครั้งนี้คงยังเป็นเรื่อง Text Analysis อยู่เหมือนเคย แต่จะเป็นไปลักษะของการวิเคราะห์ประโยค์ที่เป็นข้อคิดเห็น และข้อเสนอแนะ ซึ่งจะอยู่ในส่วนของ Opinion Mining เริ่มรวบรวมความรู้ และข้อมูลพื้นฐานเหมือนเคย และส่ิงหนึ่งที่ต้องจัดการก่อนเลยคือ พจนานุกรมหรือคลังคำที่ใช้สำหรับการคัดคำภาษาไทย และคราวนี้จะต้องประกอบกับคำกำกับหน้าที่ของคำด้วย (Past of Speech) ซึ่งข้อมูลที่ดีที่สุดที่มีอยู่คือ ตัวพนานุกรมภาษาไทยของ Lexitron และ Ochid Corpus เลยเริ่มต้นที่ Lexitron ก่อนซึ่งข้อมูลคำภาษาไทยทำไว้อย่างดี ประกอบไปด้วยคำทั้งหมด คำ 40,853 คำ พร้อมกับการกำกับ Past of Speech มาให้ คำแปลภาษาอังกฤษ ตัวอย่างของคำ ฯลฯ ให้เรียบร้อยเป็นอย่างดี … Read More »

BeautifulSOUP : remove javascript

19 Oct
1book24

หาทาง remove ตัว javascript ออกจากหน้าเว็บเพจที่ใช้ liburl ดาวน์โหลดเข้ามาและประมวลผลโดยใช้ BeautifulSoup มานานแล้ว คราวนี้มาเจอโค๊ดง่ายๆ จาก Stackoverflow และทดสอบแล้วว่าใช้งานได้ดี เลขขอบันทึกเอาไว้ก่อนครับ html = urlopen(url).read() soup = BeautifulSoup(html, ‘html.parser’) to_extract = soup.findAll(’script’)     for item in to_extract:         item.extract()

โค๊ดสำหรับดึงข้อมูลจากเว็บไซต์ และประมวลผลด้วย BeautifulSOUP

15 Oct
Screen Shot 2558-10-15 at 2.40.46 PM

บันทึกเอาไว้กันลืม จะได้ไม่ต้องมาเริ่มใหม่กันบ่อยๆ อีก เป็นการโหลดหน้าเว็บเพจด้วย urllib และนำมาประมวลผลเอา HTML Tag ออกไปด้วย BeautifulSOUP 4 จากนั้นบันทึกข้อมูลลงไฟล์เพื่อไว้ใช้สำหรับประมวลผลต่อ เดี๋ยวค่อยพัฒนาต่อกันไปเรื่อยๆ ครับ from bs4 import BeautifulSoup from urllib import urlopen from urlparse import urlparse def getWeb(url):     html_doc = urlopen(url).read()     soup = BeautifulSoup(html_doc, ‘html.parser’)   … Read More »

เริ่มต้นใช้งาน BeautifulSoup 4

22 Jul
1book24

ถ้าว่าด้วยเรื่องของ Network Programming นั้นยังไงภาษา Python ก็อยู่ในใจอันดับหนึ่งมาเสมอครับ ช่วงนี้ห่างหายไปจากการเขียนโปรแกรมมาสักพักใหญ่ๆ หรือห่างหายมานานเลยก็ว่าได้ เนื่องจากมีลูกมือให้ชี้นิ้วสั่งได้ดังใจมาตลอดก็เลยเริ่มชินกับการคิดแล้วสั่งงานตลอด ตอนนี้ต้องเร่ิมพัฒนางานวิจัยใหม่ๆ ขึ้นมาบ้างเริ่มจากสิ่งที่อยากทำ และสิ่งที่ได้รับทุนวิจัยมาแล้วและต้องปฏิบัติให้ได้ตามข้อเสนอการวิจัยที่ได้เสนอไป สำหรับวันนี้เริ่มพัฒนางานตามความต้องการคือ ดึงข้อมูลที่อยู่บนเว็บไซต์เข้ามาเพื่อทำการวิเคราะห์เนื้อหาที่อยู่บนเว็บไซต์ เครื่องมือที่อำนวยความสะดวกที่ดีที่สุดในตอนนี้คงหนีไม่พ้น BeautifulSoup v.4 กับ urllib แต่ทดลองดังข้อมูลจากเว็บไซต์เข้ามาด้วย urllib.urlopen และ strip html tags ออกไป ปรากฏเจอปัญหาเรื่อง error เล็กน้องเรื่องของการเข้ารหัสแบบ unicode ซึ่งลองค้นข้อมูลเพื่อหาทางแก้ไข พอทางแก้ที่ดีจาก Stack Overflow text = u”.join(text).encode(’utf-8’).strip() สำหรับโค๊ดตัวเต็มที่ทดสอบทำวันนี้คือ from bs4 … Read More »