วิจัย : ทดสอบเครื่องมือที่ใช้ในการวิจัยที่ รร.วนาสวรรค์

19 Nov
IMG_3834

วันนี้คณะทำงานของเราออกปฏิบัติงานภาคสนามที่ รร.วนาสวรรค์ อ.ภูสิงห์ จ.ศรีสะเกษ จุดประสงค์หลักของการทำงานวันนี้คือการ try out ชุดเครื่องมือที่เราใช้ในกระบวนการเกือบทั้งหมด ผลการทำงานออกมาค่อนข้างดี เด็กๆ นักศึกษาช่วยงานมีความรู้ความเข้าใจในเครื่องมือ และเข้าใจวัตถุประสงค์ในการเก็บข้อมูลอย่างดี ตลอดจนมีการปฏิสัมพันธ์กับผู้ให้ข้อมูลเป็นอย่างดี และที่สำคัญทำให้คณะทำงานของเราได้มีโอกาสเรียนรู้ปัญหาที่เกิดขึ้นในระหว่างการทำงานในพื้นที่ และการบริหารจัดการกับปัญหาที่เกิดขึ้น เพื่อเตรียมรับมือกับการจัดเก็บข้อมูลจริง และได้ข้อมูลที่เที่ยงตรงไม่คลาดเคลื่อนในการทำงานต่อไปครับ ประมวลภาพบรรยายกาศการทำงาน : Flickr

ประสานพื้นที่เพื่อเตรียมทดสอบเครื่องมือ

8 Nov
22216618894_0f0f1b4f2b_o

วันที่ 6 พ.ย. 58 ทีมงานวิจัยของเราเข้าพื้นที่โรงเรียนบ้านวนาสรรค์ อ.ภูสิงห์ จังหวัดศรีสะเกษ โดยสาเหตุที่เราเลือกโรงเรียนวนาสวรรค์ เป็นพื้นที่สำหรับการทดสอบ มีปัจจัยสำคัญ อยู่ 2 ประการคือ เป็นโรงเรียนระดับประถมศึกษาขนาดเล็ก อยู่ในเขตอำเภอภูสิงห์ ซึ่งมีความคล้ายคลึงกับหน่วยตัวอย่างที่เราใช้ศึกษา ในการลงพื้นที่ติดต่อประสานงานเราได้รับความร่วมมือกับท่านผู้อำนวยการโรงเรียนเป็นอย่างดี โดยมีกำหนดการคร่าวๆ ดังนี้ วันจันทร์ที่ 16 พ.ย. 58 ลงพื้นที่เพื่อจัดเตรียมการทดสอบเครื่องมือ และทำความเข้าใจกับครูในโรงเรียน วันศุกร์ที่ 20 พ.ย. 58 ลงพื้นที่เพื่อดำเนินการทดสอบเครื่องมือ

บันทึก: การสลับเวอร์ชั่น Java บน OS X

4 Nov
Screen Shot 2558-11-04 at 11.29.38 AM

วันนี้มีปัญหาน่าปวดหัว คือซอร์สโค๊ดของ LexTo ไม่สามารถรันได้บนจาวา 1.8 เลยต้องลงจาวา 1.7 เข้าไปบนเครื่องด้วย ซึ่งก็ไม่ใช่เรื่องปกติอะไรที่เครื่องคอมพิวเตอร์จะลง java sdk หลายๆ เวอร์ชั่น บนเครื่องเดียว แต่ส่ิงที่ไม่เคยทำบน OS X มาก่อนคือการสลับเวอร์ชั่นของ java ไปๆ มาๆ จะต้องทำอย่างไร ? ค้นเจอวิธีการบน Stackoverflow เป็นวิธีการที่ง่ายมมากๆ และคงต้องทำแบบนี้อยู่บ่อยๆ เลยขอจดบันทึกเอาไว้หน่อย ใช้วิธีการ set ไฟล์ .bash_profile เหมือนเดิมครับ export JAVA_HOME=$(/usr/libexec/java_home -v 1.7) setjdk() {   … Read More »

BeautifulSOUP : remove javascript

19 Oct
1book24

หาทาง remove ตัว javascript ออกจากหน้าเว็บเพจที่ใช้ liburl ดาวน์โหลดเข้ามาและประมวลผลโดยใช้ BeautifulSoup มานานแล้ว คราวนี้มาเจอโค๊ดง่ายๆ จาก Stackoverflow และทดสอบแล้วว่าใช้งานได้ดี เลขขอบันทึกเอาไว้ก่อนครับ html = urlopen(url).read() soup = BeautifulSoup(html, ‘html.parser’) to_extract = soup.findAll(’script’)     for item in to_extract:         item.extract()

Python : แก้ปัญหาการมีภาษาไทยอยู่ใน Source Code

19 Oct
Screen Shot 2558-10-19 at 2.18.31 PM

วันนี้เจอปัญหาเล็กน้อยเกี่ยวกับกับใส่ภาษาไทยไว้ในตัว Source Code ของ Python เช่น url = ‘http://clonedbabies.com/category/สมุนไพรไทย’ พอมีภาษาไทยอยู่ใน Source Code แบบนี้จะเจอ error message คือ SyntaxError: Non-ASCII character ‘\xe0’ เลยค้นทางแก้ไขจาก Stackoverflow เจอทางแก้ที่ง่ายมากๆ โดยใส่ # -*- coding: utf-8 -*- ใว้บน Source Code เลย #!/usr/local/bin/python # -*- coding: utf-8 -*-

ความก้าวหน้าในการพัฒนา Web Crawler ด้วย Scrapy

15 Oct
Screen Shot 2558-10-15 at 10.39.57 PM

จากผลของการที่ใช้ ทดลองใช้ Scrapy เมื่อคราวที่แล้ว เริ่มมั่นในและตัดสินใจว่าจะใช้ Scrapy เป็น Framework หลักในการพัฒนาตัว Web Crawler สำหรับการวิจัย เว้นไปนานวันนี้เลยกลับมาต่องานที่ทำค้างไว้ เท่าที่ลองทำดูหากทำตามตัวอย่าง How-to ที่มีอยู่ใน Tutorial ของ Scrapy จะเจอ Error หลายๆ อย่างเลยทดสอบไปเรื่อย เริ่มเข้าใจมันมากขึ้นแล้ว ผลมาลงตัวที่โค๊ดชุดนี้น่าจะเจอปัญหาน้อยสุด เลยบันทึกเอาไว้ก่อนหากเจอปัญหาอะไรจะได้ไม่ต้องเริ่มกันใหม่อีก import scrapy from TextMining.items import DmozItem class DmozSpider(scrapy.Spider):     name = "phisan"   … Read More »

โค๊ดสำหรับดึงข้อมูลจากเว็บไซต์ และประมวลผลด้วย BeautifulSOUP

15 Oct
Screen Shot 2558-10-15 at 2.40.46 PM

บันทึกเอาไว้กันลืม จะได้ไม่ต้องมาเริ่มใหม่กันบ่อยๆ อีก เป็นการโหลดหน้าเว็บเพจด้วย urllib และนำมาประมวลผลเอา HTML Tag ออกไปด้วย BeautifulSOUP 4 จากนั้นบันทึกข้อมูลลงไฟล์เพื่อไว้ใช้สำหรับประมวลผลต่อ เดี๋ยวค่อยพัฒนาต่อกันไปเรื่อยๆ ครับ from bs4 import BeautifulSoup from urllib import urlopen from urlparse import urlparse def getWeb(url):     html_doc = urlopen(url).read()     soup = BeautifulSoup(html_doc, ‘html.parser’)   … Read More »