BeautifulSOUP : remove javascript

19 Oct
1book24

หาทาง remove ตัว javascript ออกจากหน้าเว็บเพจที่ใช้ liburl ดาวน์โหลดเข้ามาและประมวลผลโดยใช้ BeautifulSoup มานานแล้ว คราวนี้มาเจอโค๊ดง่ายๆ จาก Stackoverflow และทดสอบแล้วว่าใช้งานได้ดี เลขขอบันทึกเอาไว้ก่อนครับ html = urlopen(url).read() soup = BeautifulSoup(html, ‘html.parser’) to_extract = soup.findAll(’script’)     for item in to_extract:         item.extract()

Python : แก้ปัญหาการมีภาษาไทยอยู่ใน Source Code

19 Oct
Screen Shot 2558-10-19 at 2.18.31 PM

วันนี้เจอปัญหาเล็กน้อยเกี่ยวกับกับใส่ภาษาไทยไว้ในตัว Source Code ของ Python เช่น url = ‘http://clonedbabies.com/category/สมุนไพรไทย’ พอมีภาษาไทยอยู่ใน Source Code แบบนี้จะเจอ error message คือ SyntaxError: Non-ASCII character ‘\xe0’ เลยค้นทางแก้ไขจาก Stackoverflow เจอทางแก้ที่ง่ายมากๆ โดยใส่ # -*- coding: utf-8 -*- ใว้บน Source Code เลย #!/usr/local/bin/python # -*- coding: utf-8 -*-

ความก้าวหน้าในการพัฒนา Web Crawler ด้วย Scrapy

15 Oct
Screen Shot 2558-10-15 at 10.39.57 PM

จากผลของการที่ใช้ ทดลองใช้ Scrapy เมื่อคราวที่แล้ว เริ่มมั่นในและตัดสินใจว่าจะใช้ Scrapy เป็น Framework หลักในการพัฒนาตัว Web Crawler สำหรับการวิจัย เว้นไปนานวันนี้เลยกลับมาต่องานที่ทำค้างไว้ เท่าที่ลองทำดูหากทำตามตัวอย่าง How-to ที่มีอยู่ใน Tutorial ของ Scrapy จะเจอ Error หลายๆ อย่างเลยทดสอบไปเรื่อย เริ่มเข้าใจมันมากขึ้นแล้ว ผลมาลงตัวที่โค๊ดชุดนี้น่าจะเจอปัญหาน้อยสุด เลยบันทึกเอาไว้ก่อนหากเจอปัญหาอะไรจะได้ไม่ต้องเริ่มกันใหม่อีก import scrapy from TextMining.items import DmozItem class DmozSpider(scrapy.Spider):     name = "phisan"   … Read More »

โค๊ดสำหรับดึงข้อมูลจากเว็บไซต์ และประมวลผลด้วย BeautifulSOUP

15 Oct
Screen Shot 2558-10-15 at 2.40.46 PM

บันทึกเอาไว้กันลืม จะได้ไม่ต้องมาเริ่มใหม่กันบ่อยๆ อีก เป็นการโหลดหน้าเว็บเพจด้วย urllib และนำมาประมวลผลเอา HTML Tag ออกไปด้วย BeautifulSOUP 4 จากนั้นบันทึกข้อมูลลงไฟล์เพื่อไว้ใช้สำหรับประมวลผลต่อ เดี๋ยวค่อยพัฒนาต่อกันไปเรื่อยๆ ครับ from bs4 import BeautifulSoup from urllib import urlopen from urlparse import urlparse def getWeb(url):     html_doc = urlopen(url).read()     soup = BeautifulSoup(html_doc, ‘html.parser’)   … Read More »

ประกาศผลการพิจารณาการให้ทุนสนับสนุนข้อเสนองานวิจัยจากงบประมาณแผ่นดิน ปีงบประมาณ 2559 โดยคณะกรรมการการวิจัยแห่งชาติ

10 Mar
ประกาศ วช.59

เราทำได้เป็นปีที่ 3 ติดต่อกันแล้ว ยอมรับว่ารอบนี้ดีในมากๆ ที่คณะกรรมการการวิจัยแหน่งชาติ (วช.) พิจารณาให้การสนับสนุนงบประมาณการวิจัยกับแผนงานวิจัยที่เราเสนอไป เพราะรอบนี้เราพัฒนาโจทย์การวิจัยที่ท้าทายขึ้น และวางแผนถึงแนวทางการที่จะนำผลการวิจัยไปตีพิมพ์ทางวิชาการที่ชัดเจน ตลอดจนทำให้เราพิสูจน์อะไรได้หลายๆ ต่อหลายอย่างมากมาย ดีใจมากๆ ครับ