ความก้าวหน้าในการพัฒนา Web Crawler ด้วย Scrapy

15 Oct
Screen Shot 2558-10-15 at 10.39.57 PM

จากผลของการที่ใช้ ทดลองใช้ Scrapy เมื่อคราวที่แล้ว เริ่มมั่นในและตัดสินใจว่าจะใช้ Scrapy เป็น Framework หลักในการพัฒนาตัว Web Crawler สำหรับการวิจัย เว้นไปนานวันนี้เลยกลับมาต่องานที่ทำค้างไว้ เท่าที่ลองทำดูหากทำตามตัวอย่าง How-to ที่มีอยู่ใน Tutorial ของ Scrapy จะเจอ Error หลายๆ อย่างเลยทดสอบไปเรื่อย เริ่มเข้าใจมันมากขึ้นแล้ว ผลมาลงตัวที่โค๊ดชุดนี้น่าจะเจอปัญหาน้อยสุด เลยบันทึกเอาไว้ก่อนหากเจอปัญหาอะไรจะได้ไม่ต้องเริ่มกันใหม่อีก import scrapy from TextMining.items import DmozItem class DmozSpider(scrapy.Spider):     name = "phisan"   … Read More »

ทดลองใช้ Scrapy

6 Jul
Screen Shot 2558-07-06 at 9.17.42 PM

สำหรับตอนนี้กำลังเริ่มพัฒนางานวิจัยอีกชิ้นหนึ่ง โดยในกระบวนการวิจัยในขั้นตอนแรกต้องทำการเก็บข้อมูลที่เป็นเนื้อหาต่างๆ ที่อยู่ที่อยู่บนระบบอินเตอร์เน็ต เพื่อนำมาประมวลผล สำหรับการรวบรวมข้อมูลเนื้อหาต่างๆ ที่อยู่บนเว็บไซต์นั้นคงต้องเริ่มจาการพัฒนาตัว web crawler เพื่อทำดัชนีเว็บขึ้นมา สำหรับการทำ web cralwer ผมเรื่องใช้ Scrapy ซึ่งเป็นเฟรมเวิร์คที่มีมาตรฐานและมีการพัฒนาอย่างต่อเนื่อง ตลอดจนมีการใช้งานที่ง่าย มีเอกสารให้ศึกษา พร้อมตัวอยากประกอบมากมาย สำหรับกระบวนการติดตั้งไม่ยากนัก สามารถติดตั้งผ่าน pip ได้เลยโดย $ pip install scrapy ในกรณีสำหรับ OS X ที่ติดตั้ง scrapy แล้วเจอปัญหา error ImportError: No module named xmlrpc_client ให้ทำการแก้ไขปัญหาคือ $ … Read More »