BeautifulSOUP : remove javascript

19 Oct

หาทาง remove ตัว javascript ออกจากหน้าเว็บเพจที่ใช้ liburl ดาวน์โหลดเข้ามาและประมวลผลโดยใช้ BeautifulSoup มานานแล้ว

คราวนี้มาเจอโค๊ดง่ายๆ จาก Stackoverflow และทดสอบแล้วว่าใช้งานได้ดี เลขขอบันทึกเอาไว้ก่อนครับ

html = urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')

to_extract = soup.findAll('script')
    for item in to_extract:
        item.extract()

Social Comments

Loading Disqus Comments ...
Loading Facebook Comments ...