BeautifulSOUP : remove javascript

19 Oct
1book24

หาทาง remove ตัว javascript ออกจากหน้าเว็บเพจที่ใช้ liburl ดาวน์โหลดเข้ามาและประมวลผลโดยใช้ BeautifulSoup มานานแล้ว คราวนี้มาเจอโค๊ดง่ายๆ จาก Stackoverflow และทดสอบแล้วว่าใช้งานได้ดี เลขขอบันทึกเอาไว้ก่อนครับ html = urlopen(url).read() soup = BeautifulSoup(html, ‘html.parser’) to_extract = soup.findAll(’script’)     for item in to_extract:         item.extract()