catalystmind 님의 블로그

  • 홈
  • 태그
  • 방명록

2025/06/13 1

Playwright와 Trafilatura를 활용한 JavaScript 기반 웹사이트 추출

TL;DR 기존 Trafilatura + Requests 조합은 JavaScript 기반 사이트에서 본문 추출 한계 발생 Playwright 도입 후 requests에서 실패한 biz.chosun.com 등은 100% 추출 성공 www.msn.com 등 일부 사이트는 여전히 추출 실패, 특화된 로직 필요 처리 속도는 requests 대비 평균 10배 감소하여 성능 최적화 필요 Playwright 병렬화를 통한 처리 시간 단축이 핵심 개선 과제 향후 개선 ..

카테고리 없음 2025.06.13
이전
1
다음
더보기
프로필사진

catalystmind 님의 블로그

AI 실험실, 2차전지 기술 동향, 퀀트 투자, 개인 생각 정리

  • 분류 전체보기 (21)

Tag

feedparser, googlenewsdecoder, 웹스크래핑, 데이터자동화, PowerAutomate, 병렬처리, powerautomatedesktop, 자동정렬문제, 구글 뉴스, concurrent.futures, 브라우저자동화, 기사수집자동화, 파일취합, Requests, trafilatura, Power Automate, google 뉴스 rss, 주식 재료 분석 자동화, 자동화, 파워쿼리,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바