2025/06 3

Playwright와 Trafilatura를 활용한 JavaScript 기반 웹사이트 추출

TL;DR 기존 Trafilatura + Requests 조합은 JavaScript 기반 사이트에서 본문 추출 한계 발생 Playwright 도입 후 requests에서 실패한 biz.chosun.com 등은 100% 추출 성공 www.msn.com 등 일부 사이트는 여전히 추출 실패, 특화된 로직 필요 처리 속도는 requests 대비 평균 10배 감소하여 성능 최적화 필요 Playwright 병렬화를 통한 처리 시간 단축이 핵심 개선 과제 향후 개선 ..

카테고리 없음 2025.06.13

Trafilatura - requsets - 병렬처리로 시간 단축하기

TL;DR Worker 5개 병렬 처리로 웹 스크래핑 시간을 5분→2분(60% 단축), 처리량 2.5배 향상 달성 이론상 5배 개선 대비 실제 2.5배는 50% 효율이나, 웹 스크래핑 분야에서 준수한 수준임 병목 원인은 네트워크 I/O, 서버 rate limiting, 시스템 오버헤드 등으로 예상됨 실용적 가치로 일일 처리량 2.5배 증가, 개발 시간 60% 절약, 서비스 응답성 60% 향상 효과 예상 ">TL;DRWorker 5개 병렬 처리로 웹 스크래핑 시간을 5분→2분(60% 단축), 처리량 2.5배 향상 달성이론상 5배 개선 대비 실제 2.5배는 50% 효율이나, 웹 스크래핑 분야에서 준수한 수준임병목 원인은 네트워크 I/O, 서버 ..

카테고리 없음 2025.06.07

Trafilatura - requsets를 이용한 한글깨짐 문제 해결하기

TL;DR Trafilatura를 이용한 한글 뉴스 기사 본문 자동 수집 시 인코딩 문제가 간헐적으로 발생함 한글 뉴스 기사의 약 80%는 정적인 HTML 페이지로 구성되어 requests로 수집 가능함 requests로 HTML을 받아서 trafilatura로 넘기면 인코딩 문제 회피하면서도 빠른 처리 속도 유지 가능함 Trafilatura + requests 조합 테스트 결과, 인코딩 처리를 위해 0.52초 → 0.61초로 다소 증가하였으나 인코딩 문제를 완전히 해결 이 방식을 통해 한글 뉴스 기사 수집의 안정성과 효율성을 동시에 확보할 수 있음 ">TL;DRTr..

카테고리 없음 2025.06.03