catalystmind 님의 블로그

  • 홈
  • 태그
  • 방명록

2025/06/03 1

Trafilatura - requsets를 이용한 한글깨짐 문제 해결하기

TL;DR Trafilatura를 이용한 한글 뉴스 기사 본문 자동 수집 시 인코딩 문제가 간헐적으로 발생함 한글 뉴스 기사의 약 80%는 정적인 HTML 페이지로 구성되어 requests로 수집 가능함 requests로 HTML을 받아서 trafilatura로 넘기면 인코딩 문제 회피하면서도 빠른 처리 속도 유지 가능함 Trafilatura + requests 조합 테스트 결과, 인코딩 처리를 위해 0.52초 → 0.61초로 다소 증가하였으나 인코딩 문제를 완전히 해결 이 방식을 통해 한글 뉴스 기사 수집의 안정성과 효율성을 동시에 확보할 수 있음 ">TL;DRTr..

카테고리 없음 2025.06.03
이전
1
다음
더보기
프로필사진

catalystmind 님의 블로그

AI 실험실, 2차전지 기술 동향, 퀀트 투자, 개인 생각 정리

  • 분류 전체보기 (21)

Tag

주식 재료 분석 자동화, 병렬처리, 웹스크래핑, Power Automate, Requests, trafilatura, 자동화, 브라우저자동화, powerautomatedesktop, 구글 뉴스, google 뉴스 rss, PowerAutomate, 파일취합, googlenewsdecoder, concurrent.futures, 기사수집자동화, 자동정렬문제, feedparser, 데이터자동화, 파워쿼리,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바