2025/05 10

Googlenewsdecoder - 병렬처리로 시간 단축하기

TL;DR GoogleNewsDecoder는 I/O 바운드 작업으로 병렬 처리에 적합한 특성을 가짐 Python의 concurrent.futures 라이브러리를 활용해 ThreadPoolExecutor 기반의 병렬 처리 시스템 구현 submit()과 as_completed() 메서드를 조합한 비동기 처리를 통해 전체 작업 시간을 대폭 단축 기존 순차 처리 방식 대비 다중 스레드 병렬 처리로 성능 향상 달성 ">TL;DRGoogleNewsDecoder는 I/O 바운드 작업으로 병렬 처리에 적합한 특성을 가짐Python의 concurrent.futures 라이브러리를 활용해 ThreadPoolExecutor 기반의 병렬 처리 시스템 구현submi..

카테고리 없음 2025.05.24

Googlenewsdecoder: 구글 뉴스 RSS 링크를 원문 주소로 변경해주는 도구

TL;DR googlenewsdecoder는 Google News RSS 피드의 리디렉션 URL을 원래 주소로 복원해주는 Python 도구임 URL 약 300개 처리 결과, URL 하나 처리 시간은 평균 약 3초, 정확도 100%로 現 시점에는 안정적으로 변환 가능한것으로 판단함 자동화 시스템과 연동하여 뉴스 수집 및 분석 워크플로우를 효율화할 수 있음 ">TL;DRgooglenewsdecoder는 Google News RSS 피드의 리디렉션 URL을 원래 주소로 복원해주는 Python 도구임URL 약 300개 처리 결과,U..

카테고리 없음 2025.05.24

Google 뉴스 RSS 링크 분석: 본문 추출을 위한 URL 처리 전략 2가지

TL;DR 구글 뉴스 RSS에서 제공하는 링크는 실제 뉴스 페이지가 아닌 리디렉션 URL임 이 링크는 URL-safe base64와 protobuf 형식으로 인코딩되어 있어 직접 처리가 어려움 본문 추출을 위한 두 가지 접근법: ①오픈소스 패키지 활용과 ②브라우저 자동화(Playwright) 두 방법 모두 장단점이 있으며, 어떤 것을 사용할지는 각자의 상황에 맞게 선택해야 함 앞으로의 글에서 각 방법의 구체적인 구현 방법과 성과를 다룰 예정 ">TL;DR구글 뉴스 RSS에서 제공하는 링크는 실제 뉴스 페이지가 아닌 리디렉션 URL임이 링크는 URL-safe base64와 protobuf 형식으로 인코딩되어 있어 직접 처리가 어려움..

카테고리 없음 2025.05.20

Power Automate + feedparser 개선: Google 뉴스 수집 속도 단축하기

TL;DR 기존 방식은 Power Automate로 XML 파일 저장 후 feedparser로 처리함 개선 방식은 feedparser가 Google News RSS를 직접 파싱하도록 변경해 프로세스 단계 1개 제거 및 처리 시간 41.3% 단축함 한글/특수문자 URL 파싱 실패 문제는 Python urllib.parse.quote() 함수로 URL 인코딩 적용해 해결함 이 코드는 검색어 기반 RSS URL 자동 생성 및 기사 제목/링크/발행일 추출 기능을 구현함 이 코드는 Power Automate와 연동해 완전 자동화된 뉴스 수집에 적용될 예정 ">TL;DR기존 방식은 Power Automate로 XML 파일 저장 후 feedp..

카테고리 없음 2025.05.18

Power Automate와 Python을 활용한 주도주 재료 분석 자동화 - 1

TL;DR Google RSS XML, 기본 XML 구조 따르며 컴퓨터 폴더 구조와 유사한 계층적 특성 feedparser, 폴더 구조 같은 XML 파일을 간단한 명령어로 쉽게 처리 가능 최종 Python 코드는 XML 파일 처리 후 CSV로 정리 해당 코드, 단독 실행 가능 및 Power Automate와 연동 통한 자동화 흐름 일부로 활용 가능 Power Automate만으로 5분 걸리던 작업, feedparser 활용 시 단 3초 만에 처리 ">TL;DRGoogl..

카테고리 없음 2025.05.14

Power Automate와 Python을 활용한 주도주 재료 분석 자동화 - 서론

TL;DR Power Automate만 사용한 기존 방식은 속도 제한(90분+), 높은 비용, 유지보수 어려움이라는 한계에 직면 해결책으로 Power Automate와 Python 연동 방식 제안 (Jupyter로 작성, PowerShell로 실행) 주요 도구: feedparser, googlenewsdecoder, trafilatura를 활용한 뉴스 수집 및 정제 자동화 ">TL;DRPower Automate만 사용한 기존 방식은 속도 제한(90분+), 높은 비용, 유지보수 어려움이라는 한계에 직면해결책으로 Power Automate와 Python 연동 방식 제안 (Jupyter로 작성, PowerShell로 실행)주요 도구: feedparser, google..

카테고리 없음 2025.05.13

Power automate를 활용한 주도주 재료 분석 자동화 - 하위흐름 이용하기

TL;DR KRX에서 거래량 상위 종목을 추출하고, 구글 뉴스의 RSS 기능을 활용하여 종목별 뉴스를 수집하는 자동화 시스템을 PowerAutomate로 구축했습니다. 각 작업을 하위 흐름으로 모듈화하여 유지보수성 향상 향후 기사 전처리 효율화를 위해 Python과의 연동 계획 총 246개 기사 수집, 약 77분 소요 (기사당 평균 18.8초) ..

카테고리 없음 2025.05.10

Power automate를 활용한 주도주 재료 분석 자동화 - 2

TL;DR RSS 트릭을 사용해서 가져온 정보의 형식은 XML이지만, 바로 사용할 수 없다. URL을 바로 추출할 수 없으며 약간의 트릭이 필요하다. 여러가지 방법 중 Power Automate의 정규식 이용 방법에 대해 설명한다. 구글 뉴스 RSS의 문제점앞에서 구글 뉴스 rss로 저장한 파일은 XML 형식을 따르지만, 웹브라우저로 열어보면 다음과 같은 에러 메시지를 볼 수 있다. 따라서, 이것을 그대로 쓸 수 없으며 약간의 가공이 필요하다. 구글 뉴스 RSS는 특수 문자를 XML 규칙에 맞지 않게 출력하는데, 정확한 xml 형식으로 변경하는 것보다는 원하는 정보를 추출해 내는 것이 더 빠르다고 판단하였다. 아래를 누르면 전체가 보입니다. This XML file does not ap..

카테고리 없음 2025.05.02

Power automate를 활용한 주도주 재료 분석 자동화 - 1

TL;DR 효율적으로 주식 재료를 분석을 위해 구글 뉴스를 활용 방법 RSS 트릭을 사용해 구글이 연결해주는 기사 URL 가져오는 방법 Power Automate를 이용한 자동화 방법 주도주를 거래량으로 확인한 뒤에는 그 주가를 움직이는 '재료'를 알아내야 한다. 보통 네이버 뉴스, 네이버 종목토론방, 구글 검색, HTS 등을 이용하지만, 이번에는 '구글 뉴스'를 활용해보려고 한다.구글 뉴스를 이용한 주가 재료 찾기주도주는 매일 바뀌고, 재료도 시간이 지나면 변한다. 주식시장을 모니터링 할 시간이 부족한 직장인이 매일 직접 검색하는 건 비현실적이다. 우리의 목적은 뉴스로부터 의미있는 투자 인사이트를 얻는 것이므로 기사 수집단계는 자동화를 통해 최대한 시간을 절약할 필요가 있다. 이를 위한..

카테고리 없음 2025.05.01