카테고리 없음

GPT와 Power Automate를 활용한 뉴스 기사 추출 자동화 실험

catalystmind 2025. 4. 12. 12:59
728x90

GPT와 Power Automate를 활용한 뉴스 기사 추출 자동화 실험

  웹에서 기사를 수집해 원하는 형태로 정리하는 작업은 생각보다 쉽지 않다. 언론사마다 웹 페이지 구조가 모두 다르고, 광고나 팝업 등 불필요한 정보가 지나치게 많기 때문이다.또한, 뉴스 기사는 대부분 비정형 데이터로 구성되어 있어 기존의 정형화된 데이터 처리 방식으로는 원하는 정보를 정확히 추출하기 어렵다.

대규모 언어 모델(Large Language Model)의 활용

  최근의 대규모 언어 모델(LLM)은 비정형 데이터를 처리하는 데 강점을 가지고 있어, 이를 활용하면 기존보다 효율적으로 기사와 같은 비정형 데이터를 정제하고 분석할 수 있을 것으로 기대하였다.


1단계: Power Automate를 활용한 기사 텍스트 추출

  먼저, 웹 페이지에서 기사 내용을 추출해야 한다. 다양한 도구를 검토한 결과, Power Automate를 선택했다. 이 도구는 마우스 클릭 몇 번으로 웹에서 특정 텍스트를 추출할 수 있도록 노코드 기반으로 설계되어 있어, 프로그래밍 없이도 쉽게 사용할 수 있다.

 

 

Power Automate를 통해 추출한 결과는 다음과 같다.

본문 바로가기
한경코리아마켓
한경글로벌마켓
집코노미
오피니언
경제
금융
산업
유통
IT
국제
프리미엄
마켓인사이트
한경Law&Biz
한경 BIO Insight
한경CHO Insight
한경ESG
한경Geeks
입법 익스플로러
아르떼
한경만의 독자적인 프리미엄 콘텐츠입니다.
더보기
정치
사회
문화
골프
연예
스포츠
회원전용
전체뉴스
한경트래블
뉴스레터
스페셜 리포트
The Moneyist
The Lifeist
한경동영상
기자 코너
POLL
랭킹뉴스
인사·부고
보도자료
데이터센터

 


 

2단계: GPT를 활용한 JSON 변환 및 정제

  Power Automate를 통해 웹에서 기사 내용을 텍스트로 추출한 결과를 보면, 불필요한 내용이 많은 것을 확인 할 수 있다. 따라서, 다음 단계는 텍스트에서 원하는 내용만 추출하고 활용이 쉽도록 구조를 변경해야 한다. 이 과정에서 GPT를 활용했으며 다음과 같은 간단한 프롬프트를 이용하여 정제되지 않은 텍스트를 JSON 구조로 변환하도록 했다.

1. 사용자가 제공한 파일에서만 내용을 추출할 것  
2. 반드시 JSON 형식으로 반환할 것  
3. 제공된 파일 외의 정보는 사용하지 말 것

 

최종 결과물 예시는 다음과 같다.

{
  "title": "'美 반도체 3배 ETF' 또 베팅한 서학개미",
  "source": "한국경제",
  "date": "2025-04-11",
  "content": "서학개미(해외 주식에 투자하는 개인)가 최근 변동성 장세에 낙폭이 컸던 주식을 집중 매수한 것으로 나타났다. ‘관세 전쟁’으로 인한 시장 변동성을 저가 매수 기회로 삼은 것이다.\n\n11일 한국예탁결제원에 따르면 결제 기준 최근 1주일간(지난 4~10일) 국내 투자자가 가장 많이 사들인 해외 주식은 ‘디렉시온 데일리 반도체 불 3배’(티커명 SOXL) 상장지수펀드(ETF)였다. 순매수 금액은 5억9251만달러(약 8588억원)로 2위인 테슬라(2억7182만달러)보다 두 배 이상 많은 자금이 몰렸다.\n\n이 ETF는 ICE반도체지수 하루 변동폭의 세 배만큼 수익을 낸다. 엔비디아 브로드컴 AMD 등 미국 상장 반도체 기업을 주로 담고 있다. 변동성을 세 배로 증폭시키는 고위험 상품인 만큼 미국이 상호관세를 발표한 다음 날인 3일 하루에만 29.8% 손실을 내기도 했다. 하지만 국내 투자자는 이를 저가 매수 기회로 삼았다.\n\n테슬라, 엔비디아(순매수 5위), 애플(7위) 등 관세 전쟁의 타격이 큰 종목에도 자금이 몰렸다. 애플은 중국 생산 비중이 80%로 높아 관세 인상 영향이 큰 종목으로 꼽힌다. 엔비디아의 반도체 역시 완제품을 조립한 장소에 따라 관세가 부과될 수 있고, 테슬라는 자동차 부품 관세가 높아질 것으로 예상돼 실적에 타격을 받을 것이라는 분석이 많다. 이 때문에 상호관세 발표 이후 테슬라는 고점 대비 21%, 엔비디아는 14%, 애플은 22% 하락하기도 했다.\n\n상호관세가 90일 유예돼 시장이 일부 회복하기는 했지만 변동성은 당분간 이어질 것이라는 게 시장 전문가들의 전망이다.\n\n한 자산운용사 대표는 “정치 변수로 인한 시장 변동성은 누구도 예상할 수 없다”며 “특히 레버리지 상품은 등락이 반복되면 일반 상품보다 투자금을 더 많이 잃는 ‘마이너스 복리효과’가 발생하기 때문에 변동성 장세에서 주의해야 한다”고 지적했다."
}

완전 자동은 아니지만, 절반만 자동화해도 유용함

모든 과정이 완전히 자동화된 것은 아니지만, 텍스트 추출과 정제까지의 과정을 반자동화하는 것만으로도 상당한 시간과 수고를 줄일 수 있다. 다양한 웹 페이지를 대상으로 기사 추출과 구조화 작업을 실험하며, 점차 자동화 수준을 높여볼 예정이다.

728x90