728x90
기사 스크랩
웹페이지에서 기사를 스크랩 해올 때
이 세가지를 꼭 수행해야합니다!
article=Article("https://www.3gpp.org/news-events/2143-3gpp-meets-imt-2020")
article.download()
article.parse()
1. 링크 저장
2. article.download()
3. article.parse()
그럼 이 방법을 활용해서 크롤링을 해보겠습니다

실습1
다음 웹페이지의 기사를 크롤링 해보겠습니다.
1. 패키지 임포트
import newspaper
from newspaper import Article
2. 기사 저장
article=Article("https://www.3gpp.org/news-events/2143-3gpp-meets-imt-2020")
article.download()
article.parse()
3. 정보 확인
#title 보기
article.title
#작성자 확인
article.authors
실습2
다음 웹페이지의 기사를 크롤링 해보겠습니다!
1. 패키지 임포트
import newspaper
2. 웹페이지 저장
site=newspaper.build("https://techcrunch.com/", memoize_article=False)
site.article_urls()
3. 첫번째 article을 저장
site_article=site.articles[0]
site_article.download()
site_article.parse()
4. 정보 확인
#title보기
site_article.title
#url보기
site_article.url
5. 모든 url 저장!
allarticles=[]
for i in range (len(site.article_urls())):
article=Article(site.article_urls()[i])
article.download()
article.parse()
allarticles.append(article)
~데이터 프레임 생성~
import pandas as pd
df=pd.DataFrame(columns=['Title', 'Authors', 'PubDate', 'URL', 'Text'])
for i in range(len(allarticles)):
row=dict(zip(['Title', 'Authors', 'PubDate', 'URL', 'Text'], [allarticles[i].title, allarticles[i].authors, allarticles[i].publish_date, allarticles[i].url, allarticles[i].text]))
row_s=pd.Series(row)
row_s.name=i
df=df.append(row_s)
df
728x90
'🔍 데이터 분석 > 01. Data Collection' 카테고리의 다른 글
[크롤링] BeautifulSoup을 활용한 네이버 영화 평점 크롤링 (2) | 2022.03.23 |
---|---|
[크롤링] [크롤링] 웹페이지에서 기사 스크랩 - BeautifulSoup패키지(2) (0) | 2022.03.05 |
[크롤링] 웹페이지에서 기사 스크랩 - BeautifulSoup패키지(1) (0) | 2022.03.04 |
[크롤링] Web에서 Tabular data 수집 (0) | 2022.03.04 |
[크롤링] 웹페이지에서 이미지 가져와서 편집하기 (0) | 2022.02.05 |