최근 파이썬 크롤링 하고 있는데.....

코딩 채널

알림 알림 중 알림 취소

구독자 4411명 알림수신 85명 @은월영

프로그래밍 및 코딩 채널

Python 최근 파이썬 크롤링 하고 있는데.....

ㅇㅇ (122.37)

추천 0 비추천 0 댓글 12 조회수 347 작성일 2024-05-25 17:38:03

https://arca.live/b/programmer/107144924

구글 colab에서 하고 있는데 다음과 같은 코드

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup

from datetime import datetime

import requests

import pandas as pd

import re

# 각 크롤링 결과 저장하기 위한 리스트 선언

title_text = []

link_text = []

source_text = []

date_text = []

contents_text = []

# 현재 시간 정보를 저장

now = datetime.now()

# 날짜 정제화 함수

def date_cleansing(test):

try:

# 지난 뉴스

pattern = '\d+.(\d+).(\d+).' # 정규표현식

r = re.compile(pattern)

match = r.search(test).group(0) # 2018.11.05.

date_text.append(match)

except AttributeError:

# 최근 뉴스

pattern = '\w* (\d\w*)' # 정규표현식

r = re.compile(pattern)

match = r.search(test).group(1)

date_text.append(match)

# 내용 정제화 함수

def contents_cleansing(contents):

first_cleansing_contents = re.sub('<dl>.*?</a> </div> </dd> <dd>', '', str(contents)).strip() # 앞에 필요없는 부분 제거

second_cleansing_contents = re.sub('<ul class="relation_lst">.*?</dd>', '', first_cleansing_contents).strip() # 뒤에 필요없는 부분 제거 (새끼 기사)

third_cleansing_contents = re.sub('<.+?>', '', second_cleansing_contents).strip()

contents_text.append(third_cleansing_contents)

def crawler(maxpage, query, sort, s_date, e_date):

s_from = s_date.replace(".", "")

e_to = e_date.replace(".", "")

page = 1

maxpage_t = (int(maxpage) - 1) * 10 + 1 # 11= 2페이지 21=3페이지 31=4페이지 ...81=9페이지 , 91=10페이지, 101=11페이지

while page <= maxpage_t:

url = "https://search.naver.com/search.naver?where=news&query=" + query + "&sort=" + sort + "&ds=" + s_date + "&de=" + e_date + "&nso=so%3Ar%2Cp%3Afrom" + s_from + "to" + e_to + "%2Ca%3A&start=" + str(page)

response = requests.get(url)

html = response.text

# 뷰티풀소프의 인자값 지정

soup = BeautifulSoup(html, 'html.parser')

# <a>태그에서 제목과 링크주소 추출

atags = soup.select('.news_tit')

for atag in atags:

title_text.append(atag.text) # 제목

link_text.append(atag['href']) # 링크주소

# 신문사 추출

source_lists = soup.select('.info_group > .press')

for source_list in source_lists:

source_text.append(source_list.text) # 신문사

# 날짜 추출

date_lists = soup.select('.info_group > span.info')

for date_list in date_lists:

# 1면 3단 같은 위치 제거

if date_list.text.find("면") == -1:

date_text.append(date_list.text)

# 본문요약본

contents_lists = soup.select('.news_dsc')

for contents_list in contents_lists:

contents_cleansing(contents_list) # 본문요약 정제화

page += 10

# 모든 리스트 딕셔너리형태로 저장

result = {"date": date_text, "title": title_text, "source": source_text, "contents": contents_text, "link": link_text}

df = pd.DataFrame(result) # df로 변환

# 새로 만들 파일이름 지정

output_file_name = '%s-%s-%s %s시 %s분 %s초 merging.xlsx' % (now.year, now.month, now.day, now.hour, now.minute, now.second)

df.to_excel(output_file_name, sheet_name='sheet1')

# 엑셀 파일로 저장

print("File saved as", output_file_name)

# 저장된 엑셀 파일을 데이터프레임으로 불러와서 출력

print("Loaded DataFrame:")

loaded_df = pd.read_excel(output_file_name)

print(loaded_df)

def main():

print("=" * 50 + "\n" + "입력 형식에 맞게 입력해주세요." + "\n" + " 시작하시려면 Enter를 눌러주세요." + "\n" + "=" * 50)

input() # Enter 입력 대기

maxpage = input("최대 크롤링할 페이지 수 입력하시오: ")

query = input("검색어 입력: 기업명 + 주가 ex) SK하이닉스 주가 ")

sort = input("뉴스 검색 방식 입력(관련도순=0 최신순=1 오래된순=2): ") # 관련도순=0 최신순=1 오래된순=2

s_date = input("시작날짜 입력(2024.01.01): ") # 2024.01.01

e_date = input("끝날짜 입력(2024.05.26): ") # 2024.01.01

crawler(maxpage, query, sort, s_date, e_date)

if __name__ == "__main__":

main()

이러한 코드를 실행했고 그 결과

=========입력 형식에 맞게 입력해주세요. 시작하시려면 Enter를 눌러주세요.=====

최대 크롤링할 페이지 수 입력하시오: 10

검색어 입력: 기업명 + 주가 ex) SK하이닉스 주가 삼성전자

주가뉴스 검색 방식 입력(관련도순=0 최신순=1 오래된순=2): 1

시작날짜 입력(2024.01.01): 2024.01.01

끝날짜 입력(2024.05.26): 2024.05.26

File saved as 2024-5-25 16시 49분 9초 merging.xlsx

Loaded DataFrame:Empty

DataFrameColumns: [Unnamed: 0, date, title, source, contents, link]Index: []

이렇게 나왔습니다. 원래 네이버 뉴스부분을 크롤링 하려고 짠 코드인데 왜인지 Empty 이렇게 나오네요 .

왜............이렇게 된걸까요. 부디 누가 고쳐주세요 ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ

댓글 [12] 글쓰기

kaleidoscope

2024-05-26 06:48:27 답글

*수정됨

try:  response =requests.get(url)
        html = response.text
except: print(f"{response.status_code}와 같은 이유로 crawling에 실패했습니다")
           quit()

폰이라서 일단 저렇게 해보고 실험 ㄱㄱ

펼쳐보기▼

르르르rrrrr

2024-05-26 09:38:31 답글

글쓴이인데 아래에 저거 추가하면 되나요?

펼쳐보기▼

kaleidoscope

2024-05-26 10:10:50 답글

아녀 이걸 저 위에 request단에서 바꾸셔서 정상적으로 크롤링이 되는지를 우선 확인하세요

펼쳐보기▼

kaleidoscope

2024-05-26 10:11:47 답글

코드를 봤는데 request를 하고 아무것도 없어서 에러가 난다면 그냥 빈 페이지 뱉어서 저런게 아닌가 싶어서요 주로 크롤링할때 흔하게 나는 에러거든요

펼쳐보기▼

ㅇㅇ (122.37)

2024-05-26 10:30:31 삭제 수정 답글

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
from datetime import datetime
import requests
try:
    response = requests.get(url)
    html = response.text
except Exception as e:
    print(f"Crawling failed due to {e}")
    quit()
import pandas as pd
import re

펼쳐보기▼

ㅇㅇ (122.37)

2024-05-26 10:30:47 삭제 수정 답글

이렇게 집어넣고 했는데도 같은 결과가 나옵니다.

펼쳐보기▼

kaleidoscope

2024-05-26 11:02:28 답글

response값을 한번 중간에 받아봐서 어디서 문제가 나는지 확인해봐야할거같은데요 흠

펼쳐보기▼

ㅇㅇ (122.37)

2024-05-26 11:23:07 삭제 수정 답글

부탁드리겠습니다 ㅠㅠ 챗 gpt가 하라는데로 바꾸고 바꾸고 해도 계속 결과 데이터프레임이 empty라고 뜨고 미쳐버리겠어요ㅠㅠ

펼쳐보기▼

감별사

2024-05-26 10:43:15 답글

gpt4 에게 물어보세요.

펼쳐보기▼

U149

2024-05-26 11:41:55 답글

유저 에이전트 설정 안해서 리퀘스트 차단먹는거 아님?

펼쳐보기▼

ㅇㅇ (122.37)

2024-05-26 12:22:04 삭제 수정 답글

*수정됨

됐어요!!!!!!!!! 고마워요 고마ㅜ어ㅠㅠㅠㅠㅠㅠ

펼쳐보기▼

U149

2024-05-26 12:35:05 답글

댓글 작성

업로드 중

0초

녹음 중지 삭제

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 공지 정보 질문 잡담 유머 C/C++ C# Python Java Front-end Back-end 앱·겜 AI·Data 그 외

번호 제목

붕탁마Ang 2024.05.26 279 3

잡담 300문제 [4]

Psi_Che 2024.05.26 164 4

~~부터 ~~까지 해오세요 [8]

Cforme 2024.05.26 190 0

혼자 만드는 프젝이라도 코딩 예쁘게 하는게 중요한듯 [9]

Cforme 2024.05.26 259 2

질문 코딩 뉴비입니다 [3]

겨자맛아이스크림 2024.05.26 273 5

렌ㅋㅋㅋ더ㅋㅋ파이ㅋㅋ프라인ㅋㅋ [3]

비내리는호남선 2024.05.26 204 3

질문 이직 기존 b회사 코테 날인데, 다른 더 좋은 곳 합격 했으면 연락 해야댐?? [3]

시작한뉴비 2024.05.26 204 0

맥이 은근 인싸지향적인 물건임 [3]

농쭈우우우우욱ㅋ 2024.05.26 251 0

질문 그... 이래도 되는건지 모르겠는데 [7]

그믐달물해파리 2024.05.25 300 0

텐서 플로우 다운 받았다

건준위 2024.05.25 104 0

Python 최근 파이썬 크롤링 하고 있는데..... [12]

ㅇㅇ (122.37) 2024.05.25 347 0

Scheme <-- 쓰는데 설명 안되는 단어 [10]

Random_Access 2024.05.25 244 0

질문 프로그래머 영어 공부하고 싶은데 [8]

KKday 2024.05.25 262 0

유머 버그를 해결하면 숨어있던 또다른 버그가 마중나온다고 한다 [4]

해방된썬브고정 2024.05.25 258 0

잡담 어려운 코드가 정상적으로 작동되면 [7]

엘레나 2024.05.25 231 0

유머 코딩 배우셨다면서요? [5]

붕탁마Ang 2024.05.25 436 4

질문 코딩 극한의 늅이 질1문 입니다. [12]

오도기합16인치포신 2024.05.25 286 4

앱·겜 어째서 옵젝이 두개다 동시에 켜지지

해방된썬브고정 2024.05.25 107 0

글쓰기

전체글 개념글