Programming

[Python] euc-kr 웹페이지의 데이터를 utf-8로 변환하기

rootnix 2016. 4. 6. 19:36

python(2.7) 으로 웹페이지 parsing 을 하다보면 계속 만나게 되는 문제.

매번 까먹어서 짜증나서 블로그에 포스팅해놔야지


euc-kr 로 제작된 웹페이지를 urllib 등으로 데이터를 읽어와서

작업을 하려하면 한글이 무참히 깨지거나, 폭풍 error


req=urllib2.Request(url)
res=urllib2.urlopen(req).read()
convStr=unicode(res,'euc-kr').encode('utf-8')
print(convStr)

이렇게, unicode로 변환 후 utf-8로 encoding 해주면 대부분 잘 된다.