본문 바로가기

책을 보다

[리뷰] 개발자가 알아야 할 내용으로 가득한 <파이썬으로 웹 크롤러 만들기>

웹 크롤링에 더불어 파이썬도 익힐 수 있습니다.

 

이론보다 실무에 가깝습니다.

그렇기에 각 장들을 체계적으로 분류하기보다 웹처럼 서로 연결하고 있습니다.

각 장마다 실무에 적용하기 위해서라도 주제에 필요한 라이브러리나 프로그램을 알려주고 있습니다. 더군다나 역자가 번역할 시점에서 예제의 바뀐 내용과 특징을, 사용할 데이타와 함께, 주석으로 제공하고 있습니다.

 

웹 크롤링과 함께 개발자가 알아야 할 내용들이 곳곳에 있습니다.

예를 들어, 9장 '자연어 읽고 쓰기'에 있는 내용은 머신러닝에까지 닿아 있습니다. 자연어를 인식하는 기초적인 방식을 알려주고, 이러한 내용이 머신러닝으로 어떻게 이어지는지 알려줍니다. 상세보기



1부는 웹 크롤링을 소개하면서 프로그래밍에서 같이 알아야 할 내용도 같이 얘기하고 있습니다.

모듈 설치와 사용, 정규 표현식, 재귀, 객체, 파일 처리 및 DB 사용.

웹 크롤링이 아니더라도 알아야 할 내용들입니다.

 

2부는 웹 크롤링을 하며 만날 수 있는 대표적인 상황을 얘기합니다.

먼저 상황을 이해하도록 유도하고 무엇을 어떻게 하는지 알려줍니다.

직접 실행하며 접근할 수 있도록 하면서도 모든 것을 알려주려고 무리하지 않습니다.

그러면서 조금 더 생각하보길 권하기도 하고, 깊이 있게 알기 위해 필요한 자료를 소개하기도 합니다.

 

7장, 8장, 9장은 텍스트를 어떻게 다루어야 할 지 얘기합니다.
'문서 읽기'에서 텍스트 인코딩과 유니코드를 설명하고 파일에서 텍스트를 어떻게 가져오는지 보여줍니다.
'지저분한 데이터 정리하기'에서 'n-그램'이란 언어학 용어를 사용하여 문자열을 정리하는 방식을 보여줍니다.
'자연어 읽고 쓰기'는 'n-그램'을 적용한 데이터 요약과 '마르코프 모델'을 소개합니다. 
마르코프 모델로 웹사이트 링크를 모델링합니다. 그리고 마르코프 체인을 주어진 범위에서 적용하며 만나게 되는 '방향성 그래프'와 '너비 우선 탐색'을 간략하게 언급합니다. 
'자연어 툴킷'을 소개하며 텍스트 분석에 어떻게 사용하는지 얘기합니다. 머신러닝의 편린을 살짝 들여다 보는 느낌입니다.

10장, 11장, 12장은 웹 클라이언트 환경에 대응하는 내용으로 제목이 모두 말해 주고 있습니다.
'폼과 로그인 뚫기', '자바스크립트 스크레이핑', 'API를 통한 크롤링' 

13장 '이미지 처리와 텍스트 인식'은 텍스트 기반 이미지를 파이썬 라이브러리로 인식하고 사용하는 방법을 얘기합니다.

이론 구현이 아닌 라이브러리 활용 방식을 안내하고 있습니다.
'팔로', '테서랙트', '파이테서랙트'를 조합하여 이미지에서 텍스트를 스크레이핑하는 걸 보여줍니다. 여기서도 라이브러리를 훈련시킨다는 개념이 살짝 나옵니다.

14장, 15장은 스크레이핑의 또다른 활용 방법을 알려줍니다.
'스크레이핑 함정 피하기'는 크롤링 봇이 사이트를 브라우저로 사람이 열어보는 것처럼 보이도록 하는 내용입니다.
'스크레이퍼로 웹사이트 테스트하기'는  단위테스트로 스크레이퍼를 응용하는 걸 보여줍니다.

16장, 17장, 18장은 당장 적용해보기 어렵더라도 알고는 있어야 하는 내용입니다.
'병렬 웹 크롤링', '원격 스크레이이', '웹 스크레이핑의 합법성과 윤리'



웹 크롤링의 모습을 한 개발자 계발서입니다.

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

반응형