티스토리 뷰

나도 코딩님의 웹크롤링을 보고 공부한 내용을 공유합니다. 

 

웹크롤링

 

  1. html

 



2.xpaht



3. 리퀘스트

 

크롬 드라이버 설치

 

크롬 드라이버 설치하는데 대신 나의 버전과 맞게 하고 드라이브는 같은 폴더에 저장해야 한다.

 

f12나 개발자 도구로 영역별로 찾을 수 있다. 



pip install requsets로 설치한다.

 

 

1 크롤링 모듈 불러온다

2 구글의 웹 문서를 불러와서 res에 저장한다.

4 스테이트 코드는 에러가 있는지 확인한다. 문서를 가지고 오지 못하면 에러를 내서 정지시킨다.

 

12 res으로 가지 온 것은 text로 불러올 수 있고 그 길이를 쓸 수 있다.

13 res.txt로 가지고 와서 출력한다. 엄청나 온다. 

 

15 가지고 온 것을 마이 구글. 에이치티 엠로 만든 것이다. 그럼 구글  화면은 가지 고올수 있다. 

 

4. 정규식

 

 

1 re는 정규식을 확인하는 것이고 어떤 식에 맞는지 아닌지를 확인하는 것이다

 

3. ca? e 이라 하면 예를 들어 물음표가 뭔지모를는것이다 그럴 때는 

7p는 패턴이고 그냥 저장할 것이고 정규식에서 컴파일할 것이고 “.”은 하나의 문자를 의미하는 것이다 정리하면 정규식을 이용해서 ca.e 물음표가.으로 바뀐거싱고 거기에는 5줄에 들어갈 것들이 들어가면 참이다 

 

9는 시작하는 것 

10은 끝을 의미  



12 매칭됫나 안됬나를 확인하는 함수를 조건문으로 만들어 보면 

m에다가 어떤 문자열 저장하고 매치되는지 안되는지 매치되는데 완전히 일치하는지 등등을 확인하는 것. 

18.. span()은 문자열의 시작 끝 인댁스 확인 

 

굿케어 출력 시 이렇게 됨. 

 

22p에 저장한 것을 매치란 함수를 써서 맞는지 아닌지를 찾는 것이다.

ca.e가 처음부터 맞음 뒤는 다르지만 처음만 맞으면 맞는 것이 매치 함수다. 

 

23에서 보면 매치가 안 맞으니 에러가 발생할 것이다. 

 

25 위의 매치와 다르게 완전히 일치해야 한다 매치는 첫 부분만 맞음 되지만 서치는 다 맞아야 됨.

 

28 파인드 올은 일치되는 모든 것을리스트 형태로 변환하는 것 리스트 형태로 출력되는 것이 중요함.

 

29 출력 값이 리스트로 출력이 됨. 




더 공부할 것은 w3사이트 가서 있음 

그리고 python re를 구글에서 검색하면 됨.