티스토리 뷰
유저 에이전트
컴퓨터이나 휴대폰이나 어떤 헤더를 가지고 하냐를 따라서 모양이 폰 모양 피시 모양으로 달라짐. 그런 것처럼 사람인지 프로그램인지를 파악해서 어떤 정보를 줄지 판단함.
그래서 자동으로 프로그램 쓰면 막아버리는데 그것을 뚫기 위해서 헤더를 써준다.
그래서 유저 에이전트는 어떻게 하냐면
구글에 유저에이전트 스트림을 접속하면
왓 이즈 마이 유어 에이전트가 나오면 클릭해서 나의 에이전트가 나옴.
3 이 유저 에이전트를 헤더스에 할당하고 리퀴스트겟에 뒤에 헤더스에 헤더스로 넣어준다
그럼 나의 유저 에이전트 값을 넣어줘서 내가 컴퓨터가 아닌척한다.
bs4
pip install beautifulsoup
pip install lxml
두 개를 설치한다
엑스 엠엘은 파서라는 것이다 구문 분석하는 것
뷰티블숩은 퍼오는 것
1~7은 기본 설정이고
8 수프에 뷰티플 수프를 통해서 유알엘에서 가지고 온정 보는 파서를 통해서 구문을 분석한 것을 저장한다
9 수프에 모든 것이 저장되어 있기 때문에 그중에 타이틀을 불러올 수 있고
10 타이틀 중에 텍스트만 가지고 올 수 있다.
11 수프 중 첫 번째 에이테크를 가지고 온다.
12 속성을 가지고 온다. 에이 탱크의 속성들을 가지고 오는데 그것들이 딕셔너리 형태로 나오게 됨.
13. 속성 중 원하는 속성만 가지고 오고 싶으면 대괄호 형태로 해서 가지고 올 수 있다.
출력 결과
15 원하는 값을 중간에서 찾고 싶으면 속성을 구분해서 찾는 것이다.
해석하면 수프 안에 있는 에이 태그 중에 클래스 값이 nbtn~~ 인 첫 번 째겠을 가지고 오는 것이다.
16 에이 태클를 지우고 해도 된다. 에이태크 아닌 것에서도 찾는다
17. 원하는 정보가 랭크이면
아래 웹 정보 보면 li태크 아래에 클래스 랭크 1인 것의 정보 다 가지고 온 것
20 19를 위에서 출력했고
21 랭크 1에 저장된 것 중에 에이 토크의 택스트만 가지고 와라.
22에서 넥스트 시블링을 통해서 아래 있는 태그의 정보를 가지고 오는 것이고
22 아래 아래 정보를 가지고 오는 것이다.
26 프리브 어스는 위로 가는 것이다. 그래서 부모 형제 자식 태클로 이동할 수 있다.
29 다음 자식으로 갈 때 원하는 태그의 아래로만 가고 싶으면 29번 줄처럼 해주면 된다.
36 그럼 이런 정보들 다 가지고 오고 싶으면 시 블링스를 통해서 여러 개를 다 가지고 올 수 있다.
38 파인드에서 택스트로 찾는 방법도 있다. 아래 부분이 택스트이다 여는 태그 닫는 태그 사이의 값이 택스트이고 그 텍스트를 찾아서 탱크를 가지고 온다.