본문 바로가기

카테고리 없음

[나도코딩 파이썬 활용편 웹스크래핑(1)] 웹스크래핑과 웹크롤링의 차이, 웹을 구성하는 3요소 HTML/CSS/JS, XPath

웹 크롤링? 웹스크래핑?

웹 크롤링

- 웹 페이지 내 허용데이터를 모두 가져오는 것

 

웹 스크래핑

- 웹페이지 내 필요한 내용만 가져오는 것

 

웹스크래핑을 따라할 때 주의할 점

웹 페이지의 html이 변경되어 따라했는데 다른 결과가 나올 수도 있다.

결과가 제대로 나오지 않는다면 이 점을 확인해볼 것.

 

웹을 구성하는 요소 - HTML (Hyper Text Markup Language)

HTML, CSS, JS 중 HTML은 필수적으로 이해해야한다.

 

1) 새로운 폴더 내 html 파일을 만든다.

 

2) extention 설치

VS 코드 안의 html 문서를 브라우저에서 열 수 있게 해준다.

 

3) html 파일을 열 때 브라우저 지정

open in default browser ... 사용자 pc의 기본브라우저로 열기

 

간단한 입력으로 웹페이지 만들어보기
<html>
    <head>
        <title>나도코딩 홈페이지</title>
    </head>
    <body>
        <h1>안녕하세요, 나도코딩입니다. </h1>
    </body>
</html>

간단한 기능으로 웹페이지를 구현해본다.

 

 

아이디, 비밀번호, 로그인 하는 페이지 만들기
<html>
    <head> 
        <meta charset="utf-8">  <!-- html에서 한글입력 -->
        <title>나도코딩 홈페이지</title>
    </head>
    <body>
        <input type ="text" value= "아이디를 입력하세요">
        <input type="password">
        <input type="button" value="로그인">

    </body>
</html>

 

 

더 많은 html 공부가  필요하다면? w3schools

https://www.w3schools.com/

 

W3Schools Free Online Web Tutorials

W3Schools offers free online tutorials, references and exercises in all the major languages of the web. Covering popular subjects like HTML, CSS, JavaScript, Python, SQL, Java, and many, many more.

www.w3schools.com

위 사이트에서 html 외에도 여러 공부를 할 수 있다.

html에 대해 더 공부하고 싶다면 참고!

 

 

Xpath

xpath는 html 내 특정 element를 지칭하는 주소.

이 주소(경로)는 전체 경로를 입력할 수도 있지만

id, class 등 특징만을 입력할 수도 있다.

 

크롬

XPath 등 주로 크롬을 사용한다.

 

개발자 도구 열기

크롬에서 네이버를 들어가서

우클릭을 해보면 '검사'버튼이 있다.

 

 

도구> 개발자도구

F12

 

로도 같은 기능을 나타낸다.

 

개발자도구 좌측 상단의 버튼을 클릭하고

웹페이지의 원하는 부분에 마우스를 갖다대면

위처럼 어떤 부분인지 표시가 된다.

 

개발자도구 카피하기

저 상태에서 클릭하고

해당 코드 우클릭 > copy > copy XPath

 

full XPath는 전체경로를 따온다.