Development

웹스크래핑 & 웹크롤링

젤리젤리젤리젤리젤리 2023. 6. 21. 11:25
반응형

https://tonyaround.com/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-vs-api-%EB%88%84%EA%B0%80-%EC%8A%B9%EC%9E%90%EC%9D%B8%EA%B0%80-%EB%81%9D%EB%82%98%EC%A7%80-%EC%95%8A%EB%8A%94-%EC%9D%B4%EC%8A%88/

웹 개발를 진행하다가 보면 다른 사이트의 데이터를 가져와야 할 경우가 종종 발생한다.

PM들은 그냥 가져와도 된다고들 하지만, 기술적 차이와 정확한 법적 차이를 알고 있지 않을 경우 법적 문제가 생길 수도 있다. (물론 개발자가 책임까지 지는 상황은 발생하지는 않는다고 하지만, 그래도 개발자는 알고 문제제기를 해야 할 것 같다)

- 기술적 차이:
웹 크롤링: 웹 크롤링은 웹 사이트를 체계적으로 탐색하여 여러 페이지 또는 소스에서 정보를 검색하고 수집하는 것입니다. 크롤러는 시드 URL에서 시작하여 다른 페이지에 대한 링크를 따라가며 상호 연결된 웹 페이지의 맵을 생성합니다. 일반적으로 URL, 페이지 제목, 메타데이터, 때로는 웹 페이지 콘텐츠와 같은 다양한 데이터 포인트를 추출합니다. 웹 크롤러는 검색 엔진용 웹 페이지 인덱싱이나 연구 목적으로 데이터 수집과 같은 작업에 자주 사용됩니다.

웹 스크래핑: 반면에 웹 스크래핑은 웹 페이지에서 특정 데이터를 추출하는 데 중점을 둡니다. 여기에는 페이지의 특정 요소(예: HTML 태그, CSS 선택기 또는 XPath 표현식)를 대상으로 웹 페이지를 가져오고, HTML 구조를 구문 분석하고, 날씨 데이터와 같은 원하는 정보를 추출하는 코드 작성이 포함됩니다. 웹 스크래핑은 일반적으로 전체 웹 사이트를 탐색하는 것보다 특정 데이터 포인트를 검색하는 것을 목표로 하여 보다 대상이 정확하고 정확합니다. 일반적으로 데이터 분석, 가격 모니터링 또는 다양한 소스의 정보 집계와 같은 목적으로 사용됩니다.


- 법적 차이:
웹 크롤링: 웹 크롤링의 적법성은 다양하며 웹사이트 서비스 약관, robots.txt 파일 및 해당 법률과 같은 요인의 영향을 받을 수 있습니다. 웹사이트 소유자는 사이트에 대한 웹 크롤러의 액세스를 제한하거나 통제하는 정책을 가지고 있을 수 있습니다. 법적 경계를 지키려면 웹사이트의 서비스 약관을 존중하고, robots.txt 파일에 지정된 특정 크롤링 제한 사항을 준수하고, 데이터 개인 정보 보호 및 사용에 관한 모든 법적 요구 사항에 유의하는 것이 중요합니다.

웹 스크래핑: 웹 스크래핑은 또한 법적 고려 사항을 제기하므로 주의해서 접근해야 합니다. 일부 웹사이트는 개인적인 용도로 스크래핑을 허용하거나 데이터에 액세스하기 위한 API를 제공할 수 있지만 다른 웹사이트는 서비스 약관에서 명시적으로 스크래핑을 금지합니다. 콘텐츠를 스크랩하기 전에 웹사이트의 정책을 검토하고 이해하는 것이 중요합니다. 또한 적절한 동의 없이 개인 데이터나 민감한 데이터를 스크랩하거나 관련 데이터 보호법을 위반하면 법적 문제가 발생할 수 있습니다. 웹사이트에서 데이터를 스크랩할 때 저작권법과 지적 재산권을 존중하는 것도 중요합니다.

- 정확한 조사와 법적 환경 이해가 필수
철저한 조사를 수행하고, 법적 환경을 이해하고, 필요한 경우 법률 준수를 보장하기 위해 법률 전문가 또는 웹 스크래핑 경험이 있는 전문가와 상담하는 것이 필수적입니다.

출처

ChatGPT

https://www.snugarchive.com/blog/python-web-scraping/ 

https://tonyaround.com/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-vs-api-%EB%88%84%EA%B0%80-%EC%8A%B9%EC%9E%90%EC%9D%B8%EA%B0%80-%EB%81%9D%EB%82%98%EC%A7%80-%EC%95%8A%EB%8A%94-%EC%9D%B4%EC%8A%88/

 

Buy Me A Coffee

728x90
반응형

'Development' 카테고리의 다른 글

python에서 로컬 파일 호출  (0) 2023.09.12
멱등성  (0) 2023.07.19
MSSQL에서 PRIMARY KEY 컬럼 제거  (0) 2023.06.18
개발언어별 개발 생산성 비교  (0) 2023.06.17
Rust  (0) 2023.06.16