첫째, 파이썬 크롤러 네트워크 라이브러리
파이썬 파충류 네트워크 라이브러리는 주로 urllib, requests, treq, hyper, urllib3, httplib2, RoboBrowser, MechanicalSoup, mechanize 입니다
둘째, 파이썬 웹 크롤러 프레임 워크
파이썬 웹 크롤러 프레임워크는 주로 grab, scrapy, pyspider, cola, Portia, restkit, demiurge 를 포함합니다.
셋째, HTML/XML 파서?
LXML: c 언어로 작성된 효율적인 HTML/ XML 처리 라이브러리입니다. XPath 를 지원합니다.
●CSSselect: DOM 트리와 CSS 선택기를 구문 분석합니다.
●pyquery: DOM 트리와 jQuery 선택기를 구문 분석합니다.
●BeautifulSoup: Python 으로 구현된 비효율적인 HTML/ XML 처리 라이브러리입니다.
●html5lib: WHATWG 사양에 따라 HTML/ XML 문서를 생성하는 DOM 입니다. 이제 모든 브라우저에서 이 사양을 사용합니다.
● 피드 파서: RSS/ATOM 피드를 분석합니다.
●MarkupSafe: XML/HTML/XHTML 에 보안 이스케이프 문자열을 제공합니다.
●xmltodict: XML 을 처리할 때 JSON 을 처리하고 있다고 느낄 수 있는 파이썬 모듈입니다.
●xhtml2pdf: HTML/CSS 를 pdf 로 변환합니다.
● 풀기: XML 파일을 파이썬 객체로 쉽게 변환할 수 있습니다.
넷째, 텍스트 처리
간단한 텍스트를 구문 분석하고 조작하는 라이브러리입니다.
● difflib: (파이썬 표준 라이브러리) 차등 비교를 돕습니다.
●Levenshtein: Levenshtein 거리와 Levenshtein 을 빠르게 계산합니다.
● 퍼지 와이즈: 퍼지 문자열 일치.
●esmre: 정규 표현식 가속기.
●ftfy: 유니코드 텍스트를 자동으로 구성하여 조각을 줄입니다.
다섯째, 특정 형식 문서 처리
특정 텍스트 형식의 라이브러리를 구문 분석하고 처리합니다.
●tablib: 데이터를 XLS, CSV, JSON, YAML 등의 형식으로 내보내는 모듈입니다.
● 텍스트: Word, PowerPoint, PDF 등 다양한 파일에서 텍스트를 추출합니다.
●messytables: 혼란스러운 양식 데이터를 해결하는 도구.
●rows: 다양한 형식을 지원하는 범용 데이터 인터페이스 (현재 CSV, HTML, XLS, TXT 지원: 향후 더 많은 제공 예정! ) 을 참조하십시오.