파충류는 무엇인가


          
           웹 크롤러 매우 강력한 것은 말할 필요도없이,이 구글, 바이두에 대한 업계의 벤치 마크는 웹 크롤러는 정보의 소스를 제공하는 프로그램입니다. 나는이 물건은 무지 볼 수 밖에 없었다 터치 시간 동안, 또한 우리는 이러한 대기업 나와 다른 사람의 연구와 이해에 최선 뭔가 축복을 개발하는 것을 생각한다. 열정은 여전히 어떤 영감을하지 않았다, 안개보기, 책을 많이 구입하는 저를 구동한다. 마지막으로, 도서관에서, 나에게 큰 영감을 준 코너 << >> 네트워크 로봇 자바 프로그래밍 가이드에 인감을 찾을 수 있습니다.
           주제로 시작, 웹 크롤러가 실제로 로봇 프로그램이 무엇인지 로봇 프로그램입니다, 그것은 예를 들어, 인간의 프로그램에 대한 반복적 인 일을하는 것입니다 : 당신은 매우 지루한 직장을 얻을, 당신의 상사가 다음 대회 일에 당신을 호출 말씀을 아래로 복사 라이벌 회사의 웹 사이트 홈 페이지의 콘텐츠, 당신은 브라우저를 열고했다 (사람도했다) 그를 구원 홈으로 회사의 웹 사이트 옆에 입력, 마우스를 그릴하고 다음 Ctrl + C 및 Ctrl + V ,, 모두가 잘 세상을 저장합니다. 어느 날 갑자기 작업이 완료되기 전에 더 나은, CV 대법 상대적으로 숙련 된 훈련을받은 회사의 강력한 경쟁자 범위는 50로 증가 또는 이전 과정을 반복,하지만 그것에 대해 생각 나중에 수백, 수천의 경우, 경쟁, 나의 하나님, 당신은 아 소진해야! 심장 필사적이 지루한 작업을 제거 할 수있는 프로그램,하지만 다행히 프로그램 원숭이, 그래서 내가 작업을 완료 할 수 있도록하는 프로그램을 작성합니다.
           우리는이 프로그램을 설계 어떻게, 무엇보다도 내가 50 회사의 웹 사이트가 로컬에 저장된 콘텐츠를 찾을 수의 웹 사이트를 방문, 각 URL을 저장 그는 사이클합니다. 이 크롤러입니다, 이름을 큰 소리, 사실, 파충류 만이 반복적 인 작업을 해결하는 데 도움이하는 것입니다. : 그래서 그는 다음과 같은 코드 작성
                  ) (주를
                 {
                              URL [50] // 50 회사 주소의
                              루프는 (i <50)에 대한 루프 // 50 사이클, 루프 동안만큼 순환 라인있다.
                              {
                                    요청 URL [내가]; // 페이지 가져 오기
                                    Ctrl + C를; // 복사
                                    Ctrl 키 + V를; // 붙여
                                    내가 ++;
                              }
                 }
                           
            내 하나님은 또한 코드를했다. 이 프로그램 원숭이는 어떻게 페이지를 구하는 문제가 발생하는? 어떻게 당신이 그것을 저장하려는 내용의 종류를 찾는 방법은? 수백 개의 웹 사이트 사이트 수천 후, 배열 내가 또 다시 입력해야 할 이러한 URL을 저장? 항상 문제 해결.
            먼저 우리는 우리가 브라우저를 통해 URL을 입력하고자하는 페이지로, 해당 브라우저는 당신이 간절히 TV 시리즈의 업데이트를 기다리는 경험이 있는지, 그것을 수행하는 방법입니다, 좋은 19 점 업데이트를했다,하지만 방법 더 업데이트 페이지를 조금 새로 고침하지 않으며 당신은 여전히 그를 너무 오래 당신이 요청하지 않는 한 변경되지 않습니다 페이지가,이 장기화 과정이 아니다, 업데이트 모르는 새로 고침하지 않으면 마지막으로 발견이 업데이트되었습니다하지만 단명 과정. 당신은 당신이 서버 프로그램 서버 프로그램은 당신이 HTTP 통신을 달성하는 것입니다 브라우저에 표시 할 페이지로 돌아가려면을 참조 할 페이지에 브라우저가 사실이며, 리프레시 동작의 동작을 통해 URL을 입력 일을 할 수있는 계약의 도구, 다음 단계는 가장 중요한 일을 찾는 것에 대해 걱정하지 마십시오, 지금 우리의 프로그램에이 도구,이 도구에서 지원하는 하나의 객체 지향 개발 언어를 발견하는 것은 우리가 알고 있다는 것입니다 그는 페이지를 통해 얻을 수 있습니다. 왜 정확하게 URL에서 말을하는 것입니다 내가보고 싶은 페이지를 찾을 수있다 "범용 인터넷 액세스 방법에 사용할 수있는 리소스의 위치가 간단한이다, 그는 표준은 인터넷 리소스의 주소이며 말했다 인터넷에있는 모든 파일을 밖으로, "지적 파일의 위치에 대한 정보를 포함하는 고유 한 URL이 있습니다
  (그는 다른 사람이하지 않았다 제외) URL을가 말한다
           (http://127.0.0.1:8080 예를 들어를 /index.html를, HTTP 대표 대상 컴퓨터의 IP 주소를 액세스하기 위해 HTTP 전송 프로토콜, 127.0.0.1을 사용하고는, 8080은 포트, index.html을, 우리는 너무 많은 정보를 제공) 우리가 파일 이름을 할 것입니다도 어려운 http 프로토콜 도구는 웹 사이트를 통해 우리가 원하는 파일을 찾는 방법을 상상합니다. (http://www.XXX.com/
 과 같습니다 URL을 일반 형식과 월드 와이드 웹 URL로 변환됩니다).
          그럼 어떻게 내가 원하는 것을 알고, 저장할 수 있습니다. 첫째, 무엇 페이지와 같은 복잡한 모음은 항상 조직의 형태를 가질 것이다, 또는 피곤하지 않다 관리 할 수 있음을 텍스트, 이미지, 비디오, 음악, 프로그램 ... 큰 컬렉션을 포함하도록하고, 그 슈퍼 HTM입니다 텍스트 언어는 사실, 태그의 무리는 우리가 원하는 컨텐츠 (텍스트, 이미지, 비디오, 음악, 프로그램 ...) 페이지가 브라우저를 열고 URL, F12 키를 눌러 입력하고 왼쪽의 그림과 같이가 볼을 포함 오른쪽 페이지의 HTML 형식이, 오른쪽이 좋아 보인다 형편이지만, 그것은 중요하지 않습니다, 우리는 단지 우리가 걱정하는 몇 가지 레이블을 찾고 (라벨은 <DIV>이 양식과 같은 </ DIV> 구조)을 당신은 또한, 드림위버와 같은 필기 도구 페이지를 찾을 페이지 ~~ 쓸 수 있습니다
            다음과 같이 F12 후 페이지 :
 

 

 

    
     당신은 사실, 당신은 HTML 형식으로 반환 요청 된 페이지의 URL을 입력, 즉, 당신이 다음,이 일의 오른쪽을 요리 왼쪽 조화로운 것은 변환주고, 브라우저가 형식을 구문 분석 할 수 있습니다 해당 내용은 페이지의 해당 위치에, 오른쪽에있는 텍스트를 볼 수하고 우리가이 태그는 우리가 같은 HTML 구문 분석 도구는 텍스트를 얻을 수있을 것입니다 <P> </ P> 분석으로 위의 그림과 같이 왼쪽은 텍스트에 해당 모든 곳에서, 당신이 관심있는 텍스트가 포함 된주의 라벨, 당신은 텍스트를 획득 한 후 파일로 저장할 수 있습니다.
     나쁘지 않은, 마지막 질문을 떠나는 것은 큰 문제를 보였다, 그러나 가장 중요합니다. 당신이 얼마나 많은 URL을 작성하는 방법 많은 URL 상사가 당신을 줄 수 있습니다. 그러나 현실은 인터넷 상사에 부합되지 않는 것입니다, 당신이 작업은 왕, 우리의 웹 사이트에 관련된 찾아 내게 텍스트, 좋은 왕을 얻을 수 없다,하지만 거기에 실제 상황에서 당신의 웹 사이트를, 그래서 제공하는 방법 어떻게 내가 원하는 페이지의 URL을 얻을 수 있나요?
     페이지를 검색하면 자동으로 다음 페이지로 이동할 때 우리는 페이지 제목이나 버튼을 클릭합니다.
예를 들어, 다음 그림은) 영화 :( 페이지 텍스트 분류 제목을 보여줍니다
       
        다음은 속성 태그이이 URL이 들어있는 폼을보고, "..."= A HREF을 가져왔다, 그래서 점프 (하이퍼 링크) 다음이 새로운 URL이 서버에 요청을 통해 사실이며, 새로운 페이지를 표시합니다. 즉 당신은 당신의 브라우저에 URL을 입력 한 다음 이유가 Enter 키를 눌러, 이번에는 (장황한)를 클릭합니다. 그래서 우리는 그런 당신이 다른 사람들이 일반적으로 트래픽이 높은 웹 사이트에 배치, 빨리 알고 싶다면이 웹 사이트를 통해 자신의 웹 사이트를 쓰기로 함께 네트워크의 모든 페이지가 다음 내 웹 사이트로 이동 굵게 상상력과 관련된 다음 물론, 내 웹 컨텐츠는 또한 당신이 웹 페이지 구문 분석 URL을 찾을 수있는, 다음 등 다음 페이지를 찾을 수있는 요청을 전송하고, 사이트에 연결된 다른 사람을 포함, 내 웹 컨텐츠를 방문하십시오. HTML 구문 분석 구문 분석 도구를 사용하기 매우 간단 달성하기 위해,이 시간은 우리가 두 번째 탭에 관심이있는
 HREF = "URL" <A>
         다시 쓰기를 다시 :
         무효 메인을 ()
        {
                  벡터 <문자열> urlArray; // 여기에 컨테이너 벡터와 배열의 무한한 길이는, 당신은, 또는 저장 URL (URL) (하지만 실제로 적합, 다음 시간 분해) 배열의 길이를 촉진하기 위해 작성할 필요가 없습니다 적어도 하나의 URL을 추가하기 시작하기 전에
                  그동안을 (urlArray.count는! = 0) 판정의 어레이에 저장된 URL // 루프 빈 빈 말 할 수 없다.
                  {
                            문자열 = HtmlPage 요청 (urlArray [0]); // 요청 페이지 파일 인 index.html xxx.html 문자열의 형태를 얻을 수있다.
                            문자열 텍스트 = ParseHtmlText (htmlPage); //이 htmlPage을 분석하고, 텍스트를 가져,
                            문자열 URL을 = ParseHtmlUrl합니다 (HtmlPage), 구문 분석 홈 URL이 많이있을 것입니다 // htmlPage을 분석하고, URL을 얻을, 사실, 여기에 URL의 무리이며, 여기 선명도 바 물품.
                            SAVEFILE (텍스트); // 로컬 텍스트 파일에 도착하기 바로 저장
                            urlArray.add (URL)의 다음 사용으로, URL을 URL을 저장 // urlArray에 URL을 추가
                            urlArray.remove (0); //이 제거 사용 된 url은 처음 urlArray [0]입니다
                   }
        }
  
     완료 웹 크롤러를 검색 할 수있는 마지막 폭 방법. 물론, 당신은 Tucao하지만, 너무 많은 슬롯이 먹을 수없는 가리 킵니다. 나의 게으름을 용서하십시오,이 백퍼센트 웹 크롤러입니다. 첫째, 과정을 설명, 다음주기는 것, 그것은 htmlPage 페이지 URL 요청에 의해 얻은 최초 취득시 URL이 아닌 다음 웹 페이지의 텍스트와 URL이 두 가지를 얻을, 다음 텍스트에 텍스트를 저장 구문 분석 목록이 비어 있는지 여부 URL 검사를 시작합니다 포인트가 액세스 할 수로 URL URL은리스트에 가입. 이 과정은 그렇게 다시 철학적 질문, 닭고기, 계란에, 페이지로 URL의 URL 페이지를 통해 얻을 수 있습니다.
 
    처음이다, 닭 또는 계란은 상관없이 첫 번째 사람, 우리는이주기에 가자 할 필요가 없습니다, 계란, 무한 결핍 어린이와 손자는 닭이 알을 낳기 수 있도록, 그래서. 그래서 우리는 계란 (URL)를, 세계의 기어가 회전하기 시작 제공합니다. 파충류 원리는 당신이 그것을 달성 할 수있다 (C ++는, 자바, C #을, 파이썬, 이동 PHP) 어떤 하나의 객체 지향 언어를 사용하므로 간단합니다. 완료,하지만 일이 끝나지 있지만, 우리는 다양한 문제가 발생합니다이 프로그램을 작성 후 프로그램을 흉내 네트워크는 위험한 장소, 우리는거야 화성 바있다. 실수 절차는 오늘날의 네트워크에서 반 시간에 살 수있는이 이미 기적이다. 파충류, 절차, 개발 도구 구성 요소의 형식 끝없는 다양성의 넓은 범위가 왜 결국주기이기 때문에 이것은이다. 하지만 먼저 철저 파충류가 자신의 파충류를 설계하는 것이 더 유연하게 할 수 있는지 이해, 프로그램으로 원숭이가 다음 말을, 작업을 완료 할 수 없습니다

 

추천

출처www.cnblogs.com/1208xu/p/11740340.html