검색 엔진 참고 사항

1. 검색엔진 참고사항

1.1 구글이 성공한 이유

기술 산업에는 사람들이 자신의 사용 습관을 바꾸려고 하지 않는다는 원칙이 항상 존재해 왔습니다. Ramaswamy는 인터뷰에서 "우리가 직면한 가장 큰 장애물 중 하나는 실제로 사용자의 타고난 습관을 바꾸는 것입니다. 사람들은 Google의 성공이 단지 더 나은 제품 개발에 있는 것이 아니라는 사실을 망각하고 있습니다. 우리의 목표를 달성하려면 일련의 정확한 유통 결정.”

보고서에 따르면 Google은 다양한 Apple 기기의 Safari 브라우저에서 기본 검색 엔진이 되기 위해 Apple에 연간 최대 150억 달러를 지불합니다. Google은 또한 Firefox 브라우저에서 선호하는 검색 엔진이 되기 위해 Mozilla에게 비용을 지불합니다. 비용은 연간 4억 5천만 달러에 달합니다. Google은 다른 기기 제조업체 및 브라우저 개발자와도 파트너십을 맺고 있으며 통신업체와도 유사한 계약을 맺고 있습니다. 월스트리트저널에 따르면 삼성은 2023년 구글과의 거래 종료를 잠시 고려했지만, “구글과의 광범위한 비즈니스 관계에 미칠 영향” 등 다양한 이유로 결국 포기했다.

Google의 진정한 강점은 다른 제품에 있습니다. 안드로이드는 현재 전 세계에서 가장 인기 있는 모바일 운영 체제로, 약 78%의 시장 점유율을 차지하고 있습니다. Chrome은 가장 인기 있는 웹 브라우저로 시장의 약 62%를 차지합니다. 이 두 가지 주요 플랫폼에서 Google은 자연스럽게 흔들리지 않는 기본 검색 엔진이 되었습니다.

1.2 검색 엔진 구축은 복잡하면서도 단순하다

검색 엔진은 마법 같은 것입니다. 믿을 수 없을 만큼 복잡하면서도 순수하고 단순합니다.

기본적으로 검색 엔진이 수행하는 작업은 웹 페이지 데이터베이스("검색 색인")를 컴파일한 다음 쿼리가 수신될 때마다 해당 데이터베이스를 탐색하여 가장 관련성이 높은 최고 품질의 페이지 집합을 추출하고 제공하는 것입니다. 그러나 프로세스의 모든 단계에는 엄청난 복잡성이 수반되며 일련의 절충이 필요합니다. 시간과 돈이라는 두 가지 핵심 절충점이 있습니다.

기업가가 인터넷의 수천억 페이지에 걸쳐 지속적으로 업데이트되는 데이터베이스를 구축할 수 있다고 하더라도 스토리지 및 대역폭 비용만으로도 지구상의 어떤 거대 기업도 파산시킬 수 있습니다. 여기에는 매일 수많은 데이터베이스 검색을 수행하는 비용은 포함되지 않습니다. 또한 검색 응답의 매 밀리초가 중요합니다. Google은 각 검색어가 결과보다 오래 걸리는 시간을 표시합니다. 전체적으로, 기업가는 전체 데이터베이스를 하나씩 볼 시간이 충분하지 않을 수 있습니다.

또한, 검색 엔진의 구축도 '고품질 웹 페이지란 무엇인가?'라는 기본적인 철학적 질문에서 시작됩니다. 기업가는 어떤 의견 차이가 합리적인지, 어떤 정보가 완전히 넌센스인지 판단해야 하며, 이를 광고가 얼마나 설명해야 하는지 파악해야 합니다. .. 과도할 겁니다. AI가 작성하고 SEO 쓰레기가 가득한 웹사이트는 확실히 좋지 않지만, 개인이 작성하고 SEO 쓰레기가 가득한 음식 블로그는 나쁘지 않습니다.

위의 논의가 완료되고 명확한 경계가 설정되면 검색 엔진은 기본적으로 예약해야 할 수천 개의 도메인 이름을 결정합니다. 여기에는 CNN 및 Breitbart와 같은 뉴스 웹사이트, Reddit, Stack Overflow 및 Twitter와 같은 인기 토론 게시판, Wikipedia 및 Craigslist와 같은 도구 서비스, YouTube 및 Amazon과 같은 서비스 플랫폼, 다양한 최고의 레시피/스포츠/쇼핑 네트워크가 포함됩니다. 때때로 기업가는 개별 페이지를 탐색하는 대신 이러한 웹사이트와 협력을 협상하고 구조화된 방식으로 직접 데이터를 얻을 수 있습니다. 많은 대규모 플랫폼에는 전담 팀이 있고 때로는 무료로 협력할 의향이 있다는 점을 언급할 가치가 있습니다.

그 후에는 크롤러를 해제할 시간입니다. 이러한 로봇은 특정 웹페이지의 콘텐츠를 크롤링한 다음 페이지의 각 링크를 찾아서 추적하고 모든 페이지 콘텐츠의 색인을 생성하여 링크와 색인 검색 및 추적 주기를 완료할 수 있습니다. 크롤러가 페이지를 방문할 때마다 이전에 설정된 고품질 웹페이지 표준에 따라 평가됩니다. 품질이 좋다고 판단되는 콘텐츠가 서버에 다운로드되고 검색 색인이 급속도로 확장되기 시작합니다.

물론 크롤러가 모든 곳에서 인기가 있는 것은 아닙니다. 크롤러가 웹페이지를 열 때마다 콘텐츠 제공자에게 대역폭 비용이 발생합니다. 이제 웹 사이트의 개별 페이지를 매초마다 로드하고 저장하는 검색 엔진 제품군을 상상해 보십시오. 이러한 업데이트 비용은 공급자가 감당할 수 있는 수준을 빠르게 초과하게 됩니다.

따라서 대부분의 웹사이트에는 콘텐츠에 액세스할 수 있는 크롤러와 콘텐츠에 액세스할 수 없는 크롤러, 크롤링이 허용되는 URL을 정의하는 robots.txt라는 파일이 있습니다. 기술적으로 검색 엔진은 robots.txt의 규칙을 자유롭게 무시할 수 있지만 이는 웹 구조와 문화의 일부입니다. 거의 모든 웹사이트는 Google과 Bing을 기꺼이 수용합니다. 그 이유는 Google과 Bing이 제공하는 검색 가능성이 대역폭 비용보다 크기 때문입니다. 아마존이 자신의 쇼핑 사이트를 크롤링하고 분석하는 것을 원하지 않는 등 특정 서비스 제공자를 차단하는 사람들도 많습니다. 다른 사람들은 포괄적인 규칙을 설정합니다. Google과 Bing을 제외한 크롤러는 없습니다.

곧 크롤러는 인터넷의 상당히 광범위한 스냅샷을 가져올 것입니다. 다음 단계는 검색 엔진이 수신할 수 있는 모든 쿼리에 대해 모든 페이지의 순위를 지정하는 것입니다. 주제별로 페이지를 정렬하면 모든 것을 포괄하는 하나의 거대형이 아닌 더 작고 검색 가능한 색인으로 나눌 수 있습니다. 간단히 말해서 지역 검색결과는 지역 검색결과와 일치하고 쇼핑은 쇼핑과 일치하며 뉴스는 뉴스와 일치합니다. 특정 페이지의 주제와 콘텐츠를 수집하려면 많은 머신러닝 기술을 사용해야 하며, 사람의 도움 없이는 불가능합니다.

또한 채점팀이 참여하여 쿼리와 결과를 제시하고 결과의 신뢰성을 0에서 10까지 평가하도록 요청합니다. 때때로 문제는 명백합니다. 누군가가 "Facebook"을 검색했지만 첫 번째 응답 결과가 facebook.com이 아닌 경우 이는 확실히 용납할 수 없는 일입니다. 그러나 대부분의 경우 우리는 많은 수의 입력에서 얻은 평가를 결합하고 이를 지수 및 주제 모델에 입력하고 프로세스를 반복합니다.

현재 문제는 절반만 해결되었습니다. 또한 소위 "쿼리 이해" 기능을 개선해야 합니다. 이는 "Dwayne Johnson"을 검색하는 사람들과 "Dwayne Johnson"을 검색하는 사람들이 실제로 동일한 정보를 찾고 있다는 것을 인식하는 것을 의미합니다. 결국 우리는 더 쉽게 검색할 수 있도록 쿼리를 다시 작성할 수 있는 동의어 및 유사성의 대규모 라이브러리를 축적할 것입니다. 그리고 Google이 말했듯이 매일 엔진에서 15%의 새로운 검색이 이루어지므로 사람들의 실제 요구 사항을 이해하고 새로운 지식을 확장하려는 이러한 경쟁은 결코 끝나지 않을 것입니다.

얼마 후, 검색 엔진이 공식적으로 출시되었고 더 많은 사람들의 관심과 클릭, 선호도를 얻기 시작했습니다. 여기에는 표준도 있습니다. 사용자가 링크를 클릭한 후 즉시 다른 링크를 더 이상 검색하고 클릭하지 않는다면 이는 현재 결과의 품질이 만족스럽다는 것을 의미합니다. 반면에 사용자의 클릭 수가 많을수록 사용자는 자신이 실제로 원하는 것이 무엇인지 더 잘 이해할 수 있습니다.

또한 검색 엔진을 운영하려면 속도, 비용, 품질 간의 균형을 지속적으로 유지해야 합니다. 예를 들어 누군가가 "YouTube"를 입력하고 Enter 키를 누르면 전체 데이터베이스를 검색하는 데 시간이 너무 오래 걸리므로 불필요한 대역폭과 저장 비용이 발생합니다. 인터넷 전체를 수용하는 데이터베이스를 유지하면 저장 비용이 높을 뿐만 아니라 인터넷에서 가장 인기 있는 웹사이트 100개만 표시하도록 설정하면 속도와 비용은 보장할 수 있지만 콘텐츠가 불완전하고 품질을 신뢰할 수 없게 됩니다. 동시에 각 웹사이트 자체는 지속적으로 변화하고 있으며 검색 엔진 크롤러와 순위 시스템도 계속해서 그에 맞춰야 합니다.

추천

출처blog.csdn.net/wan212000/article/details/132325687