H + 파충류 남자 웹 사이트 해킹 + 웹 사이트 통합 예

H는 남자 한 사람을 나타냅니다, 백일몽하지 않습니다.

 

(또한 FOAF 커뮤니티의 중간에, 더 자주 웹 체이서라는 웹 거미, 웹 로봇라고도 함) 웹 크롤러는 다음과 특정 규칙의 종류, 월드 와이드 웹 프로그램이나 스크립트에 자동으로 잡아 정보입니다. 기타 자주 사용하는 이름은 개미, 자동 색인, 시뮬레이션 프로그램이나 웜을 포함한다.

1 원산지

2 인터페이스 분석

3 프로그래밍

4 웹 존재

5 배포 실행

6 후속

1 원산지

최근에 남자 한이 점은 몇 장으로 보았다 소셜 미디어 사이트에서 볼 수, 나는 꽤 좋은 느낌,하지만 불행히도 처음 몇 장에서는 다음, 발굴 골드 볼 만화를 검색 할 필요가 무료입니다, 그와 같은 만화를 발견 최종 분석에서 최고 - 한국어 웹 사이트라는 자원을 훔치는 것입니다.

 

F12 습관 톤 개방형 네트워크는 예기치 않은 발견 코믹 데이터 인터페이스 JSON 형식 투과!

 

데이터 취득 부 만화 넘기

 

각 섹션의 데이터는 볼 구성원에 대한 메커니즘을 통해 모든 만화의 데이터 수단이있다!

이러한 상황은 단순히 나를 크롤링을 이리 말하고있다 ...

디자인 아이디어는하는 것입니다
1. 먼저 프로그램 데이터베이스에 데이터를 크롤링하여 사이트
로컬에서 그림으로 만화 크롤링에 그런 2.
찾아 무료로 자신의 느낌의 최종 개발을위한 간단한 3 미리보기 사이트

2 인터페이스 분석

이 데이터 API 인터페이스는 아마도 가장 간단한, 간단한, 라인의 인터페이스를 직접 분석입니다

  • 이 프로그램을 통해 액세스 할 때 경우 일반적으로는 노트 쿠키에 시간이 있기 때문에 액세스 인터페이스가 브라우저에서 직접 프로그램에 데이터의 복사본을

  • 인터페이스는 모든 만화 데이터를 찾을 수 있습니다 얻을, 관찰 메뉴의 분류 바닥은 모든 인터페이스를 얻을 수있는 만화 페이지입니다

 

 

 

  • 모든 만화는 아래로 기어와 데이터베이스 테이블 만화에 저장된 루프를 통해 모든 데이터 쿼리 페이징을 내려  만화 테이블

 

만화 테이블

  • 그리고 순환에 의한 방문 만화 테이블은 루프 테이블 풍자 만화 페이지를 통해 아래로 데이터베이스 쿼리에 저장된 모든 챕터 데이터를 얻을 것이다  테이블을

 

cartoon表

만화 테이블

프로세스 파충류는 우리의 프로그램에 적합한 지연, 슬립 () 함수를 호출합니다. 이 페이지에 접근하는 속도를 감소, 프로그램은 감시가 차폐 방지

3 프로그래밍

다음 단계는 논리를 크롤링의 가장 중요한 사진입니다 ...

考虑后续章节的更新可以增加字段用以拓展
比如在cartoon表中增加 mhstatus ,lock 和 finish 字段

 

整体流程,简单画了一下

 

单次流程,简单画了一下

就这样写完程序第一次爬取就用了大概三天的时间,中间有关机休息,总共是爬取了320本漫画,11702个章节
约40G的资源

 

40G条漫资源

40G条漫资源

4 网站呈现

漫画都是图片目录观看很不方便,因此需要开发一个简单的网站,这个对于一个程序员应该说都不难,因为是自己看所以不需要注册 不需要会员 更不需要金币和广告,直接运行在自己家的电脑上一个网址就可以
于是就第一版的网站不到一个小时就搞出来了,真的是简单暴力!点开即看!

 

然而真的很简单吗?实际体验中发现许多问题了,即使仅自己看的网站都是需要打磨,需要下功夫的,主要问题有

  • 1 没有观看记录,每次都需要翻开自己上次看到哪里了
  • 2 没有自动翻页
  • 3 看过看完的作品始终在前排呈现每次还是都要翻
  • 4 没有下一章上一章 需要后退点下一章

于是接着开干,一一解决了以上几个问题

  • 漫画分类有 看过 未看 收藏三个分类,回看直接会看上一次看到的章节

 

 

 

  • 在观看页面增加 top button按钮,自动滚屏,上一张下一章功能

 

搞到这里发现为了看个漫画我费了多大劲!

  • 然而还没完,在实际浏览中真的有很漂亮的图想保存下来,如果另存为的话是不行的,因为这是条漫,你只想截取一个画面,但有可能是好几个对话的内容都被下载了,怎么办呢?继续搞!

思路是通过在图片上定位两个点,然后通过两个点的高度与图片的长度进行比例计算然后传到后台,在后台进行图片比例裁剪,直接保存到服务器上,多说无益直接上图看效果

 

通过点击两次点击 绿线开始 红线结束,即可将区域内的图片单独截取下来

 

 

收藏图库中所截取的图片和页面截取区域相差不大,可以接受

 

5 部署运行

一开始是用家式电脑搞的,但是实际使用中不能老开着电脑当服务器,主要是对电脑的损耗,其次是费电啊!(其实主要是费电,穷),所以就需要一个功耗低的方案,我一开始想到的是树莓派,但是树莓派也是需要花钱买的!于是我重新启用了我大学时候的破电脑,2G内存开个浏览器都会卡的那种,不过这种性能做个网页服务还是可以的。开搞!

  • linux系统,我安装的centos 7 最小化安装,连可视化界面都不要的那种方案:一切为了节省性能
  • 用网线连接网络,安装网络驱动,安装ntfs驱动,安装数据库,安装java坏境,保证笔记本可以无线ssh登录,读取移动硬盘即可
  • 复制图片资源到笔记本
  • 复制网站程序到笔记本,将程序添加到自启动列表中,到此一切结束,大概花费了一周时间,到此就拥有了一个私人漫画网站!

6 后续

后来为了保证散热我把笔记本的后壳敲调一大块,为了轻便还把屏幕给卸掉,所有无关的配件能拆就拆,最后想说2G内存跑起来还是可以的

 

有时候图片会丢失,请关注个人博客备份地址,

https://cookanger.top/2020/02/12/spider/korea_cartoon/

发布了7 篇原创文章 · 获赞 30 · 访问量 6万+

추천

출처blog.csdn.net/u010034154/article/details/104286790