CSDN 搜索工具使用体验与对比分析

搜索工具是 C 站的核心产品,也是广大计算机学习读者的最爱。基于 CSDN 的程序设计与基于 Baidu 的程序设计并肩,成为计算机学习者的最爱。

本文对几种常用的计算机行业相关搜索工具进行对比分析。

本次对比分析只针对各网站的 PC 端网页版。


0. 对比网站

专业性网站:

  • CSDN(https://www.csdn.net/)

  • 博客园(https://www.cnblogs.com/)

  • 掘金(https://juejin.cn/)

  • 极客邦(https://www.infoq.cn/)

  • 开源中国(https://www.oschina.net/)

跨行业平台:

  • 知乎(https://www.zhihu.com/)

  • 简书(https://www.jianshu.com/)


1. 搜索栏的位置

  • 在网站首页都设有搜索栏,通常位于页面右上方,标题行右侧
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


  • 只有 CSDN、知乎 的搜索按键为橙色/蓝色独立按键,非常显著,不容易误操作,点赞!

  • 只有 CSDN、知乎 的搜索栏设有下拉列表,提供关键词引导提示功能,点赞!

  • CSDN 的标题栏(含搜索栏)的高度比知乎、掘金、极客邦的标题栏高度略小,视觉感受有些拥挤。

  • 虽然首页的版面设计不是本次对比的内容,但开源中国与博客园的页面设计相对怀旧,而知乎、掘金、极客邦的 PC版页面风格更鲜明地接近移动端的设计潮流。

  • 通常,在网站其它页面中也设有搜索栏,位置、风格基本一致。


2. 搜索结果页面的分析

网页搜索,搜索关键词设为 opencv轮廓,不是很热门也不算太偏的内容。对于这个关键词,我看过文章超过300篇,所以比较容易评价。

2.1 搜索结果页面

先上搜索结果页面,再做分析讨论。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


2.2 搜索结果页面项目的对比

  • 各专业网站的搜索结果内容都比较丰富,内容展现页面都比较干净,广告不多。
    • CSDN 搜索结果数量 28455个,简书 搜索结果数量 3513个,极客邦 搜索结果数量 49个,其它网站没有给出搜索结果数量。为极客邦的坦诚点赞!
  • **各专业网站的搜索结果中,目测都没有广告软文。**页面其它区域广告,不影响搜索结果,不做讨论。
  • 极客邦的搜索结果中包括“微信公众号“的搜索内容,其它网站的搜索结果中没有明显发现站外内容。
  • **只有 CSDN 在页面右侧提供了 “相关搜索”、“猜你想搜” 窗口,个人认为很有意义。**知乎、开源中国在右侧提供了 “热门搜索”,简书在左侧提供了 “最近搜索”,明显差了一个层次。
  • 对于用户输入的关键词,在搜索结果的标题中都用亮色进行了标识。
    • CSDN、知乎、简书 对搜索结果摘要中的搜索关键词也用亮色进行了标识,但个人体验并不好,反而干扰了阅读。
  • **各网站的搜索结果中,都提供了标题、摘要、发布日期、作者。**知乎将作者放在摘要的开头。
  • 摘要图片不仅很有吸引力,也是用户选择的重要参考。
    • CSDN、掘金、开源中国、知乎在部分搜索结果中提供了摘要图片
    • 极客邦、博客园、简书在搜索结果中没有提供摘要图片
  • 博客园、简书在搜索结果中提供了阅读量、推荐数、评论数,CSDN 提供了阅读量、推荐数,开源中国提供了阅读量、评论数,掘金提供了推荐数、评论数,知乎提供了评论数、点赞数,极客邦都未提供。
  • 前 3 篇搜索结果的阅读量分别为:CSDN 2855/6772/4596,博客园 44395/12458/51572,开源中国 8/21/10,简书 618/181/164。掘金和极客邦未提供阅读量,从阅读量数据推测原因是“商业秘密”。
  • 前 5 篇搜索结果的发布年份,CSDN 2022/2020/2022/2013/2020,博客园 2013/2014/2011/2018/2014,掘金 2021/2022/2021/2021/2021,开源中国 2021/2018/2014/2020/2021,极客邦 2021/2021/2021/2021/2021,知乎 2021/2020/2021/2022/2020,简书 2020/2020/2022/2020/2022。不评论,但感概不已。
  • 只有知乎搜索结果中包括视频内容,且前 5 篇中有 2 篇视频内容。
  • 前 5 篇搜索结果都能打开,没有失踪,但是也有细微差异:
    • 开源中国在搜索结果的摘要行末设有 展开更多,点击后展开摘要的全部内容。
    • 开源中国采用了特殊的展示方式,点击搜索结果标题后,在搜索结果页面直接载入文章内容,而不是跳转搜索结果页面。这种方式有利有弊,弊端也不小,本文不做展开。
    • 知乎的展示方式是二者兼有,可以点击“阅读全文”后在搜索结果页面直接载入文章内容,也可以点击标题跳转搜索结果页面。。
    • CSDN 设有需要会员的下载内容,这些内容也在搜索结果在,因此存在打开后非会员不能阅读/下载的情况。

2.3 搜索结果中摘要的对比

  • 各网站的搜索结果页面中,80%以上的有效面积/有效内容是搜索结果的标题、摘要和摘要图。

  • 搜索结果页面中,有效内容占比最大的是文章摘要。

    • CSDN:2 行,约 120 字符
    • 博客园:3~4 行,约 190 字符
    • 掘金:1 行,约 50 字符
    • 开源中国:2 行,约 110 字符
    • 极客邦:1 行,约 50 字符
    • 知乎:无图 2 行,有图 3 行,70-100 字符
    • 简书:4~6 行,150-300 字符
  • 目前摘要的质量都比较差,很多文章作者并没有写摘要,搜索结果中的摘要是由系统自动生成的。
    选择每个网站前 5 篇搜索结果进行分析,检查自动摘要的占比如下:

    • CSDN:5 篇都是自动摘要,都是自动截取文章开始段落内容
    • 博客园:5 篇都是自动摘要,自动截取文章开始或结束段落的内容
    • 掘金:1 篇是作者写的摘要,4 篇是自动摘要,截取文章开始段落的内容,但剔除了一些非本文内容(如链接、广告)
    • 开源中国:5 篇都是自动摘要,都是自动截取文章开始段落内容
    • 极客邦:5 篇都是自动摘要,都是自动截取文章开始段落内容
    • 知乎:3 篇文档内容都是自动摘要,2 篇视频内容是作者写的摘要
    • 简书:5 篇都是自动摘要,自动截取文章开始或结束段落的内容

基于这个简单的抽样结果,我的感受是:

  • 文章作者不写摘要是普遍现象,即使写了摘要的质量往往也比较差。
  • 内容占比最大的文章摘要,能提供给用户的信息事实上非常有限。
  • 简书提供的摘要长度可达 300 字符,相对来说可以更好地判断文章内容,但每个页面展示的搜索结果明显减少,有些得不偿失。
  • 这表明“摘要”在搜索结果呈现中的效率是比较低的,需要和可以优化。既包括对摘要本身的优化,也包括对搜索结果呈现方式的优化。

3. 搜索结果的内容质量

选择每个网站前 5 篇搜索结果,对文章内容的质量进行评价。这是一个非常不靠谱的主观评价。

3.1 搜索内容质量评分

  • CSDN:
    (1)原创,有图形,有例程,有说明,结构较完整,80
    (2)原创,有图形,有例程,有说明,结构很完整,内容全面,文字流畅,95
    (3)原创,有图形,有例程,有说明,结构较完整,80
    (4)原创,有图形,有例程,有说明,结构很完整,内容丰富,85
    (5)下载内容,不做评价

  • 博客园
    (1)有图形,有例程,说明简单,部分公式显示异常,内容有点偏,60
    (2)无图形,有例程,有说明,结构完整,内容丰富,80
    (3)无图形,有例程,有说明,结构完整,内容丰富,部分例程和公式显示异常,70
    (4)有图形,有例程,有说明,完整,内容丰富,90
    (5)有图形,有例程,有说明,结构较完整内容有点偏,75

  • 掘金:
    (1)有图形,有例程,有说明,结构很完整,内容全面,文字流畅,95
    (2)有图形,有例程,有说明,结构较完整,85
    (3)无图形,有例程,有说明,结构较完整,80
    (4)有图形,有例程,说明简单,结构基本完整,75
    (5)有图形,有例程,有说明,结构较完整,85

  • 开源中国:
    (1)原创,有图形,有例程,有说明,结构基本完整,75
    (2)原创,有图形,有例程,说明简单,结构较乱,65
    (3)原创,有图形,有例程,说明极少,结构较乱,55
    (4)无图形,有例程,有说明,结构较完整,70
    (5)只有例程,无说明,无图形,结构不完整,40

  • 极客邦:
    (1)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
    (2)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
    (3)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
    (4)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
    (5)有图形,有例程,说明简单,结构基本完整,70
    注:极客邦前 4 篇都是梦想橡皮擦的文章,而且是真原创,怎么能给低分呢。

  • 知乎:
    (1)纯视频,长度 16‘43’‘,内容专业完整,可惜无配套文档容,98
    (2)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
    (3)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
    (4)纯视频,长度 6‘00’‘,专业视频课程,可惜无配套文档容,98
    (5)有图形,有例程,有说明,结构很完整,内容全面,文字流畅,95

  • 简书:
    (2)图形少,有例程,有说明,结构很完整,内容很全面,文字很流畅,93
    (2)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
    (3)有图形,有例程,有说明,结构完整,内容全面,文字流畅,91
    (4)无图形,有例程,有说明,结构较完整,75
    (5)有图形,有例程,有说明,结构完整,内容丰富,90


3.2 搜索内容质量对比分析

首先还是要说明以上评分非常不靠谱,而且只是随机抽样,各位网友不必较真,您完全可以自行评分。

其次还是有些东西可以分析,可供参考的。

  • 按照以上主观评价的结果,各网站的内容质量评分的均值为: 知乎94,简书88,极客邦 86,CSDN 85,掘金 83,基本相当;博客园 75;开源中国 61,内容质量较差,有些是凑数的。
    • 即使剔除知乎的视频内容,文档内容的质量评分 92,仍然是最高的。
    • 博客园的评分受到部分例程和公式显示异常的影响,否则应该会高一些。这样一个老牌 IT 网站,真是让人惋惜。
  • 知乎的 2 篇视频内容,都是系列视频,确实做的很好,不是随便搞搞的。可惜没有配套文档,哪怕只是视频中的配套例程。
  • 我评分最高的 3 篇文章(95分)分别在 C站、知乎和掘金,内容全面,文字流畅,层次分明,例程、图形完整。
  • 似乎各网站的排序算法都不能很好地保证按照文章质量高低来排序。其中的原因首先是我的评价不科学不准确,其次是网站可能会有自己的考虑,但我想更重要的是搜索结果的自动评价目前仍然是非常困难的。
  • CSDN 和 开源中国对原创、转载文章进行了标注(作者声明),其它网站未作标注。但是标注原创的内容,(绝)大部分并非原创,很多是直接抄袭,还有部分是洗稿。
  • 坦率地说,CSDN 内容质量这个抽样结果比我预计的高,我的印象中搜索结果中质量不高的内容占比还是不低的。
  • 注意极客邦该关键词的搜索结果只有 49 篇,但内容质量竟然不输给 CSDN、掘金,实在发人深思。
    • 我另选了几个关键词,测试极客邦的搜索内容,个人评价也还是:数量不多、质量不差。
    • 无论 49 篇还是 49 万篇,老板和投资人可能会关注,但对用户来说其实没多少差别,前 5 篇就够用了。当然偏门内容,新锐网站中可能连 5 篇都没有,那就不行了。
    • 邀请优质创作者创作优质内容,是新锐网站的利器,看来真的很有效。
    • 内容越多,筛选出优质内容的难度其实更大,或者说更为迫切。
  • 知乎、简书这两家综合性网站的搜索内容质量,既然能力压所有 IT 专业网站,有些出乎我的预料。这当然与我的评分不靠谱有关,但是我也观察到一些特点:
    • 入选内容质量都很稳定,换句话说低质量内容都没有入选。
    • 首先与作者群体有关,CSDN 的写作者范围更广,一些初学者也积极参与写作,并得到鼓励。
    • 我认为与搜索算法也有很大关系,并不是知乎、简书没有低质量的文章,而是通过内容质量自动评价方法,搜索排序方法,保证低搜索结果首页的文章质量很高、很稳定。
    • 从文章质量看,一些网站主动地、针对性地邀请优质作者在某个方向持续稳定地进行创作,效果很明显。

4 搜索结果的二次选择

为什么要提出搜索结果的二次选择问题?

作为用户,首先关心的是能不能找到需要的内容。随着网站资源的快速增长, 内容的数量应该越来越不是主要问题了。opencv轮廓这样一个不是很热门的搜索关键词,竟然有数万篇内容。

这说明在数字时代,不是内容太少,而是内容太多了。由此带来的另一个问题,就是能不能从海量的搜索结果中找到优质的内容,找到自己需要的内容。这是一个很有挑战性的问题。

各网站搜索结果的排序,都没有明显的规律,即都不是简单地按照发布日期或阅读量排序。显然,每家网站都有各自的搜索排序算法。

网站提供的搜索结果排序算法,能不能满足用户的需求呢?首先是提供优质内容,其次是提供特定用户需要的特定的内容。

我个人认为目前的现状并不理想。按说内容越多的网站,这个问题会做的比较好,毕竟通过内容积累和读者的阅读选择可以实现优胜劣汰。但我的实际体验并不是这样,内容越多的网站,博主范围越广泛,劣质内容也越多,优质内容被淹没的问题越突出,或者说优质内容被淹没的困扰也很大。

我简单地猜测,阅读量与内容质量一般应该具有较强的正相关性,所以我经常是以阅读量作为重要的辅助筛选指标。但我在 CSDN 的使用体验(不是本次搜索测试),也经常遇到一些阅读量非常大(数万)但质量一般甚至质量较差的内容。我猜想这类似于热榜效应,即阅读量在某些条件下可能发生正反馈,阅读量越高的文章将吸引更多的读者阅读,此时已与内容的质量无关了。

这就需要对搜索结果进行二次选择。

目前,各网站向用户提供搜索结果筛选或更换排序方式的功能都比较有限。

  • CSDN 在网页端提供了栏目筛选、排序方式两种搜索结果二次选择方案。

    • 一是可以按照 全站博客下载代码用户等栏目进行筛选,默认选项为 全站。如果选择 博客栏目就可以过滤前述下载内容非会员不能打开的问题。但是这个栏目筛选其实是有些鸡肋的,因为只有 博客下载 栏目筛选结果有意义,其它栏目筛选结果基本没用。
    • 二是提供了 综合最新热门VIP内容 4个标签,可以进行搜索结果重排,默认选项为 综合。但这些标签的设计不显著,我在写本文时才注意到。
      选择 最新 筛选后的搜索结果,主要是 2022年的内容,也有少量 2021年的内容,阅读量相对都较小,推测加大了发布日期在排序中的权重。
      选择 热门 筛选后的搜索结果,第 1 位阅读量高达 31万+,前 5 位只有一篇阅读量低于 1 万,推测加大了阅读量在排序中的权重。
      选择 VIP 筛选后的搜索结果,都需要开通 VIP 会员卡才能阅读。
    • 移动端 APP 搜索工具中不能对搜索结果重新排序或筛选。
  • 掘金 提供了按照 综合文章课程标签用户进行搜索结果过滤,也可以按照 时间不限最近一天最近一周最近三月进行搜索结果过滤,或者按照综合排序最新优先最热优先 进行重新排序。

  • 开源中国 提供了按照 所有内容软件资讯问答博客等栏目进行搜索结果过滤。

  • 极客邦 提供了按照 全部InfoQ网站微信公众号进行搜索结果过滤。

  • 博客园 提供了分别按照浏览数、推荐数、发布时间对搜索结果进行筛选,但该筛选栏在屏幕右侧的广告下方,并不太显眼,界面风格非常怀旧。

  • 简书 提供了按"文章"、“用户”、“主题”、“文集” 筛选,或按"最近一天"、“最近一周”、“最近一月”、“时间不限"筛选,或按"综合排序”、“热门文章”、“最新发布”、"最新评论"重新排序。

  • 知乎 提供了按照专栏进行筛选,还设有“筛选”按钮可以提供按照类型、综合、时间进行筛选。

在这里插入图片描述


5 提高搜索效率的讨论

正如生产效率是制造业最核心的指标,搜索效率也是搜索工具的核心指标。搜索工具的竞争,本质上就是搜索效率的竞争。

从用户的角度考虑,我需要的首先是更方便、更快捷地找到我需要的内容,其次是尽可能减少打开后阅读无效资源、低质资源(影响心情,所以影响体验)。

从这个角度出发,并考虑技术实现的可行性,提出一些建议:

产品改善的建议:

  • 提供更丰富、更灵活的用户自选排序方法,最好能一键筛选。
  • 搜索结果中增加作者资质标签供用户参考,例如增加 CSDN 认证的博客专家、优质创作者身份标识,类似于大V标签。如果能设置博客专家按键进行二次筛选更好。
  • 将需要会员资格或VIP资格才能阅读的内容单独列出或进行特殊标识。
  • 鉴于一些文章的开头会有非正文内容(例如:系列介绍、转载链接、广告),建议系统提取摘要时自动剔除这些无效内容。
  • 以文章目录作为系统自动提取的摘要,是否比开头段落会更有效?
  • 能否设计可选的摘要模板,以结构化的方式半自助地生成摘要?

深入研究的建议:

  • 更加丰富全面的内容特征,例如段落数、例程数、插图数、是否原创、是否专栏,这些特征并不需要在搜索结果中体现,但可以用于训练内容质量自动评价系统。数据量越大的网站优势就越大。

  • 用户评价机制,例如鼓励用户阅读后对文章评分,顶会论文评审已经从审稿人评审向投稿人评审转变。

  • 作者评价模型,每位作者的文章质量虽然会有波动,但相对来说非常稳定。实际上,作者评价模型是更加客观、精准的优质创作者身份认证。

个人观点:

  • CSDN 的内容不是太少而是太多了,很多低质量的内容淹没了高质量的内容。

  • 作者分层是自动评价内容质量、提高搜索质量的重要特征。

  • 仅从搜索结果质量来考虑,CSDN 需要进行作者分层,这不仅是创作者资质认证,而是基于内容质量和用户画像等数据的作者评价(不必公开)。创作者资质认证只是作者分层的补充。

  • 主动地、针对性地邀请优质作者在某个方向持续稳定地进行创作,对于提高搜索质量效果显著。

  • CSDN 拥有最大量的优质创作者,但从搜索结果来看效率并不高。

  • 网站流量支持的创作计划不能只重数量、重热度,更好重视质量,考虑长期建设的需要。

(本文完)


版权声明:
youcans@xupt 原创作品,转载必须标注原文链接:(https://blog.csdn.net/youcans/article/details/125137881)
Copyright 2022 youcans, XUPT
Crated:2022-6-12

猜你喜欢

转载自blog.csdn.net/youcans/article/details/125256584
今日推荐