2024年8月21日发(作者:竺范)
微博搜索、网页搜索对用户信息需求满足能力的对比分析—
—以新浪微博搜索、百度搜索为例
刘明珠;杨建林
【摘 要】文章通过对已有研究成果的分析总结,结合专家建议,将用户进行微博搜索
时的信息需求归纳为七类:新闻信息、实时信息、明星公众人物信息、社交人际关
系信息、公众舆论信息、机构公司信息、知识性信息,并基于这七类信息需求设计
调查问卷,考察了微博搜索对用户信息需求的满足能力,同时与网页搜索进行对比研
究,分析了两种搜索方式在满足用户不同信息需求方面的能力差异,以及产生差异的
原因.
【期刊名称】《图书与情报》
【年(卷),期】2016(000)005
【总页数】11页(P126-136)
【关键词】微博搜索;网页搜索;信息需求;问卷调查
【作 者】刘明珠;杨建林
【作者单位】南京大学信息管理学院 江苏南京210023;江苏省数据工程与知识服
务重点实验室 江苏南京210023;南京大学信息管理学院 江苏南京210023;江苏省
数据工程与知识服务重点实验室 江苏南京210023
【正文语种】中 文
【中图分类】G254.97
随着互联网技术的发展,互联网应用模式已经由传统的“人-机”交互模式变为
“社会化”交互模式[1]。在用户生成海量内容的Web2.0时代,如何对信息资
源进行再组织,使得用户快速高效地搜索到所需信息或知识,已经成为业界学界广
泛关注的话题和研究领域。
传统的网页搜索引擎利用爬虫软件采集资源,而爬虫软件抓取信息的滞后性会影响
搜索结果的质量,此外,许多用户不再满足于旧式的“人-机”搜索体验,他们更
期望利用在线社会网络(Online Social Networks,OSN)进行沟通协作来获得
质量更高的智能化搜索结果[2]。于是,“社会化搜索”的理念应运而生。
Teevan J等[3]认为传统搜索引擎建立了信息与信息之间的关系,在线社会网络
建立了人与人之间的关系,而社会化搜索则将信息与人关联起来,重建了一种人与
信息之间的映射。当前,实现社会化搜索的平台与工具可以分为四类:一是专业的
社会化搜索引擎,如谷歌的Social Searcher;二是在线问答社区,如知乎、百度
知道;三是社会化标注系统,如CiteULike;第四类则是社会化媒体,包括
Facebook、Twitter、人人网以及本文讨论的新浪微博等。
微博因其开放、简洁、易操作的特点吸引了众多用户,而用户在发布、传播信息的
同时使得微博又成为一个重要的信息平台。Jansen B J等[4]研究表明,人们不
仅利用微博分享信息,还利用微博搜索所需信息。据中国互联网络信息中心发布的
《2014年中国网民搜索行为研究报告》显示,截至2014年6月,中国互联网用
户在微博上进行搜索的比例达到57.1%。作为社会化搜索的重要实现方式,微博
搜索也引起了学界的关注与研究。当前学界对微博搜索的研究多着眼于微博短文本
的特征,通过改善、革新算法、检索策略等方式提高检索结果的质量,很少有研究
从用户的视角对当前各类微博平台的搜索功能进行探索与评价。
本文通过对已有研究成果的分析总结,结合专家建议,将用户进行微博搜索时的信
息需求归纳为七类:新闻信息、实时信息、明星公众人物信息、社交人际关系信息、
公众舆论信息、机构公司信息、知识性信息,并基于这七类信息需求设计调查问卷,
考察微博搜索对用户信息需求的满足能力,同时与网页搜索进行对比研究,分析两
种搜索方式在满足用户不同信息需求方面的能力差异,并探究产生差异的原因。希
望研究结果对改进现有微博搜索系统的工作有参考价值。
微博自出现就吸引了众多学者的研究兴趣,早期的微博研究多集中于微博的文本特
征、微博用户及其行为、微博传播模式等方面[5]。如曹鹏等[6]认为Twitter
允许用户以多种格式自由转发消息,使得系统中存在大量重复或近似消息,他们提
出通过统计字符种类和最短编辑距离两种字符串距离计算方法来判定Twitter中近
似或重复的消息。J Weng等[7]在分析Twitter用户之间的关注(follow)与
被关注关系后,提出了一种基于PageRank的扩展算法Twitter Rank,用以衡量
微博用户的影响力。B Suh等[8]在大规模数据分析基础之上,总结影响微博转
发率的因素,并据此建立了一个预测微博转发模型。
微博在不同情景下的应用与影响一直是一个研究热点。如Hawn C[9]探究了包
括微博在内的一系列社会化媒体为现代医疗行业带来的变革;吴敏[10]通过实
例分析研究了媒体微博营销的现状,通过分析微博的传播特性指出微博用于商业营
销的可能性以及优势,并结合媒体特点提出对未来微博营销的设想和建议,等等。
近年来,随着微博信息量的快速增长,用户从微博中获取信息的需求逐渐增多,微
博检索也得到了越来越多的关注与研究。当前,国内外学界对微博搜索的研究多从
搜索服务提供方的角度出发,通过改进各类搜索引擎的检索策略与算法,来提高检
索结果的质量。
微博检索与传统文本检索之间的差异使得传统的网页检索技术不能满足微博搜索的
需求:一是微博文档相较于网页具有很多独有特征,如文本短小(不超过140个
字符)、含有大量缩写、表情符号之类的不规范用语以及有特殊含义的标签
“@”、“#”等;二是在对微博搜索结果进行排序展示时,除了要考虑文本的语
义相似度外,还需要考虑时间远近、微博发布者的影响力等因素[11]。围绕以
上问题,学者们做了大量相关研究。如李锐等[12]认为:每条微博都有发布者,
发布者都有或多或少的个人信息,如果将作者的信息融入检索模型,作为对微博短
文本的补充,可以提高检索效果,他们在TREC公开数据集上进行了实验,验证了
新模型的合理性;Massoudi等[13]在微博检索过程中考虑了多种能刻画微博
质量的因子,如是否包含表情符号、用户的粉丝数、微博长度、转发数等,通过对
这些因素经验性的线性加权来提高检索结果的质量;除了对检索策略的改进外,还
有学者研究可视化在微博搜索结果中的应用,如周霞娟等[14]用关注度传递算
法对搜索进行扩展,将返回的特征词对微博用户进行可视化展示,并提供用户可查
看的,与选定特征词或用户相关的微博,方便用户高效地定位感兴趣的微博信息。
有少量学者也从用户角度出发,对微博的搜索功能进行研究。如Golovchinsky G
等[15]在分析Twitter现有搜索功能的不足后,通过问卷调查的方式研究
Twitter用户进行微博搜索的原因,并提出了一种新的、改进的twitter搜索结果
展示方法;Teevan J等[3]先以小部分人群为样本,通过访谈调查等形式总结用
户为何使用微博搜索功能,又通过对大规模Web搜索日志和Twitter搜索日志进
行对比研究分析,验证上述动机,发现人们在微博检索中更加趋向于搜索实时性的
内容 ,而且在Twitter中的检索表达式平均长度短于网页检索;Elsweiler D等
[16]结合日记研究和网上问卷调查两种方式,调查了用户进行微博搜索的动机
以了解他们的信息需求,相关结论有助于设计出更好的微博搜索系统。这些学者关
于用户使用微博搜索原因的研究是本文对微博搜索中的用户信息需求进行分类的基
础。
3.1 问卷设计
3.1.1 信息需求种类的确定
调查微博搜索对用户信息需求的满足能力,首先要确定用户想借助微博搜索满足哪
些方面的信息需求,更简明的说法就是用户利用微博搜索哪些方面的信息。
通过文献调研可以发现,已经有多名学者对“用户利用微博搜索寻找什么?”这一
问题进行了研究,如Gene Golovchinsky和Miles Efron[15]探讨了用户进行
微博搜索的原因,他们通过发放网络问卷的方法获得了23名Twitter用户关于搜
索频率、信息需求类型的反馈。结果显示,最为常见的四类信息需求是事件、找人、
流行话题、文档信息;Jaime Teevand等对微软公司的54名Twitter用户进行问
卷调查,让被调查者用文字描绘自己使用Twitter搜索什么类型的信息。在得到调
查结果后,用扎根理论总结出Twitter搜索的信息需求类型,并请4位Twitter活
跃用户对结果进行了改进完善,最后共总结出三大类信息需求。第一类是即时信息,
其中又包括新闻事件信息与实时信息两小类,其中实时信息指的是如路况、天气、
网络状况等信息;第二大类是社会信息,社会信息又分为几小类,第一小类是关于
“人”的信息,如公众人物、用户自身、用户相识的人、陌生人等;第二小类社会
信息是社会群体对某一特定事物的整体意见,可概括为公众意见及舆论;第三大类
信息需求是话题信息,指的是Twitter中有标签标注的特定讨论话题。David
Elsweiler和Morgan Harvey[16]探讨了用户进行微博搜索的原因,其中对用
户的信息需求类型有简单提及,如寻找公众意见等,但更多侧重于用户的动机,如
反复搜索以跟进事件信息、寻找之前浏览过的微博等。由于对本文关于信息需求类
型的界定帮助不大,在此不再赘述。
通过对比参照可以发现,上述三个研究关于“微博搜索满足用户哪些方面的信息需
求”的研究结果有很多共同之处,同时也存在一些差异。通过对三篇文献研究结果
的整合、改进,并结合3位专家的建议,本文决定从新闻、实时信息、明星公众
人物、社交人际关系、公众舆论、机构公司、知识性信息七个方面设计问卷问题,
以考察微博搜索满足用户信息需求的能力。
3.1.2 具体问题设置
由于问卷问题多、耗时长,且被访者要具有相当的网络检索能力,所以可以获得的
样本数量比较少,约100人。为了避免因为样本数量少产生偶然性偏差以致得出
不正确的结论,本文以七个方面的信息需求为基础,设计相似但不相同的两份问卷
(问卷A、B),将被访者分为两组,一组作答A卷,另一组作答B卷,方便在结
果分析阶段进行对照。
传统的网络搜索引擎(如百度搜索)与新兴的微博搜索有着密切的关系,为了对这
二者进行对比研究,每份问卷的11道大题下又分为A、B两小题(见表1)。同
一道大题的两小题题干相同,不同之处在于题A要求用新浪微博搜索完成,题B
要求用百度搜索完成。
3.1.3 问项设置
在每一道小题之后,都会请参与调查者记录下完成该题的搜索次数、所用时间、使
用的搜索功能,同时请用户对自己完成任务的程度、以及任务难度进行评估(时间
单位为分钟);微博搜索功能提供“1.综合2.找人3.图片4.兴趣主页”四个选项,
百度的搜索功能提供“1.网页2.新闻3.视频4.地图5.贴吧6.其他”六个选项;完
成程度提供“1.无从下手2.基本解决3.完全解决”三个选项;任务难度提供“1.很
容易2.容易3.一般4.困难5.很困难”五个选项。
此外,每道大题之后,被访者已经分别用微博搜索、百度搜索完成了同样任务,会
请他们选择更倾向用新浪微博还是百度搜索完成这种类型的题,以做后续分析。
除了上述必填问项外,每道小题后还提供填写检索结果页面网址的空格以及检索表
达式的空格,但不是必填项(以问卷A的第四大题为例,问题及必填问项设置见
表2,问卷A、B完整内容见附录)。
3.2 样本选择及问卷发放
本文通过参与调查者完成任务的程度来衡量微博对用户信息需求的满足能力,而参
与调查者的信息检索能力会影响任务的完成程度。本次问卷调查选取重点高校信息
管理专业的本科生参与调查,因为相较于其他群体,他们具有较高的信息检索能力,
并且能力差别不大。
由于问卷需要边进行网络检索边填写,故采取了网络问卷调查方式。为了使被参与
调查者能够充分利用微博、百度的搜索功能完成检索任务,在填写问卷之前,对被
参与调查者进行了简单但是必要的检索功能说明。
4.1 调查结果
本次调查共回收98份合格问卷,其中A问卷48份,B问卷50份(进行数据处
理、分析后的部分结果见表3、表4)。
4.2 结果分析
对表3中的数据进行分析,可以发现:参与调查者在用微博搜索完成11项任务后,
对于每项任务的完成程度的评估均值均大于2(从1到3分别为无从下手、基本
完成、完全解决),其中问卷A中11项任务的完成程度均值为2.4,问卷B则为
2.6;而在网页搜索方面,虽然有个别任务完成程度高于微博搜索,但与此同时,
也存在完成度低于2,即不能基本满足此类信息需求的任务,如问卷A中的第6
题,问卷6中的第5题,这两项任务目标都是搜寻关于社交人际关系方面信息。
由此可以得到如下两个结论:
结论1:微博搜索可以基本满足用户对于新闻、实时信息、公众人物、社交人际关
系、公众舆论、机构公司以及知识性信息这七个方面的信息需求;
结论2:在微博搜索可以满足的信息需求类型中,百度搜索可以满足其中部分需求,
但在如社交人际关系类信息方面,微博搜索有网页搜索不可替代的优势。
为了更直观地分析微博搜索与网页搜索在满足7类信息需求方面的能力,对同种
搜索方式在满足不同类型信息需求方面的表现进行比较,根据表3中的数据,对
考察同一类信息需求的任务数据进行计算汇总(见表5),以分别找出微博搜索、
百度搜索中完成难度最高、最低及完成程度最高、最低的信息需求类型,并在表中
加粗显示。
可以发现,无论是微博搜索还是百度搜索,难度最低且完成程度最高的,都是对机
构公司信息进行搜寻的任务。结合具体题目设置,以及对部分参与调查者的询问,
笔者发现:问卷A及问卷B中通过寻找公司机构的官微、官网来考察两种搜索方
式满足用户对公司机构信息需求的能力,而无论是搜索官微还是官网,对于参与调
查者来说步骤操作都十分简单:用微博搜索时只需要在找人功能中输入所要寻找的
机构名称,如果该机构建立了官方微博账户,就可以轻松找到;同样,用百度搜索
寻找机构官网时,也只需要在搜索框中输入该机构的名称,如果机构设有官方网站,
就会在搜索结果中相对靠前的位置出现,并且会标有“官网”字样。并且,寻找帐
号的任务只要搜索到结果,便可以评测为“完全解决”,所以,完成程度较其他需
要考虑检索结果质量高低的任务更高。
在微博搜索中,完成难度最高的是新闻信息的搜寻,结合具体题目设置、对部分参
与调查者的询问及微博搜索的特点,笔者认为原因在于问卷A、B中对搜索的新闻
信息附加了时间限制,一个要求最新发生,一个要求最早发布,因而参与调查者要
在大量搜索结果中再进行筛选,加大了任务难度。并且,微博搜索在进行检索结果
展示时,通常将最新发布的微博显示在前面,这给搜寻发布时间较早但更有价值的
微博增加了难度。
在微博搜索中,完成程度最低的是对明星、公众人物信息的搜索,结合题目设置及
微博信息的特点进行分析,得出的结论是问卷A、B要求参与调查者对明星一段时
间内的活动信息进行搜集,而微博信息具有文本短、信息零碎片段化等特点,参与
调查者需要搜集多条微博并进行整合才能完成任务,因而任务完成度较低。
在百度搜索中,任务难度最大且完成度最低的是对社交、人际关系类信息的搜索,
原因在于社交、人际关系类涉及个人隐私的信息多集中在如微博、人人网一类的社
交平台上,很少有人在公开网页上发布。
4.2.1 新闻信息
在问卷A与问卷B中,分别设置了第一、第二两道题来考察微博搜索满足用户新
闻信息需求的能力。两份问卷中第一道题是相同的,都要求参与调查者分别利用微
博和百度搜索三个最新发生的新闻事件,并尽量精确地填写新闻事件的发生时间。
问卷A的第二道题要求参与调查者寻找最早报道巴黎恐怖事件的博文和网页,问
卷B则将“巴黎恐怖袭击”换为“俄罗斯战机坠毁”,其它要求相同。
一个被较为广泛认同的说法是:微博信息较传统网页更有时效性,因此,笔者做出
猜测:在满足用户新闻信息需求方面,微博更具有优势。为了验证这一猜想,笔者
对表3中关于第一、第二两道题的数据进行分析。
第一题的统计结果显示,无论是问卷A、问卷B,参与调查者都认为使用百度搜索
的完成度更高(问卷A:微博2.5,百度2.6;问卷B:微博2.6与百度2.8),并且
用百度搜索完成该任务时搜索次数、用时更少,难度也更低。表4中的数据也显
示,参与调查者更愿意用百度搜索完成此类任务,这些结果恰恰与上文提出的猜测
相悖。
为了进一步印证猜测是不合理的,笔者又分别计算了使用微博搜索到的新闻事件与
使用百度搜索寻找的新闻事件距2015年12月02日0点的相隔时间(所有问卷
在此之前已回收完毕)。结果显示,问卷A中使用微博搜索的新闻事件的时间差
是36.2小时,百度搜索则为34小时;问卷B中这两项结果分别为42小时与33
小时。也就是说,通过百度搜索的新闻事件更“新”,这也与之前几项调查数据相
吻合。
为了探索现象出现的原因,笔者对“所用功能”问项的结果进行分析,发现参与调
查者在用微博搜索完成任务时,绝大部分都使用综合搜索功能,而用百度搜索则使
用专门的新闻搜索功能。
第一题只对新闻事件的发生时间进行限制 (要求尽量新),第二题则给出特定的
新闻事件,让两组参与调查者分别完成。统计结果显示,搜寻关于某个特定新闻事
件的最早信息,微博搜索比百度搜索完成程度更高(问卷A:微博2.2,百度2.1;
问卷B:微博2.4,百度2.2),笔者通过访问被调查者留下的URL链接,也验证了
微博会比网页更早出现相关事件信息这一点。
但是,尽管微博搜索的完成度高于百度搜索,参与调查者利用微博搜索时却要比用
百度搜索尝试更多的搜索次数,耗费更多的时间。而且表4的数据显示,倾向于
使用百度搜索完成类似任务的人依然占多数,只是所占比例较第一题有所下降。
在两种搜索方式的功能选择上,与第一题相似,使用微博搜索多用“综合”功能,
使用百度搜索多用“新闻”功能。
结论3:微博搜索可以为用户提供更早、更新的新闻事件信息,但是由于网页搜索
中的新闻搜索功能具有操作简单、设计合理等优势,更多的用户还是愿意用百度搜
索新闻。
4.2.2 实时信息
问卷A、问卷B的第三题考察微博搜索满足用户实时信息需求的能力。问卷A要
求参与调查者分别用微博搜索和百度搜索了解所在城市的路况信息,问卷B则要
求参与调查者搜索一个没有去过但感兴趣的城市的天气情况。
表3中的数据显示,百度搜索比微博搜索完成程度更高(问卷A:微博2.4,百度
2.6;问卷B:微博2.7,百度2.8),搜索次数、花费时间更少,难度更低;而根据
表4中的数据,也可清晰看到:参与调查者倾向于使用百度搜索解决这类问题的
所占比例更大。
通过访问参与调查者在网络问卷中记录下的结果网页链接,笔者发现:参与调查者
在微博上搜寻路况、天气信息时,检索结果信息来源主要有两种:一种是诸如“南
京路况直播间”之类的官微,他们会定时不定时地发送包含相关信息的微博;另一
种是位于目标位置的普通微博用户发送的微博,一般会附带地理位置信息。而利用
百度搜寻路况、天气等实时信息时,参与调查的用户大多选择专业的网站,如“实
时路况网”“中国气象网”等。这正好解释了为何网页搜索比微博搜索能更好地完
成实时信息的查找。
结论4:在实时信息搜索方面,诸如路况、天气这些在生活中有广泛频繁需求的信
息,由专业的网站提供信息服务,因而,网页搜索能更好地满足用户信息需求。
4.2.3 明星公众人物信息
问卷A、问卷B的第四题考察微博搜索满足用户对公众人物信息需求的能力。问
卷A要求参与调查者搜索出TFboys组合2015年11月参加的活动,问卷B则将
TFboys组合换成演员胡歌。
表3中的数据显示,百度搜索比微博搜索完成程度更高(问卷A:微博2.3,百度
2.6;问卷B:微博2.3,百度2.5),参与调查的用户倾向于用百度搜索解决这类问
题所占比例也更大,但是在完成难度方面,微博搜索却低于百度搜索。
为了解释这个现象,我们继续分析这两种搜索方式所用的功能,并结合参与调查者
记录的结果页面网址进行分析发现:在微博上进行搜索时,绝大部分参与调查者使
用“找人”功能,通过寻找明显本人微博或后援会之类的微博来了解明星的活动,
这些微博帐号关于明星活动的信息并不全;而用百度搜索时更多的用户选择在“贴
吧”中搜索,知名度、人气较高的明星在个人贴吧中都有粉丝发表的关于明星行程
的帖子,由于贴吧中人数、帖数众多,相关信息也更加全面。
结论5:用户可以通过找人功能快速找到开通微博帐号的公众人物及其相关组织,
而这些微博账户可以提供关于该公众人物的信息;在网页搜索中,贴吧一类的公众
人物专属BBS,也可以提供大量的相关信息;两项比较,微博中的信息相对比较
零散;无论是微博还是贴吧,某位公众人物相关信息的多少都因人而异,受知名度、
粉丝数量等因素影响。
4.2.4 社交人际关系信息
问卷A、问卷B的第五、第六题考察微博搜索满足用户对社交人际关系类信息需
求的能力。
问卷A的两道题要求参与调查者用两种检索方式查找“别人发表的关于自己的”
信息,以及一个好友的微博帐号和联系方式(先前未知);问卷B则要求参与调
查者分别用两种搜索方式搜寻一个与自己有相同兴趣爱好的陌生人的微博帐号或联
系方式,以及了解一个朋友最近的活动和心情。
从表3的数据可以看出,除了问卷A中寻找关于自身信息的一题外,即问卷A第
五题外,其他三项任务,微博搜索的完成度都远高于百度搜索,并且花费时间、搜
索次数也少于百度搜索,完成难度也较低。
从表4的数据来看,同样除了问卷A中要求寻找关于自身信息的第五题,其他三
题参与调查者都更倾向于用微博搜索完成同类任务。
为了解释问卷A第五题结果与其它三题结果不符的现象,笔者访问参与调查者记
录下的结果页面链接,并随机访谈了几位参与调查者,发现:参与调查者用百度搜
索时直接输入自己的姓名,如果不是特别常见的姓名,有很大机率在第一页出现关
于自己的信息,如学校网站发布的录取名单、获奖名单等等;而在微博中输入自己
的姓名却很难找到,一是因为微博作为一个社交平台,正式的文件、通知信息很少,
而微博好友发微博提及自己时,很少用全名,一般只@微博昵称,而即使提及,
微博内容中也不一定有真正相关的信息。
结论6:微博搜索在满足用户关于社交人际关系信息的需求上,较传统的网页搜索
有明显优势,但在某些特定方面,如自身信息等,微博搜索处于劣势。
4.2.5 公众舆论信息
问卷A、问卷B的第七题、第八题考察微博搜索满足用户对公众意见、舆论类信
息需求的能力。
其中第七题要求参与调查者分别用两种搜索方式搜寻大众关于某一政策的意见态度;
第八题则要求参与调查者了解大众对某一影片的评价。
从表3关于第七题的相关数据来看,在了解关于某项政策(事件)的公众舆论方
面,微博搜索比百度搜索的完成度更高(问卷A:微博2.6,百度2.5;问卷B微博
2.4,百度2.3),难度低,花费时间及搜索次数少。同时,表4中的数据显示,
参与调查者更倾向于用微博搜索完成此类问题,也验证了这一点。
由此可见,在搜索大众对某项政策、事件的看法态度上,微博搜索更有优势。而表
3中关于第八题的相关数据显示,在搜索大众对某部电影的评价上,微博搜索和百
度搜索在完成度(问卷A:微博2.6,百度2.6;问卷B微博2.7,百度2.7)、难度、
用时、搜索次数方面都相当接近,表4中的数据也与表3相互验证,在问及今后
搜索该类信息时的搜索方式使用倾向上,更多的参与调查者表示两者并无太大差别。
分析原因可以发现,在微博上搜索影评信息时,可以同第七题一样,采用加“#”
的方式,进入话题页查看不同用户所发的关于该电影的微博;而用百度输入关键词
搜索后,也很容易找到专门的影评网站,如豆瓣等。
结论7:微博搜索在满足用户关于公众舆论信息的需求方面,较传统网页搜索更有
优势,但在某些特定方面,如影视剧评价等,因为有专业的网站存在,利用传统的
网页搜索也可以方便地找到所需信息,优势并不明显。
4.2.6 公司机构信息
问卷A、问卷B的第九题、第十题考察微博搜索满足用户对公司机构类信息需求
的能力。
问卷A的第九题要求参与调查者分别找到武汉大学信息管理学院的官方微博帐号
和官方网址,问卷B则要求搜索南京大学计算机系的官微和官网。从表3显示的
结果来看,问卷A中,微博搜索比百度搜索完成度低(问卷A:微博2.6,百度
2.8)、难度大、耗时长、搜索次数多,并且相对地表4显示,参与调查者更倾向
于用百度搜索完成任务;而问卷B的结果显示,用微博或百度搜索南大计算机系
的官微或官网完成度(问卷B:微博2.9,百度2.9)、难度、用时、搜索次数方
面都相当接近,表4中参与调查者中认为两种搜索方式区别不大的也占多数。
为了分析两项相似的任务产生较大差异的原因,笔者按照要求,分别在微博与百度
中检索武大信息管理学院与南大计算机系,发现武汉大学信息管理学院并没有官方
微博帐号,只有武大信息管理学院学生会这一组织开设了官微,有一个名为“武汉
大学信息管理学院”的微博帐号,并没有通过官方认证,关注者少,从所发微博来
看,并不是官微,而南大计算机系则有相应的官微。在官网方面,两个学院都有自
己的官方网站。
由此可见,问卷A第九题中微博搜索完成情况较百度搜索差的原因在于武汉大学
信息管理学院只开设了官网并没有开设官微。
问卷A、B关于第十题的调查结果则是一致的,在搜索自己感兴趣的公司的官微、
官网上,微博搜索和百度搜索完成度、难度、用时等数据都十分接近,但是参与调
查的用户还是更倾向于用百度搜索解决类似的问题,同时,表示两种搜索方式差别
不大的也有相当比例。
结论8:同一个机构或公司官微和官网发布的信息种类、数量不尽相同,尤其在其
只有官网没有官微的情况下,在搜寻公司机构信息方面,微博搜索并不比传统网页
搜索有优势。
4.2.7 知识性信息
问卷A、B的第十一题考察微博搜索满足用户对知识性信息需求的能力。其中问卷
A要求参与调查者分别用两种方式检索有关转基因食品的科普信息,问卷B则要
求参与调查者检索有关ISIS起源及发展过程。
从表3中的数据可以看出,利用百度搜索比利用微博搜索完成程度更高 (问卷A:
微博2.3,百度2.7;问卷B:微博2.4与百度2.7),搜索次数、花费时间更少,难
度更低;而根据表4中的数据,也可清晰地看到,参与调查的用户倾向于用百度
搜索解决这类问题的所占比例更大。
结论9:在进行知识性信息搜寻方面,传统的网页搜索比微博搜索更有优势。
4.3 调查结果总结
用户主要使用微博进行七类信息的搜索:新闻、实时信息、明星公众人物、社交人
际关系、公众舆论、机构公司、知识性信息,而微博搜索可以基本满足用户对这七
个方面的信息需求。在微博搜索可以满足用户需求的信息类型中,网页搜索也可以
满足其中部分需求,但在有些方面,微博搜索仍有不可替代的优势。
与传统网页搜索相比,微博搜索优势明显的是:公众舆论、社交人际关系信息的搜
索;而在新闻信息、实时信息、公众人物信息搜索方面,微博搜索有其独特长处,
但是传统网页搜索推出的专业性功能如百度的新闻搜索、贴吧,以及其它专业性网
站如路况网、各类影评网等,削弱了微博搜索的优势,使用户更倾向选择百度搜索
完成这些类型的任务;在机构信息和知识性信息方面,传统网页搜索能更好地满足
用户需求。
此外,从调查结果中还可以观察到两个变化趋势:
(1)网页信息不断丰富,微博搜索的原有优势正在逐渐减少。这一点由参与调查
者相较于用微博搜索新闻信息,更愿意使用百度的新闻搜索功能搜索新闻信息、百
度的贴吧搜索功能可以为用户提供较微博更多更全的明星信息、以及专业的影评网
站可以与微博搜索的“话题”讨论一样,很好地满足用户对影视作品口碑信息的需
求等方面可以看出。
(2)当微博搜索和百度搜索能同等程度满足用户信息需求,甚至是微博搜索较网
页搜索的表现更有优势的情况下,利用微博搜索往往耗费更多时间精力,用户还是
更倾向于用百度搜索。如参与调查者完成问卷A、B第二大题搜索关于某特定新闻
事件最早发布的博文或网页信息时,微博搜索完成程度更好,但耗时更久、难度大、
搜索次数多,因而更多的人倾向于用百度搜索完成类似任务。
第一种现象产生的原因是网页信息的丰富以及网页搜索功能的扩展,相较之下,微
博搜索的改进集中在算法、检索策略上,信息资源数量、检索功能设置仍显薄弱。
新浪微博官方团队也意识到了这一点,并尝试进行改进,如他们推出的“长微博”
功能,可以弥补微博文本短小,不能承载长篇文字信息的短板,但是长微博的本质
是图片,用户如何高效检索到长微博所含内容又成为一个新的问题。微博搜索功能
的添加、改进工作需要更多的关注与研究。
第二种现象表明相较于传统网页检索,微博检索的效率还有待提高,其中既包括检
索策略、算法的改进,如提高查全率、查准率,还包括检索结果的显示、用户页面
的设置等等。
微博不仅是一个基于用户关系的社交网络平台,同时也是一个拥有海量数据的信息
资源宝库,微博用户数量的增长、微博信息的丰富,也更加凸显了微博搜索的重要
性。微博平台的搜索功能,可以基本满足用户的信息需求,与传统网页搜索相比,
在社交人际关系、公众舆论信息的搜索方面,有明显优势。
与此同时,微博搜索也有许多待改进之处,如丰富检索功能、提高检索效率等,此
外,尽管微博搜索的本质仍是检索系统,但是微博的特殊性决定了微博检索系统要
为用户提供区别于普通检索系统的服务。因此,微博检索系统在强调普遍性的同时,
还应该突出其固有的特性,从而为用户提供更为全面准确的个性化检索服务
[17]。
在微博搜索不断发展改进的同时,传统搜索引擎也注意到了微博检索巨大的潜在价
值,微博平台向网页搜索引擎提供部分微博检索结果也成为一种潮流趋势,如微软
的必应搜索引擎,通过购买的方式获得Twitter的数据授权,在其检索结果中加入
微博检索结果;国内的百度搜索也整合微博内容,在搜索结果中显示与关键字相关
的最新微博内容。对于微博搜索来说,如何处理自身检索系统建设与网页搜索的覆
盖、替代,也是一个新的挑战。
微博搜索的巨大作用日益凸显,许多不足之处尚待改进,新的挑战也不断出现,值
得更多学者的关注与研究。
【相关文献】
[1]秦嘉杭.社会化搜索研究述评[J].情报资料工作,2014(6):61-66.
[2]孙晓宁,朱庆华,赵宇翔,等.社会化搜索研究进展综述[J].图书情报工作,2014,58(17):5-
13.
[3]Teevan J,Ramage D,Morris M rSearch:a comparison of microblog search
and web search[C].Proceedings of the Forth International Conference on Web Search
and Web Data Mining,WSDM,35-44.
[4]Jansen B J,Zhang M,Sobel K,et r power:Tweets as electronic word of
mouth[J].Journal of the American Society for Information Science&Technology,2009,
60(11):2169-2188.
[5]李绪维.微博短文本检索关键技术研究[D].哈尔滨:哈尔滨工业大学,2013.
[6]曹鹏,李静远,满彤,等.Twitter中近似重复消息的判定方法研究[J].中文信息学报,
2011,25(1):20-27.
[7]Weng J,Lim E P,Jiang J,et rRank:finding topic-sensitive influential
twitterers[C].Proceedings of the third ACM international conference on Web search
and data ,2010:261-270.
[8]Suh B,Hong L,Pirolli P,et to be Retweeted?Large Scale Analytics on
Factors Impacting Retweet in Twitter Network[C].Social Computing/IEEE International
Conference on Privacy,Security,Risk and Trust,2010 IEEE International Conference
,2010:177-184.
[9]Hawn Two Aspirin And Tweet Me In The Morning:How Twitter,Facebook,And
Other Social Media Are Reshaping Health Care[J].Health Affairs,2009,28(2):361-
368.
[10]吴敏.基于微博的媒体营销研究[D].广州:暨南大学,2010.
[11]卫冰洁,王斌,张帅,等.微博检索的研究进展[J].中文信息学报,2015,29(2):10-23.
[12]李锐,王斌.一种基于作者建模的微博检索模型[J].中文信息学报,2014,28(2):136-
143.
[13]Massoudi K,Tsagkias M,Rijke M D,et orating Query Expansion and
Quality Indicators in Searching Microblog Posts[C].Advances in Information Retrieval-
33rd European Conference on IR Research,2011:362-367.
[14]周霞娟,汪飞,金玲,等.用户驱动的微博可视化搜索[J].中国图象图形学报,2015,20
(5):715-723.
[15]Golovchinsky G,Efron sense of Twitter Search[J].Proc Chi Workshop
on Microblogging What&How Can We Learn from It,2011.
[16]Elsweiler D,Harvey ng and maintaining a sense of being
informed:Understanding the tasks motivating twitter search[J].Journal of the American
Society for Information Science&Technology,2015,66(2):264-281.
[17]刘薇.基于系统设计的微博检索系统评价研究——新浪微博搜索与百度搜索之比较[J].知
识管理论坛,2012(7):12-20.
2024年8月21日发(作者:竺范)
微博搜索、网页搜索对用户信息需求满足能力的对比分析—
—以新浪微博搜索、百度搜索为例
刘明珠;杨建林
【摘 要】文章通过对已有研究成果的分析总结,结合专家建议,将用户进行微博搜索
时的信息需求归纳为七类:新闻信息、实时信息、明星公众人物信息、社交人际关
系信息、公众舆论信息、机构公司信息、知识性信息,并基于这七类信息需求设计
调查问卷,考察了微博搜索对用户信息需求的满足能力,同时与网页搜索进行对比研
究,分析了两种搜索方式在满足用户不同信息需求方面的能力差异,以及产生差异的
原因.
【期刊名称】《图书与情报》
【年(卷),期】2016(000)005
【总页数】11页(P126-136)
【关键词】微博搜索;网页搜索;信息需求;问卷调查
【作 者】刘明珠;杨建林
【作者单位】南京大学信息管理学院 江苏南京210023;江苏省数据工程与知识服
务重点实验室 江苏南京210023;南京大学信息管理学院 江苏南京210023;江苏省
数据工程与知识服务重点实验室 江苏南京210023
【正文语种】中 文
【中图分类】G254.97
随着互联网技术的发展,互联网应用模式已经由传统的“人-机”交互模式变为
“社会化”交互模式[1]。在用户生成海量内容的Web2.0时代,如何对信息资
源进行再组织,使得用户快速高效地搜索到所需信息或知识,已经成为业界学界广
泛关注的话题和研究领域。
传统的网页搜索引擎利用爬虫软件采集资源,而爬虫软件抓取信息的滞后性会影响
搜索结果的质量,此外,许多用户不再满足于旧式的“人-机”搜索体验,他们更
期望利用在线社会网络(Online Social Networks,OSN)进行沟通协作来获得
质量更高的智能化搜索结果[2]。于是,“社会化搜索”的理念应运而生。
Teevan J等[3]认为传统搜索引擎建立了信息与信息之间的关系,在线社会网络
建立了人与人之间的关系,而社会化搜索则将信息与人关联起来,重建了一种人与
信息之间的映射。当前,实现社会化搜索的平台与工具可以分为四类:一是专业的
社会化搜索引擎,如谷歌的Social Searcher;二是在线问答社区,如知乎、百度
知道;三是社会化标注系统,如CiteULike;第四类则是社会化媒体,包括
Facebook、Twitter、人人网以及本文讨论的新浪微博等。
微博因其开放、简洁、易操作的特点吸引了众多用户,而用户在发布、传播信息的
同时使得微博又成为一个重要的信息平台。Jansen B J等[4]研究表明,人们不
仅利用微博分享信息,还利用微博搜索所需信息。据中国互联网络信息中心发布的
《2014年中国网民搜索行为研究报告》显示,截至2014年6月,中国互联网用
户在微博上进行搜索的比例达到57.1%。作为社会化搜索的重要实现方式,微博
搜索也引起了学界的关注与研究。当前学界对微博搜索的研究多着眼于微博短文本
的特征,通过改善、革新算法、检索策略等方式提高检索结果的质量,很少有研究
从用户的视角对当前各类微博平台的搜索功能进行探索与评价。
本文通过对已有研究成果的分析总结,结合专家建议,将用户进行微博搜索时的信
息需求归纳为七类:新闻信息、实时信息、明星公众人物信息、社交人际关系信息、
公众舆论信息、机构公司信息、知识性信息,并基于这七类信息需求设计调查问卷,
考察微博搜索对用户信息需求的满足能力,同时与网页搜索进行对比研究,分析两
种搜索方式在满足用户不同信息需求方面的能力差异,并探究产生差异的原因。希
望研究结果对改进现有微博搜索系统的工作有参考价值。
微博自出现就吸引了众多学者的研究兴趣,早期的微博研究多集中于微博的文本特
征、微博用户及其行为、微博传播模式等方面[5]。如曹鹏等[6]认为Twitter
允许用户以多种格式自由转发消息,使得系统中存在大量重复或近似消息,他们提
出通过统计字符种类和最短编辑距离两种字符串距离计算方法来判定Twitter中近
似或重复的消息。J Weng等[7]在分析Twitter用户之间的关注(follow)与
被关注关系后,提出了一种基于PageRank的扩展算法Twitter Rank,用以衡量
微博用户的影响力。B Suh等[8]在大规模数据分析基础之上,总结影响微博转
发率的因素,并据此建立了一个预测微博转发模型。
微博在不同情景下的应用与影响一直是一个研究热点。如Hawn C[9]探究了包
括微博在内的一系列社会化媒体为现代医疗行业带来的变革;吴敏[10]通过实
例分析研究了媒体微博营销的现状,通过分析微博的传播特性指出微博用于商业营
销的可能性以及优势,并结合媒体特点提出对未来微博营销的设想和建议,等等。
近年来,随着微博信息量的快速增长,用户从微博中获取信息的需求逐渐增多,微
博检索也得到了越来越多的关注与研究。当前,国内外学界对微博搜索的研究多从
搜索服务提供方的角度出发,通过改进各类搜索引擎的检索策略与算法,来提高检
索结果的质量。
微博检索与传统文本检索之间的差异使得传统的网页检索技术不能满足微博搜索的
需求:一是微博文档相较于网页具有很多独有特征,如文本短小(不超过140个
字符)、含有大量缩写、表情符号之类的不规范用语以及有特殊含义的标签
“@”、“#”等;二是在对微博搜索结果进行排序展示时,除了要考虑文本的语
义相似度外,还需要考虑时间远近、微博发布者的影响力等因素[11]。围绕以
上问题,学者们做了大量相关研究。如李锐等[12]认为:每条微博都有发布者,
发布者都有或多或少的个人信息,如果将作者的信息融入检索模型,作为对微博短
文本的补充,可以提高检索效果,他们在TREC公开数据集上进行了实验,验证了
新模型的合理性;Massoudi等[13]在微博检索过程中考虑了多种能刻画微博
质量的因子,如是否包含表情符号、用户的粉丝数、微博长度、转发数等,通过对
这些因素经验性的线性加权来提高检索结果的质量;除了对检索策略的改进外,还
有学者研究可视化在微博搜索结果中的应用,如周霞娟等[14]用关注度传递算
法对搜索进行扩展,将返回的特征词对微博用户进行可视化展示,并提供用户可查
看的,与选定特征词或用户相关的微博,方便用户高效地定位感兴趣的微博信息。
有少量学者也从用户角度出发,对微博的搜索功能进行研究。如Golovchinsky G
等[15]在分析Twitter现有搜索功能的不足后,通过问卷调查的方式研究
Twitter用户进行微博搜索的原因,并提出了一种新的、改进的twitter搜索结果
展示方法;Teevan J等[3]先以小部分人群为样本,通过访谈调查等形式总结用
户为何使用微博搜索功能,又通过对大规模Web搜索日志和Twitter搜索日志进
行对比研究分析,验证上述动机,发现人们在微博检索中更加趋向于搜索实时性的
内容 ,而且在Twitter中的检索表达式平均长度短于网页检索;Elsweiler D等
[16]结合日记研究和网上问卷调查两种方式,调查了用户进行微博搜索的动机
以了解他们的信息需求,相关结论有助于设计出更好的微博搜索系统。这些学者关
于用户使用微博搜索原因的研究是本文对微博搜索中的用户信息需求进行分类的基
础。
3.1 问卷设计
3.1.1 信息需求种类的确定
调查微博搜索对用户信息需求的满足能力,首先要确定用户想借助微博搜索满足哪
些方面的信息需求,更简明的说法就是用户利用微博搜索哪些方面的信息。
通过文献调研可以发现,已经有多名学者对“用户利用微博搜索寻找什么?”这一
问题进行了研究,如Gene Golovchinsky和Miles Efron[15]探讨了用户进行
微博搜索的原因,他们通过发放网络问卷的方法获得了23名Twitter用户关于搜
索频率、信息需求类型的反馈。结果显示,最为常见的四类信息需求是事件、找人、
流行话题、文档信息;Jaime Teevand等对微软公司的54名Twitter用户进行问
卷调查,让被调查者用文字描绘自己使用Twitter搜索什么类型的信息。在得到调
查结果后,用扎根理论总结出Twitter搜索的信息需求类型,并请4位Twitter活
跃用户对结果进行了改进完善,最后共总结出三大类信息需求。第一类是即时信息,
其中又包括新闻事件信息与实时信息两小类,其中实时信息指的是如路况、天气、
网络状况等信息;第二大类是社会信息,社会信息又分为几小类,第一小类是关于
“人”的信息,如公众人物、用户自身、用户相识的人、陌生人等;第二小类社会
信息是社会群体对某一特定事物的整体意见,可概括为公众意见及舆论;第三大类
信息需求是话题信息,指的是Twitter中有标签标注的特定讨论话题。David
Elsweiler和Morgan Harvey[16]探讨了用户进行微博搜索的原因,其中对用
户的信息需求类型有简单提及,如寻找公众意见等,但更多侧重于用户的动机,如
反复搜索以跟进事件信息、寻找之前浏览过的微博等。由于对本文关于信息需求类
型的界定帮助不大,在此不再赘述。
通过对比参照可以发现,上述三个研究关于“微博搜索满足用户哪些方面的信息需
求”的研究结果有很多共同之处,同时也存在一些差异。通过对三篇文献研究结果
的整合、改进,并结合3位专家的建议,本文决定从新闻、实时信息、明星公众
人物、社交人际关系、公众舆论、机构公司、知识性信息七个方面设计问卷问题,
以考察微博搜索满足用户信息需求的能力。
3.1.2 具体问题设置
由于问卷问题多、耗时长,且被访者要具有相当的网络检索能力,所以可以获得的
样本数量比较少,约100人。为了避免因为样本数量少产生偶然性偏差以致得出
不正确的结论,本文以七个方面的信息需求为基础,设计相似但不相同的两份问卷
(问卷A、B),将被访者分为两组,一组作答A卷,另一组作答B卷,方便在结
果分析阶段进行对照。
传统的网络搜索引擎(如百度搜索)与新兴的微博搜索有着密切的关系,为了对这
二者进行对比研究,每份问卷的11道大题下又分为A、B两小题(见表1)。同
一道大题的两小题题干相同,不同之处在于题A要求用新浪微博搜索完成,题B
要求用百度搜索完成。
3.1.3 问项设置
在每一道小题之后,都会请参与调查者记录下完成该题的搜索次数、所用时间、使
用的搜索功能,同时请用户对自己完成任务的程度、以及任务难度进行评估(时间
单位为分钟);微博搜索功能提供“1.综合2.找人3.图片4.兴趣主页”四个选项,
百度的搜索功能提供“1.网页2.新闻3.视频4.地图5.贴吧6.其他”六个选项;完
成程度提供“1.无从下手2.基本解决3.完全解决”三个选项;任务难度提供“1.很
容易2.容易3.一般4.困难5.很困难”五个选项。
此外,每道大题之后,被访者已经分别用微博搜索、百度搜索完成了同样任务,会
请他们选择更倾向用新浪微博还是百度搜索完成这种类型的题,以做后续分析。
除了上述必填问项外,每道小题后还提供填写检索结果页面网址的空格以及检索表
达式的空格,但不是必填项(以问卷A的第四大题为例,问题及必填问项设置见
表2,问卷A、B完整内容见附录)。
3.2 样本选择及问卷发放
本文通过参与调查者完成任务的程度来衡量微博对用户信息需求的满足能力,而参
与调查者的信息检索能力会影响任务的完成程度。本次问卷调查选取重点高校信息
管理专业的本科生参与调查,因为相较于其他群体,他们具有较高的信息检索能力,
并且能力差别不大。
由于问卷需要边进行网络检索边填写,故采取了网络问卷调查方式。为了使被参与
调查者能够充分利用微博、百度的搜索功能完成检索任务,在填写问卷之前,对被
参与调查者进行了简单但是必要的检索功能说明。
4.1 调查结果
本次调查共回收98份合格问卷,其中A问卷48份,B问卷50份(进行数据处
理、分析后的部分结果见表3、表4)。
4.2 结果分析
对表3中的数据进行分析,可以发现:参与调查者在用微博搜索完成11项任务后,
对于每项任务的完成程度的评估均值均大于2(从1到3分别为无从下手、基本
完成、完全解决),其中问卷A中11项任务的完成程度均值为2.4,问卷B则为
2.6;而在网页搜索方面,虽然有个别任务完成程度高于微博搜索,但与此同时,
也存在完成度低于2,即不能基本满足此类信息需求的任务,如问卷A中的第6
题,问卷6中的第5题,这两项任务目标都是搜寻关于社交人际关系方面信息。
由此可以得到如下两个结论:
结论1:微博搜索可以基本满足用户对于新闻、实时信息、公众人物、社交人际关
系、公众舆论、机构公司以及知识性信息这七个方面的信息需求;
结论2:在微博搜索可以满足的信息需求类型中,百度搜索可以满足其中部分需求,
但在如社交人际关系类信息方面,微博搜索有网页搜索不可替代的优势。
为了更直观地分析微博搜索与网页搜索在满足7类信息需求方面的能力,对同种
搜索方式在满足不同类型信息需求方面的表现进行比较,根据表3中的数据,对
考察同一类信息需求的任务数据进行计算汇总(见表5),以分别找出微博搜索、
百度搜索中完成难度最高、最低及完成程度最高、最低的信息需求类型,并在表中
加粗显示。
可以发现,无论是微博搜索还是百度搜索,难度最低且完成程度最高的,都是对机
构公司信息进行搜寻的任务。结合具体题目设置,以及对部分参与调查者的询问,
笔者发现:问卷A及问卷B中通过寻找公司机构的官微、官网来考察两种搜索方
式满足用户对公司机构信息需求的能力,而无论是搜索官微还是官网,对于参与调
查者来说步骤操作都十分简单:用微博搜索时只需要在找人功能中输入所要寻找的
机构名称,如果该机构建立了官方微博账户,就可以轻松找到;同样,用百度搜索
寻找机构官网时,也只需要在搜索框中输入该机构的名称,如果机构设有官方网站,
就会在搜索结果中相对靠前的位置出现,并且会标有“官网”字样。并且,寻找帐
号的任务只要搜索到结果,便可以评测为“完全解决”,所以,完成程度较其他需
要考虑检索结果质量高低的任务更高。
在微博搜索中,完成难度最高的是新闻信息的搜寻,结合具体题目设置、对部分参
与调查者的询问及微博搜索的特点,笔者认为原因在于问卷A、B中对搜索的新闻
信息附加了时间限制,一个要求最新发生,一个要求最早发布,因而参与调查者要
在大量搜索结果中再进行筛选,加大了任务难度。并且,微博搜索在进行检索结果
展示时,通常将最新发布的微博显示在前面,这给搜寻发布时间较早但更有价值的
微博增加了难度。
在微博搜索中,完成程度最低的是对明星、公众人物信息的搜索,结合题目设置及
微博信息的特点进行分析,得出的结论是问卷A、B要求参与调查者对明星一段时
间内的活动信息进行搜集,而微博信息具有文本短、信息零碎片段化等特点,参与
调查者需要搜集多条微博并进行整合才能完成任务,因而任务完成度较低。
在百度搜索中,任务难度最大且完成度最低的是对社交、人际关系类信息的搜索,
原因在于社交、人际关系类涉及个人隐私的信息多集中在如微博、人人网一类的社
交平台上,很少有人在公开网页上发布。
4.2.1 新闻信息
在问卷A与问卷B中,分别设置了第一、第二两道题来考察微博搜索满足用户新
闻信息需求的能力。两份问卷中第一道题是相同的,都要求参与调查者分别利用微
博和百度搜索三个最新发生的新闻事件,并尽量精确地填写新闻事件的发生时间。
问卷A的第二道题要求参与调查者寻找最早报道巴黎恐怖事件的博文和网页,问
卷B则将“巴黎恐怖袭击”换为“俄罗斯战机坠毁”,其它要求相同。
一个被较为广泛认同的说法是:微博信息较传统网页更有时效性,因此,笔者做出
猜测:在满足用户新闻信息需求方面,微博更具有优势。为了验证这一猜想,笔者
对表3中关于第一、第二两道题的数据进行分析。
第一题的统计结果显示,无论是问卷A、问卷B,参与调查者都认为使用百度搜索
的完成度更高(问卷A:微博2.5,百度2.6;问卷B:微博2.6与百度2.8),并且
用百度搜索完成该任务时搜索次数、用时更少,难度也更低。表4中的数据也显
示,参与调查者更愿意用百度搜索完成此类任务,这些结果恰恰与上文提出的猜测
相悖。
为了进一步印证猜测是不合理的,笔者又分别计算了使用微博搜索到的新闻事件与
使用百度搜索寻找的新闻事件距2015年12月02日0点的相隔时间(所有问卷
在此之前已回收完毕)。结果显示,问卷A中使用微博搜索的新闻事件的时间差
是36.2小时,百度搜索则为34小时;问卷B中这两项结果分别为42小时与33
小时。也就是说,通过百度搜索的新闻事件更“新”,这也与之前几项调查数据相
吻合。
为了探索现象出现的原因,笔者对“所用功能”问项的结果进行分析,发现参与调
查者在用微博搜索完成任务时,绝大部分都使用综合搜索功能,而用百度搜索则使
用专门的新闻搜索功能。
第一题只对新闻事件的发生时间进行限制 (要求尽量新),第二题则给出特定的
新闻事件,让两组参与调查者分别完成。统计结果显示,搜寻关于某个特定新闻事
件的最早信息,微博搜索比百度搜索完成程度更高(问卷A:微博2.2,百度2.1;
问卷B:微博2.4,百度2.2),笔者通过访问被调查者留下的URL链接,也验证了
微博会比网页更早出现相关事件信息这一点。
但是,尽管微博搜索的完成度高于百度搜索,参与调查者利用微博搜索时却要比用
百度搜索尝试更多的搜索次数,耗费更多的时间。而且表4的数据显示,倾向于
使用百度搜索完成类似任务的人依然占多数,只是所占比例较第一题有所下降。
在两种搜索方式的功能选择上,与第一题相似,使用微博搜索多用“综合”功能,
使用百度搜索多用“新闻”功能。
结论3:微博搜索可以为用户提供更早、更新的新闻事件信息,但是由于网页搜索
中的新闻搜索功能具有操作简单、设计合理等优势,更多的用户还是愿意用百度搜
索新闻。
4.2.2 实时信息
问卷A、问卷B的第三题考察微博搜索满足用户实时信息需求的能力。问卷A要
求参与调查者分别用微博搜索和百度搜索了解所在城市的路况信息,问卷B则要
求参与调查者搜索一个没有去过但感兴趣的城市的天气情况。
表3中的数据显示,百度搜索比微博搜索完成程度更高(问卷A:微博2.4,百度
2.6;问卷B:微博2.7,百度2.8),搜索次数、花费时间更少,难度更低;而根据
表4中的数据,也可清晰看到:参与调查者倾向于使用百度搜索解决这类问题的
所占比例更大。
通过访问参与调查者在网络问卷中记录下的结果网页链接,笔者发现:参与调查者
在微博上搜寻路况、天气信息时,检索结果信息来源主要有两种:一种是诸如“南
京路况直播间”之类的官微,他们会定时不定时地发送包含相关信息的微博;另一
种是位于目标位置的普通微博用户发送的微博,一般会附带地理位置信息。而利用
百度搜寻路况、天气等实时信息时,参与调查的用户大多选择专业的网站,如“实
时路况网”“中国气象网”等。这正好解释了为何网页搜索比微博搜索能更好地完
成实时信息的查找。
结论4:在实时信息搜索方面,诸如路况、天气这些在生活中有广泛频繁需求的信
息,由专业的网站提供信息服务,因而,网页搜索能更好地满足用户信息需求。
4.2.3 明星公众人物信息
问卷A、问卷B的第四题考察微博搜索满足用户对公众人物信息需求的能力。问
卷A要求参与调查者搜索出TFboys组合2015年11月参加的活动,问卷B则将
TFboys组合换成演员胡歌。
表3中的数据显示,百度搜索比微博搜索完成程度更高(问卷A:微博2.3,百度
2.6;问卷B:微博2.3,百度2.5),参与调查的用户倾向于用百度搜索解决这类问
题所占比例也更大,但是在完成难度方面,微博搜索却低于百度搜索。
为了解释这个现象,我们继续分析这两种搜索方式所用的功能,并结合参与调查者
记录的结果页面网址进行分析发现:在微博上进行搜索时,绝大部分参与调查者使
用“找人”功能,通过寻找明显本人微博或后援会之类的微博来了解明星的活动,
这些微博帐号关于明星活动的信息并不全;而用百度搜索时更多的用户选择在“贴
吧”中搜索,知名度、人气较高的明星在个人贴吧中都有粉丝发表的关于明星行程
的帖子,由于贴吧中人数、帖数众多,相关信息也更加全面。
结论5:用户可以通过找人功能快速找到开通微博帐号的公众人物及其相关组织,
而这些微博账户可以提供关于该公众人物的信息;在网页搜索中,贴吧一类的公众
人物专属BBS,也可以提供大量的相关信息;两项比较,微博中的信息相对比较
零散;无论是微博还是贴吧,某位公众人物相关信息的多少都因人而异,受知名度、
粉丝数量等因素影响。
4.2.4 社交人际关系信息
问卷A、问卷B的第五、第六题考察微博搜索满足用户对社交人际关系类信息需
求的能力。
问卷A的两道题要求参与调查者用两种检索方式查找“别人发表的关于自己的”
信息,以及一个好友的微博帐号和联系方式(先前未知);问卷B则要求参与调
查者分别用两种搜索方式搜寻一个与自己有相同兴趣爱好的陌生人的微博帐号或联
系方式,以及了解一个朋友最近的活动和心情。
从表3的数据可以看出,除了问卷A中寻找关于自身信息的一题外,即问卷A第
五题外,其他三项任务,微博搜索的完成度都远高于百度搜索,并且花费时间、搜
索次数也少于百度搜索,完成难度也较低。
从表4的数据来看,同样除了问卷A中要求寻找关于自身信息的第五题,其他三
题参与调查者都更倾向于用微博搜索完成同类任务。
为了解释问卷A第五题结果与其它三题结果不符的现象,笔者访问参与调查者记
录下的结果页面链接,并随机访谈了几位参与调查者,发现:参与调查者用百度搜
索时直接输入自己的姓名,如果不是特别常见的姓名,有很大机率在第一页出现关
于自己的信息,如学校网站发布的录取名单、获奖名单等等;而在微博中输入自己
的姓名却很难找到,一是因为微博作为一个社交平台,正式的文件、通知信息很少,
而微博好友发微博提及自己时,很少用全名,一般只@微博昵称,而即使提及,
微博内容中也不一定有真正相关的信息。
结论6:微博搜索在满足用户关于社交人际关系信息的需求上,较传统的网页搜索
有明显优势,但在某些特定方面,如自身信息等,微博搜索处于劣势。
4.2.5 公众舆论信息
问卷A、问卷B的第七题、第八题考察微博搜索满足用户对公众意见、舆论类信
息需求的能力。
其中第七题要求参与调查者分别用两种搜索方式搜寻大众关于某一政策的意见态度;
第八题则要求参与调查者了解大众对某一影片的评价。
从表3关于第七题的相关数据来看,在了解关于某项政策(事件)的公众舆论方
面,微博搜索比百度搜索的完成度更高(问卷A:微博2.6,百度2.5;问卷B微博
2.4,百度2.3),难度低,花费时间及搜索次数少。同时,表4中的数据显示,
参与调查者更倾向于用微博搜索完成此类问题,也验证了这一点。
由此可见,在搜索大众对某项政策、事件的看法态度上,微博搜索更有优势。而表
3中关于第八题的相关数据显示,在搜索大众对某部电影的评价上,微博搜索和百
度搜索在完成度(问卷A:微博2.6,百度2.6;问卷B微博2.7,百度2.7)、难度、
用时、搜索次数方面都相当接近,表4中的数据也与表3相互验证,在问及今后
搜索该类信息时的搜索方式使用倾向上,更多的参与调查者表示两者并无太大差别。
分析原因可以发现,在微博上搜索影评信息时,可以同第七题一样,采用加“#”
的方式,进入话题页查看不同用户所发的关于该电影的微博;而用百度输入关键词
搜索后,也很容易找到专门的影评网站,如豆瓣等。
结论7:微博搜索在满足用户关于公众舆论信息的需求方面,较传统网页搜索更有
优势,但在某些特定方面,如影视剧评价等,因为有专业的网站存在,利用传统的
网页搜索也可以方便地找到所需信息,优势并不明显。
4.2.6 公司机构信息
问卷A、问卷B的第九题、第十题考察微博搜索满足用户对公司机构类信息需求
的能力。
问卷A的第九题要求参与调查者分别找到武汉大学信息管理学院的官方微博帐号
和官方网址,问卷B则要求搜索南京大学计算机系的官微和官网。从表3显示的
结果来看,问卷A中,微博搜索比百度搜索完成度低(问卷A:微博2.6,百度
2.8)、难度大、耗时长、搜索次数多,并且相对地表4显示,参与调查者更倾向
于用百度搜索完成任务;而问卷B的结果显示,用微博或百度搜索南大计算机系
的官微或官网完成度(问卷B:微博2.9,百度2.9)、难度、用时、搜索次数方
面都相当接近,表4中参与调查者中认为两种搜索方式区别不大的也占多数。
为了分析两项相似的任务产生较大差异的原因,笔者按照要求,分别在微博与百度
中检索武大信息管理学院与南大计算机系,发现武汉大学信息管理学院并没有官方
微博帐号,只有武大信息管理学院学生会这一组织开设了官微,有一个名为“武汉
大学信息管理学院”的微博帐号,并没有通过官方认证,关注者少,从所发微博来
看,并不是官微,而南大计算机系则有相应的官微。在官网方面,两个学院都有自
己的官方网站。
由此可见,问卷A第九题中微博搜索完成情况较百度搜索差的原因在于武汉大学
信息管理学院只开设了官网并没有开设官微。
问卷A、B关于第十题的调查结果则是一致的,在搜索自己感兴趣的公司的官微、
官网上,微博搜索和百度搜索完成度、难度、用时等数据都十分接近,但是参与调
查的用户还是更倾向于用百度搜索解决类似的问题,同时,表示两种搜索方式差别
不大的也有相当比例。
结论8:同一个机构或公司官微和官网发布的信息种类、数量不尽相同,尤其在其
只有官网没有官微的情况下,在搜寻公司机构信息方面,微博搜索并不比传统网页
搜索有优势。
4.2.7 知识性信息
问卷A、B的第十一题考察微博搜索满足用户对知识性信息需求的能力。其中问卷
A要求参与调查者分别用两种方式检索有关转基因食品的科普信息,问卷B则要
求参与调查者检索有关ISIS起源及发展过程。
从表3中的数据可以看出,利用百度搜索比利用微博搜索完成程度更高 (问卷A:
微博2.3,百度2.7;问卷B:微博2.4与百度2.7),搜索次数、花费时间更少,难
度更低;而根据表4中的数据,也可清晰地看到,参与调查的用户倾向于用百度
搜索解决这类问题的所占比例更大。
结论9:在进行知识性信息搜寻方面,传统的网页搜索比微博搜索更有优势。
4.3 调查结果总结
用户主要使用微博进行七类信息的搜索:新闻、实时信息、明星公众人物、社交人
际关系、公众舆论、机构公司、知识性信息,而微博搜索可以基本满足用户对这七
个方面的信息需求。在微博搜索可以满足用户需求的信息类型中,网页搜索也可以
满足其中部分需求,但在有些方面,微博搜索仍有不可替代的优势。
与传统网页搜索相比,微博搜索优势明显的是:公众舆论、社交人际关系信息的搜
索;而在新闻信息、实时信息、公众人物信息搜索方面,微博搜索有其独特长处,
但是传统网页搜索推出的专业性功能如百度的新闻搜索、贴吧,以及其它专业性网
站如路况网、各类影评网等,削弱了微博搜索的优势,使用户更倾向选择百度搜索
完成这些类型的任务;在机构信息和知识性信息方面,传统网页搜索能更好地满足
用户需求。
此外,从调查结果中还可以观察到两个变化趋势:
(1)网页信息不断丰富,微博搜索的原有优势正在逐渐减少。这一点由参与调查
者相较于用微博搜索新闻信息,更愿意使用百度的新闻搜索功能搜索新闻信息、百
度的贴吧搜索功能可以为用户提供较微博更多更全的明星信息、以及专业的影评网
站可以与微博搜索的“话题”讨论一样,很好地满足用户对影视作品口碑信息的需
求等方面可以看出。
(2)当微博搜索和百度搜索能同等程度满足用户信息需求,甚至是微博搜索较网
页搜索的表现更有优势的情况下,利用微博搜索往往耗费更多时间精力,用户还是
更倾向于用百度搜索。如参与调查者完成问卷A、B第二大题搜索关于某特定新闻
事件最早发布的博文或网页信息时,微博搜索完成程度更好,但耗时更久、难度大、
搜索次数多,因而更多的人倾向于用百度搜索完成类似任务。
第一种现象产生的原因是网页信息的丰富以及网页搜索功能的扩展,相较之下,微
博搜索的改进集中在算法、检索策略上,信息资源数量、检索功能设置仍显薄弱。
新浪微博官方团队也意识到了这一点,并尝试进行改进,如他们推出的“长微博”
功能,可以弥补微博文本短小,不能承载长篇文字信息的短板,但是长微博的本质
是图片,用户如何高效检索到长微博所含内容又成为一个新的问题。微博搜索功能
的添加、改进工作需要更多的关注与研究。
第二种现象表明相较于传统网页检索,微博检索的效率还有待提高,其中既包括检
索策略、算法的改进,如提高查全率、查准率,还包括检索结果的显示、用户页面
的设置等等。
微博不仅是一个基于用户关系的社交网络平台,同时也是一个拥有海量数据的信息
资源宝库,微博用户数量的增长、微博信息的丰富,也更加凸显了微博搜索的重要
性。微博平台的搜索功能,可以基本满足用户的信息需求,与传统网页搜索相比,
在社交人际关系、公众舆论信息的搜索方面,有明显优势。
与此同时,微博搜索也有许多待改进之处,如丰富检索功能、提高检索效率等,此
外,尽管微博搜索的本质仍是检索系统,但是微博的特殊性决定了微博检索系统要
为用户提供区别于普通检索系统的服务。因此,微博检索系统在强调普遍性的同时,
还应该突出其固有的特性,从而为用户提供更为全面准确的个性化检索服务
[17]。
在微博搜索不断发展改进的同时,传统搜索引擎也注意到了微博检索巨大的潜在价
值,微博平台向网页搜索引擎提供部分微博检索结果也成为一种潮流趋势,如微软
的必应搜索引擎,通过购买的方式获得Twitter的数据授权,在其检索结果中加入
微博检索结果;国内的百度搜索也整合微博内容,在搜索结果中显示与关键字相关
的最新微博内容。对于微博搜索来说,如何处理自身检索系统建设与网页搜索的覆
盖、替代,也是一个新的挑战。
微博搜索的巨大作用日益凸显,许多不足之处尚待改进,新的挑战也不断出现,值
得更多学者的关注与研究。
【相关文献】
[1]秦嘉杭.社会化搜索研究述评[J].情报资料工作,2014(6):61-66.
[2]孙晓宁,朱庆华,赵宇翔,等.社会化搜索研究进展综述[J].图书情报工作,2014,58(17):5-
13.
[3]Teevan J,Ramage D,Morris M rSearch:a comparison of microblog search
and web search[C].Proceedings of the Forth International Conference on Web Search
and Web Data Mining,WSDM,35-44.
[4]Jansen B J,Zhang M,Sobel K,et r power:Tweets as electronic word of
mouth[J].Journal of the American Society for Information Science&Technology,2009,
60(11):2169-2188.
[5]李绪维.微博短文本检索关键技术研究[D].哈尔滨:哈尔滨工业大学,2013.
[6]曹鹏,李静远,满彤,等.Twitter中近似重复消息的判定方法研究[J].中文信息学报,
2011,25(1):20-27.
[7]Weng J,Lim E P,Jiang J,et rRank:finding topic-sensitive influential
twitterers[C].Proceedings of the third ACM international conference on Web search
and data ,2010:261-270.
[8]Suh B,Hong L,Pirolli P,et to be Retweeted?Large Scale Analytics on
Factors Impacting Retweet in Twitter Network[C].Social Computing/IEEE International
Conference on Privacy,Security,Risk and Trust,2010 IEEE International Conference
,2010:177-184.
[9]Hawn Two Aspirin And Tweet Me In The Morning:How Twitter,Facebook,And
Other Social Media Are Reshaping Health Care[J].Health Affairs,2009,28(2):361-
368.
[10]吴敏.基于微博的媒体营销研究[D].广州:暨南大学,2010.
[11]卫冰洁,王斌,张帅,等.微博检索的研究进展[J].中文信息学报,2015,29(2):10-23.
[12]李锐,王斌.一种基于作者建模的微博检索模型[J].中文信息学报,2014,28(2):136-
143.
[13]Massoudi K,Tsagkias M,Rijke M D,et orating Query Expansion and
Quality Indicators in Searching Microblog Posts[C].Advances in Information Retrieval-
33rd European Conference on IR Research,2011:362-367.
[14]周霞娟,汪飞,金玲,等.用户驱动的微博可视化搜索[J].中国图象图形学报,2015,20
(5):715-723.
[15]Golovchinsky G,Efron sense of Twitter Search[J].Proc Chi Workshop
on Microblogging What&How Can We Learn from It,2011.
[16]Elsweiler D,Harvey ng and maintaining a sense of being
informed:Understanding the tasks motivating twitter search[J].Journal of the American
Society for Information Science&Technology,2015,66(2):264-281.
[17]刘薇.基于系统设计的微博检索系统评价研究——新浪微博搜索与百度搜索之比较[J].知
识管理论坛,2012(7):12-20.