ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

《互联网信息资源检索与利用》读书笔记

2021-10-30 20:36:41  阅读:403  来源: 互联网

标签:检索 读书笔记 信息 搜索引擎 互联网 搜索 工具 目录


链接(Link):

链接是Web网页的元素,是指向其他信息资源的指针,把Web页绑在一起。跟随链接可以从一个文档跳到另一个相关文档。

用户组信息资源:

由一组对某一特点事物或主题有共同兴趣的网络用户组成的邮件群或电子论坛。是一种有组织的电子邮件系统,用户在其间通过电子邮件进行一对多的交流

信息组织:

答:信息组织就是把数据按照一定的结构、顺序、排列方式组织起来,或者说是按照信息查询的需要,对数据根据其特征进行组织。

词典

词典是根据一定编撰目的汇集的词语,并加以描述,说明,通常按字顺排列,是人们查找词语信息的工具书。

搜索引擎:

搜索引擎是一种能够通过互联网接受用户查询指令,帮助用户迅速的从网上查找所需要的信息,并向用户提供符合其查询要求的搜索结果列表及相关信息的检索系统。

国际组织:

国际组织或国际机构,是具有国际性行为特征的组织,是3个或3个以上国家为实现共同的政治经济目的,依据其缔结的条约或其他正式法律文件建立的有一定规章制度的常设性机构。

网上白页(白页信息):

网上白页是专用于查找个人信息的特殊工具,这些个人信息包括电话号码,E-mail、地址、邮政编码、通信住址等

黄页信息:

国际通用的按企业性质和产品类别编排的工商电话号码薄。提供公司的名称、地址、传真、邮编、E-maile、网址、产品、行业和公司简介等信息

超文本传输协议(HTTP):

HTTP是浏览器与 Web服务器之间相互通信、传输、响应用户请求的协议。扩展:Web服务器根据客户提出的HTTP请求,为用户提供信息浏览、数据查询、安全验证等方面的服务。

元搜索引擎:

元搜索引擎又称集合是搜索引擎,并行搜索引擎或搜索引擎之引擎。他是将多个搜索引擎集成在一起,并提供一个统一的检索界面

会议文献:

在各种学术会议上所发表的论文、报告、讲演等的统称。其主要特点是时效性强,反映新成果较快,质量较高,专业性较突出,往往代表着某一学科或专业领域的最新研究水平。

参考信息:

指人名、地名、机构、事件、统计数据等一类数据、事实信息,是人们工作研究和日常生活经常要查考、引用的信息。

年鉴:

年鉴是系统汇集一年内人、事、物各个方面发展变化的新情况和统计资料,按年度连续出版的资料性参考工具。它能够提供最新事实和统计数据,反应世界各地政治、经济、文化、科技等各方面的发展动向,是进行政策研究和学术研究的重要信息资源。

网络资源目录:

即以整个互联网资源为检索对象,将一些重要、优质的网络资源组成分类目录,提供给用户查询检索。

图像检索:

图像搜索,是通过搜索图像的文本表示或者视觉特征,为用户提供互联网上相关图像资料检索服务的专业搜索引擎系统,是搜索引擎的一种类型。

基于内容的图像检索(CBIR):

基于内容的图像检索:对图像的媒体视觉特征、内容语义、如图像的颜色、形状、纹理和空间布局等可视化内容进行分析和检索的图像技术。

基于文本的图像检索(TBIR)

基于文本的图像检索,TBIR沿用了传统的文本检索技术,从图像名称、图像尺寸、压缩类型、作者、年代等当面标引图像,忽视了图像的底层特征如:颜色、纹理、布局等对正确识别图像有着重要意义的元素。

搜索工具门户:

以信息检索工具、查询网站为检索对象,专门为人们了解、选择适用的信息查询工具提供推荐、引导服务。

浏览器:

浏览器指Web服务客户端的浏览程序,是显示网页服务器或档案系统内的文件(是显示Web服务器上的网页或图片或多媒体文件等),并让用户与这些文件互动的一种软件。

布尔检索:

布尔检索模型是最简单的检索模型,也是其他检索模型的基础.用户根据所检索关键词在检索结果中的逻辑关系递交检索,检索模块根据布尔逻辑的基本运算法来给出检索结果。扩展:扩展布尔检索是对布尔检索的扩展,增加了相关性计算。

超文本标记语言(HTML):

HTML是一种专门编程语言(超文本标记语言),具体规定和描述了文件显示的具体格式。HTML文件可直接在浏览器上运行供用户查看。

学科信息门户:

只以某一领域或科学门类的网络资源为检索对象的目录型网络检索工具。**扩展(功能说明):**一般由图书馆、研究就够或政府组织构建,具有明确的服务对象,是网络信息的资源发现的重要工具

URL:

通用资源定位程序。实际上是一个用以标识文档类型及其所在网络地址的字符串,它的用途是用统一的方式指明互联网上信息资源的位置。

FTP:

FTP是互联网使用的专门用来传输文件的协议。功能:该协议的主要功能是完成从一个系统到另一个系统完整的拷贝文件,即在计算机之间传输文件。

信息需求:

个人内在的认知状态,与外在环境所接触后所产生了不确定性,发现了个人认知的缺口,进而试图寻找适当的信息,以弥补认知缺口,解除上述不确定性。

关键词:

元数据—关键词:资源内容的主题。用以描述资源主要内容的关键词语或分类号码表示的有代表性的主题词。

学科分类法:

一般是以知识分类为基础,按照学科性质及从属,层次关系来组织网络资源。扩展:优势是比主题分类有更大的容量,内容更有针对性、更具学术性,更能满足研究人员的查找需求。

政府信息:

政府信息指国际组织、各国政府及其相关部门所发布的信息。这类信息具有权威性,可靠性。另一个特点就是廉价。

桌面元搜索引擎:

该搜索引擎是一种搜索软件,可以直接在用户的计算机以桌面程序的方式为用户提供服务

网页快照:

网页快照中存储了搜索引擎的爬虫程序访问到该网页时复制的一个备份。当访问的网页打不开时,可尝试使用网页快照

WorldCat:

互联网WorldCat是OCLC系统提供的一个在线联合目录数据库,是世界上最庞大/最完整/收录图书馆最多的联合目录。

CALIS OPAC****系统 CALIS联合目录数据库检索系统是由中国高等教育文献保障系统建立.

亚马逊网上书店 亚马逊网上书店是互联网上最大,最著名的图书及音像制品销售公司,其总部设在美国西雅图。

*MediaFinder*

MediaFinder**由Oxbridge Communications,Inc 编制,该公司长期致力于编撰大型期刊目录及数据库,是著名的《标准期刊指南》等一系列期刊工具书的出版商。

JournalSeek

Genamics JournalSeek 是互联网上最大的全学科免费期刊信息数据库,目前已收录5000余家出版商的97403种期刊。

国内学术期刊检索系统

中国学术期刊网(dlib.Cnki.net/kns50)中国学术期刊网是由清华同方光盘股份有限公司/光盘国家工程研究中心和中国学术期刊(光盘)电子杂志社共同研制出版的综合性全文数据库平台,又称国家知识基础设施(CNKI)

JDTOR

**JSTOR****是一个对西文过期期刊进行数字化的非盈利机构*,***针对期刊订费高涨及过期期刊存放空间有限等问题,有计划的建立和兴学术性过期期刊的数字化存档,以提供便利的相关资料检索与利用

Elsevier SDOS 荷兰爱思唯尔出版集团是全球最大的科技与医学文献出版发行商之一。

HighWire 是全球最大的提供免费全文学术文献的出版商

中国科技论文在线 (开放共享)

中国学术会议在线(www.meeting.edu.cn

中国学术会议论文全文数据库(c.g.wangfangdata.com.cn/Conference.aspx)

中国重要会议论文全文数据库(www.cnki.net)

ProQuest****是世界著名的博士论文文摘数据库

万方数据知识服务平台的学位论文库 国家法定的学位论文收藏权威机构

CNKI****知识网络服务平台的学位论文检索 中国优秀硕士学位论文全文数据库和中国优秀博士硕士论文全文数据库

CALIS****学位论文中心服务系统 是中国高等教育文献保障系统主要建设资源之一

WIPO FOLD是世界知识产权组织提供的一个免费公共资源,可对WIPO收藏的可检索全球专利数据进行的一站式检索

USPTO 美国国家专利与商标局

Derwent****是全球最权威的专利和科技情报机构之一.

国家知识产权局的专利检索平台(www.sipo.gov.cn/zljs)

中国专利信息网(www.patent.com.cn)

中国知识产权网(www.cnipr.com)

ISO Online 国际标准化组织 ISO是世界上最大的非政府标准化专门机构.

中国标准服务网(www.cssn.net.cn)

维基百科 是一个语言、内容开放的网络百科全书计划。

IFA 为用户提供极为优质的黄白页检索服务,是世界上最好的黄白页信息查询工具之一。

Whitepages 是美国最大的白页和黄页信息服务提供商之一。

Mapquest 是世界一流的地图查询工具

The Europa World Learning 是著名且利用率颇高的学术机构名录

在线新华字典 被誉为最大,最全的在线汉语字典

简述互联网信息资源的特点:

答:1广泛性 2多样性 3共享性 4新颖性 5互动性 6经济性(获取廉价)

简述互联网信息检索(因特网信息检索)的特点:

答: 1. 无限的检索范围,动态的检索对象 2. 丰富的检索内容,新兴的检索领域 3. 强大的检索工具,低廉的检索费用

搜索引擎按检索机制可分成哪些类型?Google和Yahoo分别属于哪种类型:

答:1目录型 2 索引型 3混合型 二 google属于索引型 Yahoo属于目录型 二者都是混合型

检索关键词为:”神舟飞船 title:航天 image:神舟十号 text:航天工程 domain:.net url:news**”,**请说明其中含有的通用字段检索语法意义,并解释该检索关键词的目的:

答: 在域名为.net的网站中其网页地址(url)要包含news的网页里面寻找页面主题包含航天,页面中的图片要有神舟十号,正文要包含航天工程及神舟飞船.

简述目录型网络检索工具的分类体系及常见类型:

答: 分类: 主题分类法 (采用一个特征或主题充当类目)

​ 学科分类法 (以知识分类为基础,按照学科从属/层次关系来组织网络资源)

​ 图书分类法 (图书馆业长期采用的专门分类,组织图书的经典工具)

​ 分面组配法 (确定几个分类标准,在确定每个分类的若干特征值)

类型: 网络资源目录(整个互联网资源为检索对象,将一些重要的优质的资源组织成目录,给用户查询检索)

​ 学科信息门户 (只以某一领域或科学门类的网络资源为检索对象)

​ 搜索工具门户 (以信息检索工具,查询网站为检索对象,为人们了解选择适用的查询工具推荐如 hao123)

简述目录型网络检索工具的特点:

答: 1 面向用户的易用性(面向所有终端用户,器分类浏览方式直观易用)

​ 2 提供准确性较高的信息内容 (目录型检索工具的资源是以人工或半人工进行)

​ 3 提供导航作用良好的检索体系机构 (等级式的树状目录结构,根据知识分类原则)

​ 4 以明确的主题和对象为中心的设置类目(目录从用户出发,用户体验良好)

​ 5 有兼容性强的多元类目(采用多个分类标准,主题或事物之间可交叉渗透)

简述目录型网络检索工具的使用方法

答: 1采用广度优先查询法 (用户尚未掌握某一领域时,推荐从目录的首页开始)

​ 2 注意了解各个检索工具的收录特点,选择适当的工具

​ 3 掌握各个目录型检索工具的分类体系.

​ 4 关注热门主题和常用目录

​ 5 关注开放目录型检索工具

目录型网络检索工具主要适用于什么检索情况?请列举有代表性的网络资源目录,国内国外各两个

答: 1 用户进行比较笼统的主题浏览和检索 2 用户尚未形成很精确的检索概念,采用目录型网络检索工具非常有效.

举例:国内:hao123 搜狗网址导航 国外:Yahoo雅虎 Galaxy

目录型网络检索工具有什么样的结构特点?使用时最好注意哪些方法?

答: 目录型网络检索工具是按等级结构组织的,基本上是层层划分,按照从总到分的方式逐级展开。它建立了一个由类目、子类目等构成的可供浏览的相当详尽的目录等级结构。

使用方法: 1采用广度优先查询法 (用户尚未掌握某一领域时,推荐从目录的首页开始)

​ 2 注意了解各个检索工具的收录特点,选择适当的工具

​ 3 掌握各个目录型检索工具的分类体系.

​ 4 关注热门主题和常用目录

​ 5 关注开放目录型检索工具

简述搜索引擎的信息预处理技术:

答: 1关键词提取技术(对网页源文件内容进行关键词提取) 2 垃圾信息消除技术(屏蔽无关信息)

3 链接分析技术(从HTML文件中分析链接) 4 网页重要性计算技术

简述搜索引擎的信息索引技术

答: 1. 信息语词切分和语词词法分析(语法分析) 2. 进行词性标注及相关的自然语言处理 3. 建立检索项索引 4. 检索结果处理技术(概率方法 位置方法 摘要方法 分类或聚集方法)

简述元搜索引擎的优点

答:1. 信息覆盖面大,检索效率高 2. 检索工具扩展性能强 3. 服务多样化 4. 无须考虑网页索引数据的建立和维护

简述元搜索引擎的缺点

答:1. 检索结果全面性和可靠性较差(检索时间数量的限制) 2. 不能灵活控制结果的输出(统一的界面)

\3. 检索结果排序不够理想(不同引擎算法不一致) 4. 信息搜索覆盖面存在局限性 5. 检索式处理较为复杂(大部分搜索引擎互不兼容)

简述元搜索引擎与普通搜索引擎的区别

答:1. 元搜索引擎可以将提问一次提交给多个成员引擎 2. 元搜索引擎没有自己独立的资源库 3. 元搜索引擎的结果是基于成员引擎结果的二次加工 4. 元搜索引擎标注结果来源是哪个成员引擎及该结果相关度

简述关键词选取的步骤:

答:1抽取基础关键词,排除常用词(如 的地得) 2 考虑基础关键词的同义词 (比如 穿着 衣着)

​ 3 考虑上位词和下位词 (比如 鸟是麻雀的上位词) 4 考虑相关词 (如国足和世界杯)

​ 5 总结审视

简述互联网信息资源的局限性:

答:1分散(来源太广) 2无序(信息分散在不同层次和节点) 3多变(传播迅速,动态性变化性强) 5信息质量难以控制(信息创造者的水平不同) 5信息安全难以保障(网络欺诈)

简述互联网检索工具的性能评价指标

答: 1收录范围(覆盖范围,数据量大小影响检索结果)

2检索功能(含 检索方式:直接输入还是分类浏览 检索技术:布尔检索 组配检索等 检索限定:对不同的数据库 文档字段限制)

3 检索效率包含 检全率 检准率 响应时间/系统连通性是评价检索工具效率的重要(主要)指标

4 检索结果的处理和展示(相关性排序)

5 用户界面设计 (设计不良 检索功能在丰富也无法吸引用户使用)

网络信息资源质量评价的标准主要分为哪5条?评价方法主要分为哪两类?

答: 1.目的 2. 范围 3. 内容 4. 评论 5.费用

方法: 1. 定性评价 特征 质量做出主观评价)

\2. 定量评价 数量分析法,对相关数据进行采集,统计分析做出比较系统,客观的评价

\3. 网络信息资源的一般评价方法 (包括 1.从URL中得到信息(是教育还是政府) 2.查看网站描述和版权 3.从链接中获取信息(如果友情链接是空链 死链) 4.参考他人的评价)

简述因特网信息资源的一般评价方法

答: 1.从URL中得到信息(是教育还是政府) 2.查看网站描述和版权 3.从链接中获取信息(如果友情链接是空链 死链) 4.参考他人的评价

简述对因特网信息资源进行评价的意义:

答:用户获取高质量的网络信息的期望日益提高,他们希望获得的信息是有效的/可靠的/权威的/相关的/适用的.面对信息资源质量不均衡状态,发展网络信息资源评价是至关重要的.

简述搜索引擎的主要工作步骤(原理)

答:1抓取——从互联网上抓取网页信息,这一过程基本是是搜索引擎蜘蛛程序自动的。

​ 2 索引——建立索引数据库 搜索引擎对搜集到的网页信息进行系统整理的过程

​ 3 搜索、排序——在索引数据库中搜索排序,用户输入关键词后搜索系统从索引数据找到符合关键词的网页并计算其相关性

​ 4 显示——对搜索进行处理排序。搜索引擎定期对网页进行重新访问,重新计算网页的相关性和重要性

简述图书馆馆藏目录检索系统的检索途径(检索方式有哪些)

答:1 题名检索包括书名,丛书名,并列书名,刊名等 2责任者检索 (编者 作者 译者) 3 分类检索 (图书所属学科 领域分类) 4 书号码检索 (图书的ISBN号) 5 出版社名称检索 6 图书的主题/关键词检索

什么是用户组信息资源(就是论坛等社交属性)**,**它的主要优点是什么?

答: 由一组对某一特定事物或主题有共同兴趣的网络用户组成的邮件群或电子论坛。是一种有组织的电子邮件系统,用户在其间通过电子邮件进行一对多的交流。

优点: 1. 直接交互 2. 全球互联 3. 主题鲜明

简述用户服务组的功能

答:1订阅该组 2取消订阅 3读取组中文章 4发布文章至该组 5跟帖 6 回复 7 转发

什么是垂直搜索引擎?主要特征是什么?其关键技术主要有哪两项?

答:针对某一特定领域,某一特定人群或某特定需求提供的信息搜索和有一定价值的相关信息服务。特点(特征):专/精/深,且具有行业色彩。

关键技术: 1.主题爬虫技术(根据一定算法过滤与主题物管的信息,保留有关信息) 2.Web信息提取技术 将现有html信息数据源 提取并以更结构化 语义更清晰化发布

网络信息检索技术发展需要以什么为核心?主要在哪6个领域进行开发和创新?

答:提高搜索工具的信息服务功能,完善搜索服务为核心。

创新:1. 智能检索(用户需求理解智能化 检索过程智能化) 2. 语义检索(偏向于人的语言) 3. 垂直搜索(专业化 专/精/深) 4. 基于内容的多媒体信息检索 5. 跨语言检索 6. 信息检索可视化

网络检索工具,按检索对象,检索机制和集成检索工具数量不同时,分别如何进行划分?

答:此条提供完整的检索工具分类

1按检索对象划分 (web资源检索工具 非Web资源检索工具)

2 按检索机制划分(目录型 索引型 混合型)

3 按检索领域划分(综合性网络检索工具 专业型网络检索工具(垂直搜索引擎) 特殊型网络检索工具(如黄页地图等))

4 按集成检索工具数量划分 (独立型网络检索工具 集合型网络检索工具)

5 按运行环境划分 (互联网检索工具 网站内检索工具 桌面搜索工具)

在信息检索策略中,试给出任意7种进阶检索技巧

答:1 猜测URL 2 网址右截断 3 利用网页快照 4 利用浏览器查找功能 5字段检索 6 垂直检索 7 利用错误信息 8 使用自然语言 9 避免拼写错误 10 注意大小写

简述通过FTP获取文件的一般步骤:

答:1登录(填写FTP地址 用户名 和 密码) 2 浏览目录,找到所需文件 3 设置文件传输参数(ASCII用于文本传输 二进制 传输非文本文件) 4下载所需文件

学术期刊有什么特点?在互联网上检索学术期刊的途径有哪些?

答: 学术期刊品种多,数量大,涉及面广拥有庞大的写作队伍和最广泛的读者群。

途径有: 1. 期刊出版信息的网上检索 2. 期刊收藏信息的网上检索 3. 期刊内容信息的网上检索 4. 开放期刊的获取检索

作为数字化,网络化信息的核心与集成,互联网上的主要信息包括哪几种?其中隐形的网页数量多吗?

答:1. 政府信息 2. 教育信息 3. 科研信息 4. 商务信息 5.娱乐信息 6. 媒体信息

隐形网页数量多,由于各种原因不能被搜索引擎搜索到。

通用搜索引擎的优势主要有哪些(基于关键词检索)?请列举有代表性的通用搜索引擎,国内外各2个.

答:1. 全文搜索 2. 检索功能较强 3. 信息更新快 国外Google Yahoo Bing 国内 百度 搜狗 hao123

缺点:1. 检索结果数量巨大 2. 影响用户搜索有用的信息 3. 检索查准率有待提高 4. 检索结果中死链 重复信息多检索结果显得繁多杂乱

列举搜索引擎的检索功能:

答: (1)分类主题检索功能;(2)关键词查询功能;(3)逻辑组配功能;(4)截词检索功能;(5)精确检索;(6)智能检索。

列举与WWW信息资源相关的重要概念

答:1超文本传输协议(HTTP协议) 2超文本标记语言(HTML) 3通用资源定位程序(URL) 4主页(HomePage) 5链接(Link) 6浏览器

简述互联网信息检索的类型

答:1. 顺链而行的浏览 2. 基于目录型检索工具的互联网信息检索 3. 基于索引型检索工具的互联网信息检索

简述网上参考信息源的主要类型

答:1. 百科知识检索网站 2. 人物信息检索网站(传记/白页) 3. 地理信息检索网站(地图) 4. 时事新闻检索网站 5. 机构信息检索网站 6. 词语信息检索网站 7. 统计信息检索网站

简述搜索引擎的工作原理

答:1抓取——从互联网上抓取网页信息,这一过程基本是是搜索引擎蜘蛛程序自动的。

​ 2 索引——建立索引数据库 搜索引擎对搜集到的网页信息进行系统整理的过程

​ 3 搜索、排序——在索引数据库中搜索排序,用户输入关键词后搜索系统从索引数据找到符合关键词的网页并计算其相关性

​ 4 显示——对搜索进行处理排序。搜索引擎定期对网页进行重新访问,重新计算网页的相关性和重要性。

简述有助于基于文本的图像检索方法的Web文档内容(白话:基于文本的图像检索有哪些方式)

答:1. 图像的文件名及网址 2. 图像的替代文字(html中img标签 alt属性) 3. 图像周围的文字 4. 图像所在的页面标题 5. 图像所在网页彼此间的链接

简述网络信息检索技术发展方向

答: 1 智能检索(用户需求理解智能化 检索过程智能化) 2 语义检索(偏向于人的语言) 3垂直搜索(专业化 专/精/深) 4基于内容的多媒体信息检索 5 跨语言检索 6 信息检索可视化

试述搜索引擎的关键技术和发展趋势:

(一)信息收集和存储技术——一般分人工和自动两种方式

(二)信息预处理技术——1. 关键词提取技术(对网页源文件内容进行关键词提取) 2. 垃圾信息消除技术(屏蔽无关信息) 3. 链接分析技术(从HTML文件中分析链接) 4. 网页重要性计算技术

(三)信息索引技术——1. 信息语词切分和语词词法分析(语法分析) 2. 进行词性标注及相关的自然语言处理 3. 建立检索项索引 4. 检索结果处理技术(概率方法 位置方法 摘要方法 分类或聚集方法)

(四)**发展趋势:**1. 自然语言检索技术(偏向于人的语言) 2. 目录导航检索与关键词检索相结合(如hao123) 3. 智能化和个性化检索技术(大数据分析查询意图) 4. 多媒体检索技术(内容检索方向) 5. 5G移动搜索(随时随地搜索内容不限于文字) 6. 交叉语言搜索(多语言) 7. 垂直搜索(专业化 专/精/深) 8. 信息检索可视化

试述基于文本的图像搜索和基于内容的图像搜索各自的特点及查询方案:

TBIR 文件图像检索技术从图像的名称/尺寸/压缩类型/作者/年代方面标引图像忽略图像的底层特征如颜色/布局/纹理等。方式有:1图像文件名及网址查询 2 图像的替代文字 Alt属性 3 图像周围的文字 4 图像所在页面的标题 5 图像的超链接 6 图像所在网页彼此间的链接
CBIR 克服文本图像搜索不足对图像的媒体视觉特征,内容语义如颜色,形状,纹理,和空间布局等可视化内容进行分析和检索的图像检索技术。方式有:1 按例查询(用户提供一个图片) 2 按绘查询(用户在画板上画) 3 按描述查询 (如30%黄70%蓝色)

试述互联网信息资源的评价标准:

答: 1.目的——该网站是否有明确说明其目的,对象。

2.范围——该网站所覆盖的主题领域,所提供信息的广度,深度,时间范围等。

3.内容——该网站所提供的信息是事实性,还是评论性的,还是仅提供链接。其准确性,权威性,独特性等有待考察

4.评论——关注网络资源评价服务,如专业期刊上的站点推荐,著名资源评价网站等。

5.费用——一是连通费用如网费,流量费。二是为了访问、获取、使用网站中的知识内容所必须付出的费用

试述互联网检索工具的性能评价指标:

答: 1收录范围(覆盖范围,数据量大小影响检索结果)

2检索功能(含 检索方式:直接输入还是分类浏览 检索技术:布尔检索 组配检索等 检索限定:对不同的数据库 文档字段限制)

3 检索效率包含 检全率 检准率 响应时间/系统连通性是评价检索工具效率的重要(主要)指标

4 检索结果的处理和展示(相关性排序)

5 用户界面设计 (设计不良 检索功能在丰富也无法吸引用户使用)

试述网络信息检索中的法律风险:

答:1版权风险 (搜索引擎强大的搜索能力下,会搜索出大量拥有版权的网页、书籍、报刊、论文、图片)

​ 2 侵犯隐私的风险 (如某个热点事件的人物,对他进行人肉搜索)

​ 3 搜索引擎营销风险 (关键词营销影响人们获取正确的信息)

​ 4 避风港原则 我们要对各类文艺、艺术、科学作品给予严格的保护,防止侵权行为发生。另一方面我们要让互联网上的各种企业或卖家 首发经营,自律经营。如发现侵权等行为应要求删除或下架侵权内容,如不能施行则进行证据收集走法律途径。

试述目录型网络检索工具与搜索引擎的区别

适用性:

\1. 用户进行比较笼统的主题浏览和检索 2. 用户尚未形成很精确的检索概念时。

\3. 而搜索引擎则能直接使用关键词来查询,进而得到最全面最广泛的搜索结果

优势与不足:

目录型网络检索工具由人工编制维护,在信息搜集,编排,编码等方面需要投入大量人力和时间优点是结果精确,学术性强,信息质量文档。缺点是:搜索范围比搜索引擎小,信息更新不及时。

而搜索引擎则全面充分、方便快捷。搜索引擎基本上都采用基于关键词匹配的全文检索技术。缺点是:可供选择的信息太多,没有范畴限定,信息查询的命中率,准确率,查全率不太令人满意。

未来发展:

​ 目前搜索引擎都在逐渐将两者优势结合 使检索结果更加全面,准确,效率高方便易用。

目录型检索工具的特点有哪些?其分类体系常用哪些分类法?它如何引导用户在目录型检索工具中的操作以满足查询需求

**特点:**1 面向用户的易用性(面向所有终端用户,器分类浏览方式直观易用)

​ 2 提供准确性较高的信息内容 (目录型检索工具的资源是以人工或半人工进行)

​ 3 提供导航作用良好的检索体系机构 (等级式的树状目录结构,根据知识分类原则)

​ 4 以明确的主题和对象为中心的设置类目(目录从用户出发,用户体验良好)

​ 5 有兼容性强的多元类目(采用多个分类标准,主题或事物之间可交叉渗透)

分类: 主题分类法 (采用一个特征或主题充当类目)

​ 学科分类法 (以知识分类为基础,按照学科从属/层次关系来组织网络资源)

​ 图书分类法 (图书馆业长期采用的专门分类,组织图书的经典工具)

​ 分面组配法 (确定几个分类标准,在确定每个分类的若干特征值)

使用方法: 1采用广度优先查询法 (用户尚未掌握某一领域时,推荐从目录的首页开始)

​ 2 注意了解各个检索工具的收录特点,选择适当的工具

​ 3 掌握各个目录型检索工具的分类体系.

​ 4 关注热门主题和常用目录

​ 5 关注开放目录型检索工具

试述搜索引擎的“瓶颈”

答:1搜索引擎的索引能力 (互联网信息资源越来越多样化,复杂化。而搜索引擎搜索到的内容总是有限的因此,搜索引擎需要不断的创新提供更加全面、及时、精准的搜索服务)

​ 2 迎战深网(主要是搜索引擎难以发现、索引、检索到的信息内容的网页 搜索引擎则需要发展深度搜索技术,同时与深网合作,来保证搜索结果精确,完整和友好的用户体验)

​ 3 搜索引擎的排序与输出 (将搜索结果最相关最重要的排在前面 涉及到的排序方法有 链接分析法 词频统计法)

常用的互联网信息检索模型有哪些?各自的优缺点是什么?

答:1布尔检索 (优点:模型简单,所有检索模型的基础。缺点:没有相关性,结果不够进精确)

​ 2 扩展布尔检索 (优点:检索结果有相关性)

​ 3 空间向量模型 (优点:检索结果不仅有了相关性而且有重要性 缺点:计算复杂)

​ 4 概率检索模型 (优点:严格的数学理论基础,克服不确定性推理 缺点:参数估计难度大,文件和检索表达比较困难)

什么是元搜索引擎?它如何工作(工作原理)?他与通用搜索引擎主要的区别是什么?

答: 1元搜索引擎又称集合式搜索引擎,并行搜索引擎,它将多个搜索引擎集成在一起,并提供一个统一的检索界面.

**原理:**资源整合和工具集成 (一般元搜索引擎由三个部分组成

检索请求提交机制:负责实现用户的个性化设置如检索时间,结果数量限制

检索接口代理机制:将用户检索请求翻译成多个成员引擎要求的检索格式

检索结果显示机制:将检索到的结果去重,合并,输出)

与搜索引擎的区别 1. 元搜索引擎可以将提问一次提交给多个成员引擎 2. 元搜索引擎没有自己独立的资源库 3. 元搜索引擎的结果是基于成员引擎结果的二次加工 4. 元搜索引擎标注结果来源是哪个成员引擎及该结果相关度

搜索引擎检索的对象是实时匹配互联网上的网页吗?说明其工作原理的四个步骤,以及其工作需要的四种主要信息预处理技术?

**答:**不是,是匹配的索引数据库中的信息。

**步骤:**1抓取——从互联网上抓取网页信息,这一过程基本是是搜索引擎蜘蛛程序自动的。

​ 2 索引——建立索引数据库 搜索引擎对搜集到的网页信息进行系统整理的过程

​ 3 搜索、排序——在索引数据库中搜索排序,用户输入关键词后搜索系统从索引数据找到符合关键词的网页并计算其相关性

​ 4 显示——对搜索进行处理排序。搜索引擎定期对网页进行重新访问,重新计算网页的相关性和重要性。

信息预处理技术: 1. 关键词提取技术(对网页源文件内容进行关键词提取) 2. 垃圾信息消除技术(屏蔽无关信息) 3. 链接分析技术(从HTML文件中分析链接) 4. 网页重要性计算技术

在使用搜索引擎是,关键词的有效选择非常重要;请说明关键词选取的常用5步骤,以及常见的可配套使用的布尔逻辑操作符.

答:1. 抽取基础关键词,排除常用词(如 的地得) 2. 考虑基础关键词的同义词 (比如 穿着 衣着)

​ \3. 考虑上位词和下位词 (比如 鸟是麻雀的上位词) 4. 考虑相关词 (如国足和世界杯) 5. 总结审视

布尔逻辑 AND并且 OR或者 AND NOT不包含 NEAR 位置相近 BEFORE 之前 AFTER 之后

试述网络信息检索工具的工作原理(有点像通用搜索引擎原理(但网络检索工具包含通用搜索引擎,是上位词))

\1. 文档分析(主要是爬取HTML建立HTML树结构)

\2. 建立索引 (将分析后的数据存储为索引数据库)

\3. 归类和聚集(将索引数据分门别类准备提供给用户检索)

\4. 生成元数据(如作者,创建时间,关键词,出版者等)

\5. 信息查询(提供 布尔检索 扩展布尔检索 向量模型检索 概率模型检索)

书籍是重要的学习资源,在互联网上检索书籍的途径有哪些?各有什么特点

答: 1 世界各地图书馆馆藏目录系统检索 特点:联机图书馆公共可检索目录OPAC 可以访问世界各地的图书馆目录

​ 2 联合目录数据库 特点:把分散在各地,各图书馆的文献,从目录上连成一体,帮助用户查询多个数据库目录

​ 3 网上书店 (在线的书店商城)

​ 4 电子图书数据库和服务提供站点 特点:种类繁多

试述网络信息检索工具的分类及其具体类型:

答:1按检索对象划分 (web资源检索工具 非Web资源检索工具)

2 按检索机制划分(目录型 索引型 混合型)

3 按检索领域划分(综合性网络检索工具 专业性网络检索工具(垂直搜索引擎) 特殊型网络检索工具(如黄页地图等))

4 按集成检索工具数量划分 (独立型网络检索工具 集合型网络检索工具)

5 按运行环境划分 (互联网检索工具 网站内检索工具 桌面搜索工具)

类型 通用搜索引擎 垂直搜索引擎 元搜索引擎

试述检索策略的制定步骤及其实施步骤

检索策略

1明确信息需求 知道自己想要找什么内容

2 信息需求描述 体现5W1H

3 关键词的选取 (关键词选取原则)

4 关键词的组配 (逻辑操作符 AND OR等)

实施步骤

​ 1 判断目标可能存在的地方

​ 2了解互联网信息检索的特殊性

​ 3 了解可用的检索工具

​ 4 分析信息需求选择合适的检索工具

​ 5 根据检索结果调整检索策略

试述常用的搜索技巧

答: 在未有迫切的检索需求时可以尝试“顺链而行”的检索方式在互联网上漫游

​ 2 如果了解被检索内容的基本信息可以尝试目录型的检索工具,根据对被检索内容的了解选择合适的目录进入查找。还可以尝试垂直搜索引擎。

​ 3 如想要检索的结果多样,繁杂可以使用索引型检索工具,通过关键词检索。然后通过搜索工具的时间、地点、文件类型、指定网站等精确检索结果。或尝试元搜索引擎获取更多的检索结果。

进阶技巧: 1 猜测URL 2 网址右截断 3 利用网页快照 4 利用浏览器查找功能 5字段检索 6 垂直检索 7 利用错误信息 8 使用自然语言 9 避免拼写错误 10 注意大小写

标签:检索,读书笔记,信息,搜索引擎,互联网,搜索,工具,目录
来源: https://blog.csdn.net/gcfkh/article/details/121055954

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有