相关作者的搜索结果
Scrapy网络爬虫开发实战
2人今日阅读
《Scrapy网络爬虫开发实战》介绍如何学习和使用流行的Scrapy框架开发网络爬虫应用,主要内容使用Python开发网络爬虫,识别网页的编码,结构化信息的提取,Scrapy爬虫的示例使用,Scrapy Playwright抓取动态JS网站,将抓取的数据保存到数据库,部署、调度和运行Scrapy爬虫等。 《Scrapy网络爬虫开发实战》适合作为高等院校计算机、软件工程专业本科生、研究生的参考书目,也适用于对Python网络爬虫领域感兴趣的人士参考阅读。
自己动手写分布式搜索引擎
本书介绍了分布式搜索引擎开发的原理与Java实现,主要包括全文检索的原理与实现、分布式算法与代码实现、SolrCloud和ElasticSearch的使用与原理等内容,并着重介绍了一种实现分布式中文搜索引擎的方法。 本书适合有Java程序设计基础的开发人员或者对分布式搜索引擎技术感兴趣的从业人员使用。
自己动手写网络爬虫(修订版)
本书介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。本书在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适用于有Java程序设计基础的开发人员。同时也可以作为计算机相关专业本科生或研究生的参考教程。
自然语言处理与Java语言实现
本书详细介绍以Java实现的自然语言处理常用的应用。从基本的文本挖掘技术到语音识别、问答系统和机器翻译技术,包括中文分词、词性标注、依存句法分析等。其中详细介绍了中文分词和词性标注的过程及相关算法,如隐马尔可夫模型等。在自然语言处理的应用领域主要介绍了信息抽取、自动文摘、文本排重、文本分类、文本倾向性分析等领域的基本理论和实现过程,此外还有问答系统、机器翻译等目前应用非常广泛的领域。
搜索引擎技术与发展
本书主要介绍如何使用Java语言开发搜索引擎,包括搜索引擎技术入门,使用Java开发网络爬虫,实现从文档中提取索引内容,中文分词的原理与实现,在Linux服务器端开发Solr应用,Spring Boot微服务框架实现的后端,以及React框架实现的前端等内容。第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具;第2章主要介绍网络爬虫开发和数据存储;第3章主要介绍从HTML文件中提取文本,以及从PDF、Word等非HTML文件中提取文本;第4章主要介绍Lucene中的中文分析器的原理与实现;第5章主要介绍Solr索引库的创建与维护,以及Solr的查询解析器;第6章主要介绍Web方式搜索结果界面的实现;第7章主要介绍如何使用SolrCloud实现分布式搜索。
自己动手写搜索引擎
本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。
唐家山高速短程滑坡堵江及溃坝机制研究
这是一本关于“5·12”汶川地震形成的唐家山高速短程滑坡及溃坝机制研究的专著。分析和论证了大型顺层高速岩质滑坡在强震作用下滑坡突发启动、高速运行、变形解体、动量传递、碰撞刹车一系列运动过程的动力学机理,以及建立堰塞坝受到余震影响,在坝体渗流场和应力场耦合状态下,变形破坏直至溃决动态过程的理论模型。
小心!男人就这样骗你
全书由“24式女子防心术”组成,其中前“心灵之约”著名主持人罗刚从饱经世事的男人角度揭露男人本色;女作家兰心则以闺中密友的角度陪着读者打开心扉。
Elasticsearch搜索引擎开发实战
本书结合Elasticsearch在工程中的实际应用,详细介绍了使用Elasticsearch开发支持中文和英文搜索引擎的相关技术,从而实现系统监控。本书共分为8章,内容涵盖了Elasticsearch搜索引擎开发的环境安装与配置;实现一个简单的网站搜索;开发中文搜索引擎;Mapping详解;源代码分析;提高搜索相关性;使用Spring Boot开发搜索界面;使用Elasticsearch和相关软件实现系统监控;搜索引擎开发案例分析。
领土与海洋争端国际案例评析(1994-2019)
本书在案例研究方面穷尽了主要国际司法机构1994年至2019年做出裁判的海洋法问题和领土争端的48个案例。本书对这些案例进行了全面、深入和系统的分析,不仅为科学决策提供参考依据,也有利于进一步促进国家海洋法和领土法的教学研究。本书的出版还可以为学者和有志于国际法研究的学生和人士提供研究参考,提高我国在这一领域的研究水平。
星空下的守望者
暂无简介
云南大学法学院文丛·明法文库:云南边境民族地区非法移民问题及其治理研究·以河口瑶族自治县为例
治理非法移民,必须标本兼治,《云南大学法学院文丛·明法文库·云南边境民族地区非法移民问题及其治理研究:以河口瑶族自治县为例》分析了产生问题的原因,同时,从多方面分析了云南边境民族地区非法移民的不利影响,凸显了对其进行治理的必要性和紧迫性。
使用C#开发搜索引擎
介绍如何以C#作为工具开发搜索引擎。 全书以完成一个网站搜索\垂直搜索作为目标。从网络爬虫抓取数据开始,然后到中文分词、文本排重等文本挖掘技术和搜索结果展现。本书是唯一介绍业界热门的Lucene.Net、使用WebBrowser做爬虫以及结合Solr开发ASP.NET搜索的书籍。从C#基础开始,逐渐深入,是学习搜索引擎开发的首选。 对于学习复杂数据结构和应用动态规划等常用算法也有参考价值。
Elasticsearch大数据搜索引擎
Elasticsearch搜索集群系统在生产和生活中发挥着越来越重要的作用。本书介绍了Elasticsearch的使用、原理、系统优化与扩展应用。本书用例子说明了Java、Python、Scala和PHP的编程API,其中在Java搜索界面实现上,介绍了使用Spring实现微服务开发。为了扩展Elasticsearch的功能,本书以中文分词和英文文本分析为例介绍了插件开发方法。本书介绍了使用Elasticsearch作为数据管理平台的日志监控与分析方法,介绍了使用OCR从图像中提取文本以及问答式搜索的开发方法。
解密搜索引擎技术实战:Lucene & Java精华版(第2版 附DVD光盘)
《解密搜索引擎技术实战:Lucene & Java精华版(第2版)》总结搜索引擎相关理论与实际解决方案,并给出了Java实现,其中利用了流行的开源项目Lucene和Solr,而且还包括原创的实现。 《解密搜索引擎技术实战:Lucene & Java精华版(第2版)》主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍,并总结了实现方法。在全文检索部分,结合Lucene介绍了搜索引擎的原理与进展。用简单的例子介绍了Lucene的全新应用方法,包括完整的搜索实现过程:从完成索引到搜索用户界面的实现。此外还进一步介绍了实现准实时搜索的方法,展示了Solr的用法以及实现分布式搜索服务集群的方法。最后介绍了在地理信息系统领域和户外活动搜索领域的应用。
网络爬虫全解析――技术、原理与实践(博文视点出品)
本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。 本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。 最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。
甲壳动物增养殖学生产实习指导
甲壳动物增养殖学是水产养殖专业重要的专业课之一, 除要求学生掌握有关虾蟹类增养殖的基本理论外, 还要求学生熟悉各种基本操作技巧和技能。本生产实践教材涉及几个与生产有关的实验, 具有很高的生产指导价值。对于实验部分, 学生在实验过后要求提交实验报告一份。对于生产环节, 每个种类的苗种生产操作, 需要详细的生产实习日记进行记录。虾蟹类育苗生产实习是甲壳动物增养殖学课程的一个重要组成部分, 其主要内容是:通过参加生产实践和科学实验, 学习并掌握主要养殖虾蟹类的亲体的选择与培育、人工繁育、中间培育、苗种出池技术、苗种运输、经营销售等生产技术和基本知识, 调查了解商品虾蟹的养殖技术, 掌握育苗高产高质量的关键技术, 同时与水生生物学、环境化学、饵料生物培养学等课程相结合, 进行幼体培育的相关实验, 训练学生科学实验的技能, 培养分析和解决问题的能力。实习结束时, 每位同学需写出一份实习报告, 作为成绩评定的依据之一。
西南边境民族地区非法移民治理研究(国家社科基金丛书—法律)
非法移民与“三非人员”有联系但不是“三非人员”,由于跨境通婚等原因,云南、广西边境民族地区长期集聚了一定数量的非法移民定居,但未引起国家相关管理部门的重视,新闻媒体、学者及相关管理部门仍将其视为“三非人员”,特别是对因非法婚姻造成的非法移民大多持一种宽容的态度,给边境稳定、国家安全带来极大的威胁。本书从国家安全的角度,基于法治视野对该地区非法移民治理问题进行研究,特别是针对治理过程中存在的难题进行分析并提出相应的对策。同时,从法学角度研究中国边疆治理,或者说研究中国边疆治理法治化,是国家治理现代化的重要内容,范围及其广泛。教育部已经要求设立国家安全学一级学科,国家安全学属于交叉学科,是研究实现和维护国家安全过程中普遍规律的一门学科,国家安全法学将成为国家安全学一级学科下设的二级学科,而边疆治理法治化将成为其重要的研究方法及研究方向。
Java中文文本信息处理(从海量到精准)
《Java中文文本信息处理(从海量到精准)》以让零基础的读者通过自学完成一个中文分词系统为目标,从Java基础语法开始讲解,然后介绍文本处理相关的数据结构和算法,后介绍如何实现文本切分和词性标注。 《Java中文文本信息处理(从海量到精准)》是介绍业界热门的以Java开发中文分词技术的书籍。《Java中文文本信息处理(从海量到精准)》选取相关领域的经典内容,深入理解和挖掘,也综合了实践性强的创新想法,适合对软件开发感兴趣的青少年或者大学生阅读和学习。
高等师范院校教育技术学公共课教材·教师继续教育教材·现代教育技术:理论与实践
本书以《中小学教师教育技术能力标准(试行)》为标准,以现代教育技术理论及技术为基础,以师范院校本科生教育技术能力培养为目标编写。 全书内容结构分为任务和活动、理论学习、实践操作和附录四个部分,其中理论学习部分包括教育技术概述、现代教学媒体和教学系统环境、教育信息资源的获取、开发和利用、信息技术环境下的教学设计与教学、基础教育改革与教育技术等共十一章。实践操作部分包括照相与摄像设备的使用、数字图像与视频素材的处理、多媒体教学系统的操作、多媒体课件与网页的设计与制作等九个实验。 本书在编写上充分考虑大学生的心理特征和学习风格,采用“任务驱动”及参与式培训教学理念和活动设计,有利于学生轻松、高效地学习和实践。 本书既可作为高等院校本科生、研究生学习现代教育技术课程的教材,也可作为中小学教师教育技术能力培训的教学用书,同时,还可供从事教育技术、信息技术教学与管理的相关人员阅读。
Java轻量级Web开发深度探索
《Java轻量级Web开发深度探索》介绍如何学习和使用流行的Java编程语言进行Web开发。主要内容包括Java开发Web应用基础,结构化程序设计与面向对象编程,文本处理与网络编程,并发程序设计,应用程序开发,使用SpringBoot创建Web服务。 《Java轻量级Web开发深度探索》第1章着重介绍如何使用Java编程语言快速上手Web开发。第2章着重介绍结构化程序设计。第3章着重介绍面向对象编程。第4章着重介绍处理文本的有限状态机方法。第5章着重介绍套接字网络编程。第6章着重介绍并发程序设计。第7章着重介绍控制台应用程序开发基础以及如何开发Web应用程序。第8章着重介绍如何使用SpringBoot创建Web服务,使用JavaScript框架实现Web前端展示。 《Java轻量级Web开发深度探索》适合对软件开发感兴趣的青少年或者大学生阅读和学习,同时也适合对互联网行业感兴趣的人士参考使用。
Geology Applied to Civil Engineering 土木工程地质
本书是是“高等学校土木类国际化人才培养系列教材”之一,旨在为学生树立正确的工程和地质观,使其正确理解和有效处理土木工程项目设计、施工和运营中的地质问题。 全书共分13章,介绍了地质学、工程地质学和土木工程地质学之间的关系,地球概况,矿物和岩石,地层和地质构造,水的地质作用,岩石的工程性质,岩石风化和土壤性质,地震,地质灾害和减灾措施,隧道、地基和边坡工程地质问题,土木工程地质勘察。每章的开头,都有以案例形式出现的序言,以展示本章主要内容和需要解决的主要问题;每章末附练习题。 本书为新形态教材,配套了数字课程网站及二维码网站,提供教学课件、图片、动画等数字资源,充分运用多种形式媒体资源,丰富知识的呈现形式,拓展教材内容,在提升课堂教学效果的同时,为学生学习提供思维与探索的空间。 本书可作为高等学校土木工程、测绘工程、环境工程专业本科生教材,也可作为水利工程、矿山工程等相关专业的教材或参考书,还可供相关领域的工程技术人员参考。
解密搜索引擎技术实战
《解密搜索引擎技术实战-Lucene&Java精华版(附盘)》,本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现以及在搜索引擎中的实用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍并总结了实现方法。
徽州古牌坊
这是一片神奇的土地,这里是程朱阙里、礼仪之乡;从这里曾走出过显赫数百年的徽州朝奉,这里曾孕育出光彩夺目的晋京徽班,这里为中华文化增添过精彩的奇葩,这里曾创造出绚烂纷呈的凝固音符……正是有了这些曾经的辉煌和璀璨,才有了令世人惊叹叫绝、独树一帜的徽州历史文化。 每次走进徽州,都有一种敬畏与惊奇的感受,无外乎明代著名戏剧家汤显祖会动情地吟道:“一生痴绝处,无梦到徽州。”这里有着许许多多让人流连,令人魂牵梦萦的“痴绝”之处,倘佯在徽州古老而神秘的历史文化天空下,时而让人驻足沉思;时而让人惊叹不已;时而让人抒发胸臆;时而叫人发思古之幽情。 走过徽州,会有着心头阵阵的惊喜,边走边看,又会有一股发自肺腑的遐思和感叹。村寨中,幢幢粉壁黛瓦的明清民居,让人清晰地感受到徽州历史文化的气息;纵横交错于新安水系上的座座古桥,似在向人们展示着那历经无数徽商走过、通向世界的路;威严矗立的牌坊,像是在诉说历史更替的章回演义,这里有荣耀显赫,也有着血泪的印痕;柏森森的庄严宗饲、支祠,留存着自晋南迁的世家大家族的宗阀权杖;山上山下坐落着学宫书院,让人们聆听到作为“文化之都”、“东南邹鲁”、“十户之村,不废诵读”的朗朗读书声。 走进徽州,走入徽州历史文化的巨幅长卷中,一幕幕、一幅幅画卷会沸沸扬扬地在人们的脑海中闪现:古桥、古道、秋风中,弱冠的红顶商人胡雪岩正背着包袱雨伞,壮士出行般地迈着坚定的步伐,走出大山,创造奇迹;森严、隔世、肃穆的清懿堂内,一代代面无表情、或心存期盼、或心如止水的青壮媳妇们,由青丝变成白发,由青春转成暮年;棠樾、雄村、稠墅、郑村的村口、古道、街衢间,矗立的座座或华丽显赫、或独自风韵、或浸淫血泪、或令人震惊的自元至清的牌坊,几百年来,一直在向世人诉说着它们的喜怒哀乐,演绎着一幕幕悲喜戏剧;倘徉在紫阳、竹山、南湖的书院里,脑际里会浮现出朱熹讲解儒家经籍,弘扬他倡导的理学的身影,会窥见正是这样浓郁的文昌鼎盛之际,徽州朝奉们才实现了他们梦寐以求的“父子尚书”、“同胞翰林”的以仕护商、保商理想;穿梭于西递、宏村、唐模的村居间,承志堂、大夫第、履福堂的小西湖,正在向人们展示着昔日的荣耀、富庶和辉煌,水口、牛形、四水归堂的建筑布局与风格,正在向游人展现着古徽州人民的聪明睿智;雕梁、画栋和木、砖、石“三雕”技艺,似一曲民间交响变奏曲,获绕于林间、巷陌。 该丛书将以文化大散文笔触,对徽州历史文化中的古村落(包括古民居)、古牌坊、古桥、古书院、古宗词进行全景似的文化扫描,配以全景、个景或局部景观的图片,以求亲切可感、文笔优美,达到雅俗共赏之目标。