一站式互联网营销策划服务商

为企业网络营销保驾护航!

全网服务热线:

023-81362590

您好!欢迎进入奥斯诺科技

首页 >> 新闻资讯 >>行业新闻 >> 爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库
推荐阅读
更多
  • 入驻百度爱采购给你不一样的效果

    入驻百度爱采购给你不一样的效果

    我们知道国内的电商平台就出名的就是淘宝,但是后续也出了一个京东,所以电商平台是越来越多做线上交易的人越来越多,百度也不意外今年也推出了百度爱采购,随着互联网的普

  • 入驻百度爱采购的好处你都知道多少?

    入驻百度爱采购的好处你都知道多少?

    前段时间百度出了一个新产品叫做百度爱采购是一个B2B的交易平台又促进了网络营销的发展,这段时间有很多的人看见了时机就入驻了百度爱采购并且得到了大家的好评,前几天

  • 入驻百度爱采购,一种新的网络营销体验

    入驻百度爱采购,一种新的网络营销体验

    不知道大家最近有没有关注百度,我们都知道百度的产品非常的多网络营销意识很强但是就没有像淘宝那样的购物平台,但是这个不重要重要的是百度就在前不久就推出了和淘宝一样

  • 网站SEO技巧:利用不同渠道来进行内容分

    网站SEO技巧:利用不同渠道来进行内容分

      创建高质量的内容是每个SEO员工必修的课程。它是基于搜索营销、索引、排名、排水和改造。有时情况并非如此。我们需要使用更多的第三方平台来显示基于搜索的内容。 

  • SEO优化人员应该读哪些书、SEO人员必

    SEO优化人员应该读哪些书、SEO人员必

      SEO优化人员应该读哪些书、SEO人员必备技能  你读过哪些关于学习SEO的书?  如何找到网站优化书籍是每个SEO从业者经常问的问题,但是市场上有很多SE

  • 网站优化:了解外链的价值,才能够好的做S

    网站优化:了解外链的价值,才能够好的做S

      网站优化:了解外链的价值,才能够好的做SEO  如何评价外链相关文章的价值?其原因很简单:更好地理解链接的价值,有利于更好地进行链接分析,快速掌握蚕茧提取中

  • 【重庆网站SEO】首选域名的选择与设置注

    【重庆网站SEO】首选域名的选择与设置注

      【重庆网站SEO】首选域名的选择与设置注意事项  如果你刚刚进入SEO行业,你会偶尔听到SEO专家谈论首选领域,起初大家都不同意它,觉得它没有实际意义,但随

  • 如何学习SEO?这四本书相信对你有所帮助

    如何学习SEO?这四本书相信对你有所帮助

      如何学习SEO?这四本书相信对你有所帮助  英语SEO书籍有很多指导原则。在大多数情况下,它们通常是关于seo的,一个接一个。我想组织一些不同的书籍,并提供

详细内容

爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库

  想做研究,却没有足够的数据,着实让人抓狂、苦恼。

  现在,你可以自己动手创建数据集了。

  英伟达工程师小姐姐Chip Huyen,在GitHub上开源了一个名为“lazynlp”的工具库。

  爬网页、清洗数据、创建数据集都可以搞定。

  她说,使用这个库,你应该能创建一个比大于40G的文本数据集,比OpenAI训练GPT-2时使用的还要大。

  


  开源仅一天,项目在GitHub上就获得了300多星,Twitter上获得上千次点赞。fast.ai创始人Jeremy Howard等人也转发推荐。

  而且,用这个工具库创建数据集的过程,也并不麻烦。

  五步走,一条龙

  第一步,获取你想抓取的网页的网址。

  小姐姐提供了三个你可以直接拿走使用的网址集合,分别来自Reddit、古腾堡计划(电子书)、维基百科。

  当然,你也可以下载自己的。

  第二步,删除重复的网址。

  网址有很多,重复也在所难免。

  这里提供了两种方法,来删除重复的网址。

  


  第三步,下载网址内容。

  这里提供了两种方法,一种可以并行下载多个文件,另一种可以单独下载网页内容。

  如果网址数量比较大,可以将列表分成多个文件的,分别调用函数。

  小姐姐说,自己能够并行40个脚本,下载起来也更容易一些。

  第四步,清理网页。

  这一步有3个方法可以选择,一是使用lazynlp/cleaner.py中的方法,二是直接调用命令行:

  lazynlp.clean_page(page)

  另外,也可以使用lazynlp.download_pages ( )函数,同时爬网页并清理。

  第五步,删除重复网页。

  网站下载好了,该清理的东西都清理了,接下来需要去重。

  不然就会有一些文本重复出现,从而影响数据集的表现。

  小姐姐提供了3个函数,可以帮你完成步骤。

  做完这些,你就有自己的NLP数据集了,想干什么就可以放手去做了。

  — 完—

  一份小调查

  大噶好,

  为了了解大家感兴趣的话题,丰富我们的报道内容,带来更好的阅读体验,请大家帮我们填一份调查问卷鸭,扫码即可进入问卷页面。


免责申明
更多

本文来源于网络,由奥斯诺百度霸屏(www.osnos.cn)整理发布,本网站不拥有所有权,也不承认相关法律责任。如有侵权请联系删除。

如果还想了解更多关于网站建设网站优化SEO网络营销网络推广全网霸屏的相关内容,请关注本站,欢迎转载。


常见问题
更多
  • 为什么要做https?https的安全性

    为什么要做https?https的安全性

      调查发现,大多数人对HTTPS持观望态度。他们同意HTTPS的安全性。但是,经过各级的考虑,他们决定目前不做https网站。有两个主要观点:  赞成态度  

  • 网站备案怎么弄?网站怎么备案?

      ICP备案  ICP备案也就是工信部的备案是必做的,不做ICP备案,内地的服务器空间商是不会开通让你网站正常访问的。ICP备案在备案过程中还需短信核验验证,

  • 网站建设需要什么手续?

     当前做网站大部分是企业或者事业单位什么的,不过无论是企事业单位或者其他,做网站的手续都差不多。  一个网站制作完成后在内地开通运行,需要有这么多的要素:  1

  • 百度索引量和收录量什么关系?

      3、百度索引量和收录量什么关系?  详解:所以现在我们也可以非常清楚。百度索引量和收录量包含在内。托收金额只是指数金额的一部分,而不是全部。因此,在今后的工

  • 可以通过site指令查询网站的收录量吗?

      2、我们可以通过site指令查询网站的收录量吗? 详解:百度认为这个收录实际上就是我们现在谈论的索引。索引的建立是百度收录网页的实际结果。那么我们通过网站指

  • 什么是百度索引量?

     1、那么什么是百度索引量?  首先我们来看一下百度搜索官方对于百度索引量的解释:  百度官方:网站中可用作搜索候选的页数是网站的索引。网站页面需要被搜索引擎抓

  • 百度收录量是什么?

      【重庆seo】百度收录量和索引量是什么?他们有什么关系?  很多站长或做企业SEO的以及想要了解网站优化的朋友在平日里可能都会看到关于百度收录和索引这个东西

  • 传统企业无经验如何策划线上营销方案?

      目前,绝大多数传统行业都存在产品同质化严重现象,有别于产品更新频繁的科技行业,传统行业要想在短期内获得产品品类、性能突破难度极高。要想在短期内提升市场竞争力

  • 传统制造业如何实施网络营销?

      以互联网为支撑的新型商业模式延伸至各个领域,引发实体经济衰败潮。制造业作为实体经济中的核心主体,近几年生存危机日趋严峻,融资成本高、产能过剩、劳动力短缺、运

行业资讯

全网霸屏

网络营销公司新闻

网站建设

网络营销常见问题

Copyright @ 2015. All rights reserved.奥斯诺 版权所有.