企业抖音短视频营销获客系统


中国领先的互联网营销策划服务商

新闻资讯/NEWS AND INFORMATION

首页 >> 新闻资讯 >>行业新闻 >> 爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库
详细内容

爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库

  想做研究,却没有足够的数据,着实让人抓狂、苦恼。

  现在,你可以自己动手创建数据集了。

  英伟达工程师小姐姐Chip Huyen,在GitHub上开源了一个名为“lazynlp”的工具库。

  爬网页、清洗数据、创建数据集都可以搞定。

  她说,使用这个库,你应该能创建一个比大于40G的文本数据集,比OpenAI训练GPT-2时使用的还要大。

  


  开源仅一天,项目在GitHub上就获得了300多星,Twitter上获得上千次点赞。fast.ai创始人Jeremy Howard等人也转发推荐。

  而且,用这个工具库创建数据集的过程,也并不麻烦。

  五步走,一条龙

  第一步,获取你想抓取的网页的网址。

  小姐姐提供了三个你可以直接拿走使用的网址集合,分别来自Reddit、古腾堡计划(电子书)、维基百科。

  当然,你也可以下载自己的。

  第二步,删除重复的网址。

  网址有很多,重复也在所难免。

  这里提供了两种方法,来删除重复的网址。

  


  第三步,下载网址内容。

  这里提供了两种方法,一种可以并行下载多个文件,另一种可以单独下载网页内容。

  如果网址数量比较大,可以将列表分成多个文件的,分别调用函数。

  小姐姐说,自己能够并行40个脚本,下载起来也更容易一些。

  第四步,清理网页。

  这一步有3个方法可以选择,一是使用lazynlp/cleaner.py中的方法,二是直接调用命令行:

  lazynlp.clean_page(page)

  另外,也可以使用lazynlp.download_pages ( )函数,同时爬网页并清理。

  第五步,删除重复网页。

  网站下载好了,该清理的东西都清理了,接下来需要去重。

  不然就会有一些文本重复出现,从而影响数据集的表现。

  小姐姐提供了3个函数,可以帮你完成步骤。

  做完这些,你就有自己的NLP数据集了,想干什么就可以放手去做了。

  — 完—

  一份小调查

  大噶好,

  为了了解大家感兴趣的话题,丰富我们的报道内容,带来更好的阅读体验,请大家帮我们填一份调查问卷鸭,扫码即可进入问卷页面。


免责申明
更多

本文来源于网络,由奥斯诺(www.osnos.cn)整理发布,本网站不拥有所有权。如有侵权请联系删除。如果还想了解更多关于网站建设,网站优化,SEO,网络营销,网络推广,的相关内容,请关注本站,欢迎转载。


Copyright @ 2015.重庆短视频运营,重庆短视频营销,重庆短视频拍摄,奥斯诺科技 版权所有.

友情链接
建站地区推荐

万州网站建设   涪陵建设   黔江网站建设   长寿网站建设   合川网站建设   永川网站建设   南川网站建设   綦江网站建设   潼南网站建设   铜梁网站建设   大足网站建设   荣昌网站建设   垫江网站建设   武隆网站建设   忠县网站建设   丰都网站建设   石柱网站建设   开州网站建设   云阳网站建设   奉节网站建设   彭水网站建设   梁平网站建设   秀山网站建设    酉阳网站建设

短视频运营地区推荐

万州短视频营   涪陵短视频运营   黔江短视频运营   长寿短视频运营  合川短视频运营   永川短视频运营   南川短视频运营   綦江短视频运营   潼南短视频运营   铜梁网短视频运营   大足短视频运营   荣昌短视频运营   垫江短视频运营   武隆短视频运营   忠县短视频运营   丰都短视频运营   石柱短视频运营   开州短视频运营   云阳短视频运营   奉节短视频运营化   彭水短视频运营   梁平短视频运营   秀山短视频运营    酉阳短视频运营

模块标题
更多
模块标题
更多
模块标题
更多
  • QQ

    QQ

    QQ:304515378  微信:18200350213

模块标题
更多
模块标题
更多

About us



      Classic case


        Service


        技术支持: 重庆奥斯诺科技有限公司 | 管理登录
        seo seo