新闻资讯/NEWS AND INFORMATION

首页 >> 新闻资讯 >>行业新闻 >> 爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

详细内容

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

　　想做研究，却没有足够的数据，着实让人抓狂、苦恼。

　　现在，你可以自己动手创建数据集了。

　　英伟达工程师小姐姐Chip Huyen，在GitHub上开源了一个名为“lazynlp”的工具库。

　　爬网页、清洗数据、创建数据集都可以搞定。

　　她说，使用这个库，你应该能创建一个比大于40G的文本数据集，比OpenAI训练GPT-2时使用的还要大。

　　开源仅一天，项目在GitHub上就获得了300多星，Twitter上获得上千次点赞。fast.ai创始人Jeremy Howard等人也转发推荐。

　　而且，用这个工具库创建数据集的过程，也并不麻烦。

　　五步走，一条龙

　　第一步，获取你想抓取的网页的网址。

　　小姐姐提供了三个你可以直接拿走使用的网址集合，分别来自Reddit、古腾堡计划(电子书)、维基百科。

　　当然，你也可以下载自己的。

　　第二步，删除重复的网址。

　　网址有很多，重复也在所难免。

　　这里提供了两种方法，来删除重复的网址。

　　第三步，下载网址内容。

　　这里提供了两种方法，一种可以并行下载多个文件，另一种可以单独下载网页内容。

　　如果网址数量比较大，可以将列表分成多个文件的，分别调用函数。

　　小姐姐说，自己能够并行40个脚本，下载起来也更容易一些。

　　第四步，清理网页。

　　这一步有3个方法可以选择，一是使用lazynlp/cleaner.py中的方法，二是直接调用命令行：

　　lazynlp.clean_page(page)

　　另外，也可以使用lazynlp.download_pages ( )函数，同时爬网页并清理。

　　第五步，删除重复网页。

　　网站下载好了，该清理的东西都清理了，接下来需要去重。

　　不然就会有一些文本重复出现，从而影响数据集的表现。

　　小姐姐提供了3个函数，可以帮你完成步骤。

　　做完这些，你就有自己的NLP数据集了，想干什么就可以放手去做了。

　　— 完—

　　一份小调查

　　大噶好，

　　为了了解大家感兴趣的话题，丰富我们的报道内容，带来更好的阅读体验，请大家帮我们填一份调查问卷鸭，扫码即可进入问卷页面。

上一篇做网站正确选择空间的五个重要性下一篇测试“儿童锁模式”，腾讯大概是不想赚小学生钱了

免责申明

本文来源于网络，由奥斯诺（www.osnos.cn）整理发布，本网站不拥有所有权。如有侵权请联系删除。如果还想了解更多关于网站建设，网站优化，SEO，网络营销，网络推广，的相关内容，请关注本站，欢迎转载。

常见问题

为什么要做https？https的安全性

　　调查发现，大多数人对HTTPS持观望态度。他们同意HTTPS的安全性。但是，
网站备案怎么弄？网站怎么备案？

　　ICP备案　　ICP备案也就是工信部的备案是必做的，不做ICP备案，内地的服
网站建设需要什么手续？

　当前做网站大部分是企业或者事业单位什么的，不过无论是企事业单位或者其他，做网站
百度索引量和收录量什么关系?

　　3、百度索引量和收录量什么关系?　　详解：所以现在我们也可以非常清楚。百度索

网站建设

新闻

哪些行业适合做竞价包年？

百度竞价包年这个词，大家应该不是很陌生了，意同词意，就是覆盖百度索引擎。在广告位展示，包年？就是一整年，并且全天候展示，还点击不扣费。对于中小企业来说，现下想要

竞价包年

网站建设

服务项目

网站建设
AI获客系统

案例展示

全网营销
营销型网站
AI拓客系统

关于我们

关于我们
联系方式
网站地图

模块标题

免费咨询电话

免费咨询电话：023-81362590/18200350213

模块标题

XXXXXX@qq.com

邮箱：3327521675@qq.com

模块标题

XX省XX市XX区XX路XX号

地址：重庆市江北区观音桥西普大厦19楼

模块标题

扫一扫下载官方APP

扫一扫
关注微信公众号

模块标题

扫一扫关注官方小程序

扫一扫
关注官方小程序

模块标题

QQ

QQ：337459517 微信：1348383029

Service

Classic case

About us

（股票代码：02131.HK）旗下中小企业抖音短视频营销SaaS系统

新闻资讯/NEWS AND INFORMATION

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

为什么要做https？https的安全性

网站备案怎么弄？网站怎么备案？

网站建设需要什么手续？

百度索引量和收录量什么关系?

哪些行业适合做竞价包年？

竞价包年

网站建设

免费咨询电话

XXXXXX@qq.com

XX省XX市XX区XX路XX号

扫一扫下载官方APP

扫一扫关注官方小程序

QQ

渝ICP备17011706号-1

Copyright @ 2015. All rights reserved.奥斯诺版权所有.

（股票代码：02131.HK）旗下中小企业抖音短视频营销SaaS系统

新闻资讯/NEWS AND INFORMATION

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

竞价包年

网站建设

Copyright @ 2015. All rights reserved.奥斯诺 版权所有.

Copyright @ 2015. All rights reserved.奥斯诺版权所有.