最新消息: 电脑我帮您提供丰富的电脑知识,编程学习,软件下载,win7系统下载。

是否有任何推荐的JS库框架从html中提取文本?

IT培训 admin 3浏览 0评论

是否有任何推荐的JS库/框架从html中提取文本?

我们最近正致力于开发爬虫。一个特性/功能是从已爬行的HTML转换为文本。我们调查了一些python解决方案,如scrapy。但是,我们决定将编码语言从python移动到nodejs。是否存在关于存在JS框架/库的建议,以便将html转换为文本? (例如:html-to-text)

PS。如果我们想要定制逻辑,那么包本身可以有一些智能来删除广告/页脚/标题并且很容易扩展。

非常感谢!

回答如下:

到目前为止,根据我的调查,似乎readability可能是一种解决方案。以下示例代码:

fs = require('fs')
var JSDOM = require('jsdom').JSDOM;
var Readability = require('./Readability');
html = fs.readFileSync("/Users/librah/tmp/b.html")
var doc = new JSDOM(html.toString(), { url: "https://www.bleepingcomputer/virus-removal/Remove-the-edematousliterature-chrome-extension", });
reader = new Readability(doc.window.document);
article = reader.parse()
console.log(article.textContent.trim())

是否有任何推荐的JS库/框架从html中提取文本?

我们最近正致力于开发爬虫。一个特性/功能是从已爬行的HTML转换为文本。我们调查了一些python解决方案,如scrapy。但是,我们决定将编码语言从python移动到nodejs。是否存在关于存在JS框架/库的建议,以便将html转换为文本? (例如:html-to-text)

PS。如果我们想要定制逻辑,那么包本身可以有一些智能来删除广告/页脚/标题并且很容易扩展。

非常感谢!

回答如下:

到目前为止,根据我的调查,似乎readability可能是一种解决方案。以下示例代码:

fs = require('fs')
var JSDOM = require('jsdom').JSDOM;
var Readability = require('./Readability');
html = fs.readFileSync("/Users/librah/tmp/b.html")
var doc = new JSDOM(html.toString(), { url: "https://www.bleepingcomputer/virus-removal/Remove-the-edematousliterature-chrome-extension", });
reader = new Readability(doc.window.document);
article = reader.parse()
console.log(article.textContent.trim())
发布评论

评论列表 (0)

  1. 暂无评论