语言模型工具_支持53种语言预训练模型斯坦福发布全新NLP工具包StanfordNLP

❶ 支持53种语言预训练模型，斯坦福发布全新NLP工具包StanfordNLP

Stanford NLP 团队近日推出了一款全新的自然语言处理工具包 StanfordNLP，该工具包涵盖了 53 种语言的预训练模型，并支持 Python 3.6 及以上版本。它基于 PyTorch 构建，提供了完整的文本分析管道，包括分词、词性标注、词形归并和依存关系解析，并且还提供了与 CoreNLP 的 Python 接口。

该工具包整合了斯坦福团队在 CoNLL 2018 Shared Task on Universal Dependency Parsing 中使用的软件包，以及 Stanford CoreNLP 的官方 Python 接口。StanfordNLP 不仅提供了 CoreNLP 的功能，还增加了一系列工具，可以将文本字符串转换为句子和单词列表，生成单词的基本形式、词性和形态特征，以及适用于 70 余种语言的句法结构。

StanfordNLP 采用高度准确的神经网络构建，允许用户使用自己的标注数据进行高效训练和评估。这些模块基于 PyTorch 构建。

以下是关于 StanfordNLP 的更多详细信息：

论文：Universal Dependency Parsing from Scratch

论文地址：nlp.stanford.e/pubs/q...

依存关系解析是自然语言处理系统中用于语义作用标记、关系提取和机器翻译的重要部分。然而，大多数研究已经将依赖解析单独处理，并且很大程度上忽略了为解析器准备相关数据的上游 NLP 组件，例如标记器和词形化器。实际上，这些上游系统仍然远非完美。

为此，研究者构建了一个 raw-text to CoNLL-U 管道系统，该系统执行 Shared Task 所需的所有任务。利用深度学习，该管道在每个相互关联的任务阶段中都实现了有竞争力的性能：分词、句子和词分割、词性（POS）/形态特征（UFeats）标记、词形归并，最后是依存关系解析。

主要结果如表 1 所示。当对所有 treebank 进行宏观平均时，该系统几乎可以在所有指标上实现竞争性能。此外，当仅在 big-treebanks 上进行评估时，它在多个指标上实现了最佳性能。

设置

StanfordNLP 支持 Python 3.6 及之后版本。推荐从 PyPI 中安装 StanfordNLP。如果已经安装了 pip，运行以下命令：

这有助于解决 StanfordNLP 的所有依赖项，例如 PyTorch 1.0.0 及以上版本。

或者，你还可以从该 git repo 中安装 StanfordNLP，这样你可以更加灵活地基于 StanfordNLP 开发，以及训练自己的模型。运行以下命令：

运行 StanfordNLP

启动神经网络管道

要想运行第一个 StanfordNLP pipeline，只需在 Python 交互式解释器中进行以下步骤：

注意：如果你遇到了 OSError: [Errno 22] Invalid argument 这样的问题，很可能是因为 Python 的问题。推荐使用 Python 3.6.8 及之后版本和 Python 3.7.2 及之后版本。

StanfordNLP 还提供多语言 demo 脚本，展示了如何在非英语语言中使用 StanfordNLP，如繁体中文。

demo 地址：github.com/stanfordnlp/...

详见：stanfordnlp.github.io/s...

除了神经网络管道，该项目还包括一个官方 wrapper，允许使用 Python 代码访问 Java Stanford CoreNLP Server。

神经网络管道中的模型

该项目目前提供 CoNLL 2018 Shared Task 中所有 treebank 的模型。模型下载和使用说明详见：

https://stanfordnlp.github.io/stanfordnlp/installation_download.html#models-for-human-languages。

批处理以最大化 Pipeline 速度

为了最大化速度，对文档进行批量处理是必要的。一次仅对一个句子运行 for loop 太慢了。最好的方法是将文档串联到一起，每个文档由空白行分割（即两个换行符）。分词器会将空白行识别为断句。

训练自己的神经网络管道

该库中的所有神经模块，包括分词器、多词标记 (MWT) 扩展器、POS/形态特征标注器、词形归并和依存解析器，都可以用你自己的 CoNLL-U 格式数据来训练。目前，该库还不支持通过 Pipeline 接口训练模型。因此，为了训练你自己的模型，你要 clone 这个 git repo，然后从源代码进行设置。

如果想详细了解如何一步步训练和评估自己的模型，请参考以下链接：

stanfordnlp.github.io/s... Model Training and Evaluation stanfordnlp.github.io/s...

热点内容

maya粒子表达式教程发布：2025-04-16 09:59:49 浏览：84

抖音小视频如何挂app 发布：2025-04-16 09:49:27 浏览：283

cad怎么设置替补文件发布：2025-04-16 09:41:07 浏览：790

win10启动文件是空的发布：2025-04-16 09:32:22 浏览：397

jk网站有哪些发布：2025-04-16 09:17:47 浏览：134

学编程和3d哪个更好发布：2025-04-16 09:16:56 浏览：932

win10移动硬盘文件无法打开发布：2025-04-16 08:55:42 浏览：385

文件名是乱码还删不掉发布：2025-04-16 08:50:33 浏览：643

苹果键盘怎么打开任务管理器发布：2025-04-16 08:49:47 浏览：437

手机桌面文件名字大全发布：2025-04-16 08:44:22 浏览：334

tplink默认无线密码是多少发布：2025-04-16 08:34:28 浏览：33

ipaddgm文件发布：2025-04-16 08:34:24 浏览：99

lua语言编程用哪个平台发布：2025-04-16 08:32:26 浏览：272

政采云如何导出pdf投标文件发布：2025-04-16 08:27:07 浏览：529

php获取postjson数据发布：2025-04-16 08:10:53 浏览：551

javatimetask 发布：2025-04-16 08:03:46 浏览：16

编程的话要什么证件发布：2025-04-16 07:43:39 浏览：94

钱脉通微信多开发布：2025-04-16 07:43:28 浏览：878

中学生学编程哪个培训机构好发布：2025-04-16 07:37:39 浏览：852

荣耀路由TV设置文件共享错误发布：2025-04-16 07:28:25 浏览：525

导航:首页 > 编程大全 > 语言模型工具

语言模型工具

与语言模型工具相关的资料

友情链接