开源项目

  • TextFlint

    TextFlint 是自然语言处理模型鲁棒性评测平台,涵盖 12 项 NLP 常见任务,囊括 80 余种数据变形方法,为模型鲁棒性评测及提升提供了一站式解决方案。

  • FastNLP

    • 简介

      fastNLP是一款轻量级的自然语言处理(NLP)工具包, 目标是快速实现NLP任务以及构建复杂模型

    • 特点
      • 提供部分数据集与预训练模型的自动下载,内置多种数据集的LoaderPipe

      • 采用统一的Tabular式数据容器,简化数据预处理过程

      • 提供各种方便的NLP工具,例如:Embedding加载、中间数据cache等;

      • 提供多种神经网络组件以及复现模型,涵盖中文分词、命名实体识别、句法分析、文本分类、文本匹配、指代消解、摘要等多项任务;

      • 提供多种内置callback函数,方便实验记录、异常捕获等。

    • 项目结构
        fastNLP功能
        fastNLP.core实现了核心功能,包括数据处理组件、训练器、测试器等
        fastNLP.models实现了一些完整的神经网络模型
        fastNLP.modules实现了用于搭建神经网络模型的诸多组件
        fastNLP.embeddings实现了将序列index转为向量序列的功能,包括读取预训练embedding等
        fastNLP.io实现了读写功能,包括数据读入与预处理,模型读写,数据与模型自动下载等


    • 开始使用
  • FastHan

    fastHan是基于fastNLP与pytorch实现的中文自然语言处理工具,共有base与large两个版本。 其内核为基于BERT的联合模型,在13个语料库中进行训练,可处理中文分词、词性标注、依存分析、 命名实体识别 四项任务,在各项任务中均有不错表现。

  • FudanNLP

      采用Java编写的中文自然语言处理开源项目,提供了进行自然语言处理的工具, 包括分词、词性标注、句法分析、文本相似度计算等 以及进行处理所需的数据集

      本项目现已停止维护