命名實體識別(NER)(也稱為實體標識,實體組塊和實體提取)是信息抽取的子任務,旨在將非結構化文本中提到的命名實體定位和分類為預定義類別,例如人員姓名、地名、機構名、專有名詞等。

知識薈萃

命名實體識別 Named Entity Recognition 專知薈萃

綜述

  1. Jing Li, Aixin Sun,Jianglei Han, Chenliang Li

  2. A Review of Named Entity Recognition (NER) Using Automatic Summarization of Resumes

模型算法

  1. LSTM + CRF中的NCRF++算法:Design Challenges and Misconceptions in Neural Sequence Labeling.COLLING 2018.

  2. CNN+CRF:

  3. BERT+(LSTM)+CRF:

入門學習

  1. NLP之CRF應用篇(序列標注任務)( CRF++的詳細解析、Bi-LSTM+CRF中CRF層的詳細解析、Bi-LSTM後加CRF的原因、CRF和Bi-LSTM+CRF優化目標的區別) )

  2. Bilstm+CRF中的CRF詳解

  3. Bilstm-CRF中的CRF層解析-2

  4. Bilstm-CRF中的CRF層解析-3

  5. CRF和LSTM模型在序列標注上的優劣?

  6. CRF和LSTM的比較

  7. 入門參考:命名實體識別(NER)的二三事

  8. 基礎卻不簡單,命名實體識別的難點與現狀

  9. 通俗理解BiLSTM-CRF命名實體識別模型中的CRF層

重要報告

Tutorial

1.(pyToech)高級:製定動態決策和BI-LSTM CRF(Advanced: Making Dynamic Decisions and the Bi-LSTM CRF) - [https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html]

代碼

1.中文命名實體識別(包括多種模型:HMM,CRF,BiLSTM,BiLSTM+CRF的具體實現)

- [https://github.com/luopeixiang/named_entity_recognition]

領域專家

1.華為-諾亞方舟 - 李航 []

2.美國伊利諾伊大學 - 韓家煒 [https://hanj.cs.illinois.edu/]

命名實體識別工具

  1. Stanford NER
  2. MALLET
  3. Hanlp
  4. NLTK
  5. spaCy
  6. Ohio State University Twitter NER

###相關數據集

  1. CCKS2017 開放的中文的電子病例測評相關的數據。 評測任務一:

  2. CCKS2018 開放的音樂領域的實體識別任務。

評測任務:

- [https://biendata.com/competition/CCKS2018_2/]
  1. NLPCC2018 開放的任務型對話係統中的口語理解評測。

CoNLL 2003

https://www.clips.uantwerpen.be/conll2003/ner/

進階論文

1999

2005

2006

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

VIP內容

命名實體識別(Named Entity Recognition,NER)作為自然語言處理領域經典的研究主題,是智能問答、知識圖譜等任務的基礎技術。領域命名實體識別(Domain Named Entity Recognition,DNER)是麵向特定領域的NER方案。在深度學習技術的推動下,中文DNER取得了突破性進展。概括了中文DNER的研究框架,從領域數據源的確定、領域實體類型及規範製定、領域數據集的標注規範、中文DNER評估指標四個角度對國內外已有研究成果進行了綜合評述;總結了目前常見的中文DNER的技術框架,介紹了基於詞典和規則的模式匹配方法、統計機器學習方法、基於深度學習的方法、多方融合的深度學習方法,並重點分析了基於詞向量表征和深度學習的中文DNER方法;討論了中文DNER的典型應用場景,對未來發展方向進行了展望。

成為VIP會員查看完整內容
0
24
0

最新論文

Nested entities are observed in many domains due to their compositionality, which cannot be easily recognized by the widely-used sequence labeling framework. A natural solution is to treat the task as a span classification problem. To increase performance on span representation and classification, it is crucial to effectively integrate all useful information of different formats, which we refer to heterogeneous factors including tokens, labels, boundaries, and related spans. To fuse these heterogeneous factors, we propose a novel triaffine mechanism including triaffine attention and scoring, which interacts with multiple factors in both the stages of representation and classification. Experiments results show that our proposed method achieves the state-of-the-art F1 scores on four nested NER datasets: ACE2004, ACE2005, GENIA, and KBP2017.

0
0
0
下載
預覽
Top