一张照片    

赵 海

教授

上海交通大学 计算机科学与工程系

地址:上海市闵行区东川路800号

电子邮件:zhaohai at cs.sjtu.edu.cn


ACL-2019 领域主席 形态学、分词,

ACL-2018 高级领域主席 形态学、分词,

ACL-2017 领域主席 语法分析,

ACL-2016 出版事务主席


新闻 及 硕士博士申请致信

上海交通大学,摄于2010年3月16日 评测   论文   软件
 

English Version

    

研究兴趣

自然语言处理,机器学习,生物信息学,人工智能
    

授课

自然语言处理
    

评测

[2010] NEWS-2010(和 宋彦 共同参与)

命名实体研讨会-2010 实体翻译评测任务
  •           英中和中英翻译均为第一名,
  • 正式结果在 .

    [2009] CoNLL-2009 (和陈文亮共同参与)

    第13届计算自然语言学习大会(CoNLL-2009)的国际评估:多语种的句法和语义学习
  •      单一语义任务的7个提交系统中名列七种语言的总分第一,同时也是本次评估所有提交的20个系统语义总分第一名
  •      句法-语义联合任务的13个提交系统中名列七种语言的总分第二
  •                      语义部分总分第一
                         英语、加泰罗尼亚语和西班牙语的联合学习任务单项第一
    正式结果在, 我们的系统报告在以及

    [2008] CoNLL-2008

    第12届计算自然语言学习大会(CoNLL-2008)的国际评估: 语法与语义依存的联合学习
  •      20个提交结果中排名第四
  • 正式结果在, 我们的系统报告在

    [2007] Bakeoff-4

    第一届中国中文信息学会汉语处理评测暨第四届国际中文自然语言处理Bakeoff (Bakeoff-4, Bakeoff-2007, 2008)
  •      28个研究团队提交的166个分词结果中赢得本届Bakeoff分词的封闭评测的所有五项第一名
  •      33个命名实体识别结果中赢得三个第二名,一个第三名
  • Bakeoff-4的正式结果在。 我们的系统报告在

    [2006] Bakeoff-3

    第三届国际中文分词竞赛 (Bakeoff-3, Bakeoff-2006)
  •      在29个研究团队提交的101个分词结果中赢得四项第一、两项第三
  • Bakeoff-3的正式结果在。 我们的系统报告在

    顶部

        

    论文

    [2023]

    [2022]

    [2021]

    [2020]

    [2019]

    [2018]

    [2017]

    [2016]

    [2015]

    [2014]

    [2013]

    [2012]

    [2011]

    [2010]

    [2009]

    [2008]

    [2007]

    [2006]

    更多

        

    软件发布

    这里发布的是一些能够完成基础自然语言处理任务的软件,它们大都是我们曾经参与的公开评测的系统的简化版本。 发布这些软件的目的是希望它们有所帮助,但是绝无担保。它们可以免费用于非盈利研究和教育目的。同时欢迎一切错误报告以及改进意见。

    中文分词排行榜 SIGHAN Bakeoff 2005

    很久很久以前, SIGHAN Bakeoff 2005 发布的四个切分语料就已经成为中文分词界的评估标准。
    我们在此维护一个 中文分词排行榜 的目的是收集尽可能的系统结果来展示技术进步。

    用户添加已经开放!

    注意,本排行榜仅接受足够严肃出版物或者在线系统给出的结果。

    BaseSeg: 带未登录词识别功能的多标准中文分词工具

    下载 (53.5M)】(如果你需要它的C++源代码,请给我发电子邮件)
    功能: BaseSeg (当前版本1.5)是Bakeoff-3的四个切分标准上的中文分词工具(包含未登录词识别功能)。

    技术: BaseSeg 基于CRF++写成。 它使用我们在SIGHAN-5发表的论文中的n-gram特征设置进行训练。

    性能: BaseSeg的性能居于Bakeoff-3最好结果的前三位之列。在Bakeoff-3四个测试语料AS, CityU, CTB以及MSRA上, 它给出的总体F值分别是0.954, 0.969, 0.932 以及 0.961,同时它拥有所有测试语料上的最高的未登录词识别性能。

    BaseNER: 未切分中文文本的命名实体识别工具

    下载 (23.7M)
    功能: BaseNER (当前版本1.0)是一个高性能的命名实体识别分类工具,支持Bakeoff-3两个标注标准。

    技术: BaseNER 基于CRF++写成。 它使用我们在SIGHAN-6发表的论文中的n-gram特征设置进行训练。

    性能: 对于CityU以及MSRA两个命名实体标注标准, 它给出的命名实体识别分类的总体F值分别是0.8815和0.8524(Bakeoff-3对应的测试集)。

    BasePoS: 中英文词性标注工具

    下载 (8.5M)
    功能: BasePoS (当前版本1.0)是中英文词性标注工具。对于中文,输入文本需要切分完毕,可以和baseSeg配合使用。

    技术: BasePoS 基于一个最大熵模型写成。中文模型使用Bakeoff-4的CTB词性标注的训练语料,英文模型采用PTB语料的Section 02-21。

    性能: 中文标注精度0.941(Bakeoff-4的CTB测试语料),在PTB/Section 24上的英文标注精度是0.966。

    字依存标注集

    [下载请求]
    功能: 字依存标注以及标注规范文档,用于构造完整的字依存树(需结合已有树库中的词依存)

    技术: 基于我的EACL-2009论文, (Zhao, 2009)及后续研究


    顶部   简历   评测   论文   软件发布
    (最后更新:2023年2月)
    Locations of visitors to this page 自2009年12月10日 (Netscape-HTML checked)