Nlpir Parser智能平臺有效解決文本語義挖掘問題

作者：靈玖中科軟件（北京）有限公司 2017-05-25 15:02 3750
進入店鋪在線咨詢 QQ咨詢

　　隨著計算機技術和網(wǎng)絡技術的迅速發(fā)展,互聯(lián)網(wǎng)上共享的文本呈海量趨勢增長,包括數(shù)字圖書館環(huán)境下的大文本和社交媒體文本等。
　　靈玖軟件Nlpir Parser開發(fā)平臺指的是網(wǎng)絡搜索、自然語言理解和文本挖掘的技術開發(fā)的基礎工具集，開發(fā)平臺由多個中間件組成，各個中間件API可以無縫地融合到客戶的各類復雜應用系統(tǒng)之中，可兼容Windows，Linux，F(xiàn)reeBSD等不同操作系統(tǒng)。
　　1 漢語詞法分析(分詞、詞性標注、人名地名機構(gòu)名識別)
　　漢語詞法分析能對漢語語言進行拆分處理，是中文信息處理必備的核心部件。靈玖綜合了各家所長，采用條件隨機場(Conditional Random Field,簡稱CRF)模型，分詞準確率接近99%，具備準確率高、速度快、可適應性強等優(yōu)勢;特色功能包括：切分粒度可調(diào)整，融合20余部行業(yè)專有詞典，支持用戶自定義詞典等。
　　詞性標注能對漢語語言進行詞性的自動標注，它能夠真正理解中文，自動根據(jù)語言環(huán)境將詞語諸如“建設”標注為“名詞”或“動詞”。靈玖采用條件隨機場(Conditional Random Field,簡稱CRF)模型，一級詞性標注準確率接近99%，具備準確率高、速度快、可適應性強等優(yōu)勢。
　　人名地名機構(gòu)名識別能夠自動挖掘出隱含在漢語中的人名、地名、機構(gòu)名，所提煉出的詞語不需要在詞典庫中事先存在，是對語言規(guī)律的深入理解和預測。采用條件隨機場(Conditional Random Field,簡稱CRF)模型，識別準確率達到97%，速度達到10M/s，可在此基礎上搭建各種多樣化的統(tǒng)計和應用。
　　
　　2新語自動發(fā)現(xiàn)
　　新詞自動發(fā)現(xiàn)技術能夠識別出詞典中沒有出現(xiàn)過的詞匯、短語、命名實體、流行用語，是語言文獻分析方面的一把利器。新詞發(fā)現(xiàn)脫胎于語言自動分詞技術，又是對分詞技術的有效提升和補充。
　　靈玖采用基于語義的統(tǒng)計語言模型，所處理的文檔不受行業(yè)領域限制，能夠有效地挖掘出新出現(xiàn)的特征詞匯，所輸出的詞匯可以配以權(quán)重。
　　新詞發(fā)現(xiàn)的主要特色在于：
　　1、速度快：可以處理海量規(guī)模的網(wǎng)絡文本數(shù)據(jù)，平均每小時處理至少60萬篇文檔;
　　2、處理精準：Top N的分析結(jié)果往往能反映出當時的時事流行語和熱點實體，適合于輿情熱點計算;與國際上著名廠商的技術相比，各項指標遠遠領先，或許是靈玖更懂中文吧;
　　3、精準排序：新詞匯按照影響權(quán)重排序，可以輸出權(quán)重值;
　　5、開放式接口：新詞發(fā)現(xiàn)組件作為LJParser的一部分，采用靈活的開發(fā)接口，可以方便地融入到用戶的業(yè)務系統(tǒng)中，可以支持各種操作系統(tǒng)，各類調(diào)用語言。
　　新詞發(fā)現(xiàn)組件可以應用于文本挖掘、知識管理、詞典編輯、輿情監(jiān)測等多種應用中。
　　
　　3 文本內(nèi)容去重
　　文本內(nèi)容去重能夠?qū)ξ谋具M行查重處理，同時能找出所有的重復文件。能夠快速準確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄。靈玖采用高效的文章指紋算法，能夠在極短的時間內(nèi)與歷史指紋庫進行對比，從而發(fā)現(xiàn)重復記錄。
　　
　　4 文本分類過濾
　　文本分類能夠根據(jù)文獻內(nèi)容進行類別的劃分，可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多應用。
　　文本過濾功能能夠從大量文本中快速識別和過濾出符合特殊要求的信息，可應用于品牌報道監(jiān)測、垃圾信息屏蔽、敏感信息審查等領域。
　　靈玖采用基于內(nèi)容的文本自動分類過濾和基于規(guī)則的文本分類過濾兩種方式，并支持兩種方式的混合分類。能夠進行多級分類，分類速度每秒100篇以上，平均準確率90%以上，能夠進行中英文分類和中英文的混合分類。用戶可以靈活、方便的更換模板，來實現(xiàn)對不同的主題的分類過濾。
　　
　　5 文本聚類
　　文本聚類是基于相似性算法的自動聚類技術，自動對大量無類別的文檔進行歸類，把內(nèi)容相近的文檔歸為一類，并自動為該類生成標題和主題詞。適用于自動生成熱點輿論專題、重大新聞事件追蹤、情報的可視化分析等諸多應用。
　　靈玖基于文章集合核心語義理解技術，不僅聚類速度快，而且準確率高，并能自動得到類別間的演化趨勢。
　　
　　6 文檔關鍵詞提取
　　文章關鍵詞提取能夠在全面把握文章的中心思想的基礎上，提取出若干個代表文章語義內(nèi)容的詞匯或短語，相關結(jié)果可用于精化閱讀、語義查詢和快速匹配等。
　　采用基于語義的統(tǒng)計語言模型，所處理的文檔不受行業(yè)領域限制，且能夠識別出最新出現(xiàn)的新詞語，所輸出的詞語可以配以權(quán)重。
　　文章關鍵詞提取組件的主要特色在于：
　　1、速度快：可以處理海量規(guī)模的網(wǎng)絡文本數(shù)據(jù)，平均每小時處理至少50萬篇文檔;
　　2、處理精準：Top N的分析結(jié)果往往能反映出該篇文章的主干特征;
　　3、精準排序：關鍵詞按照影響權(quán)重排序，可以輸出權(quán)重值;
　　4、開放式接口：文章關鍵詞提取組件作為LJParser的一部分，采用靈活的開發(fā)接口，可以方便地融入到用戶的業(yè)務系統(tǒng)中，可以支持各種操作系統(tǒng)，各類調(diào)用語言。
　　主要接口：
　　/*-----------------------------------------------------------------------
　　* 功能：初始化
　　* 參數(shù)：sLicenseCode - 授權(quán)碼
　　* 返回：true - 成功;false - 失敗
　　* 備注：在進程中此函數(shù)必須在其他函數(shù)之前調(diào)用(只需執(zhí)行一次)
　　------------------------------------------------------------------------*/
　　KWEXTRACT_API bool KDT_Init(const char *sLicenseCode=0);
　　/*-----------------------------------------------------------------------
　　* 功能：分析文本內(nèi)容
　　* 參數(shù)：sText - [IN] 文本內(nèi)容(以'\0'結(jié)束的字符串)
　　* nMaxCount - [IN] 最多抽取多少個關鍵詞
　　* bWeightFlag - [IN] 是否輸出權(quán)重
　　* 返回：特征詞字符串(以\t分隔，詞和權(quán)重間用空格分隔);出錯返回空串
　　* 備注：在進程中此函數(shù)可以在特征詞抽取之前執(zhí)行多次
　　------------------------------------------------------------------------*/
　　KWEXTRACT_API const char* KDT_ParseContent(const char *sText, int nMaxCount, bool bWeightFlag=false);
　　//退出，釋放資源;進程結(jié)束前須調(diào)用它釋放所占用的內(nèi)存資源
　　KWEXTRACT_API void KDT_Exit();
　　//獲得錯誤消息
　　KWEXTRACT_API const char* KDT_GetLastErrMsg();
　　7 文本摘要
　　自動文本摘要能夠?qū)崿F(xiàn)文本內(nèi)容的精簡提煉，從長篇文章中自動提取關鍵句和關鍵段落，構(gòu)成摘要內(nèi)容，方便用戶快速瀏覽文本內(nèi)容，提高工作效率。
　　自動摘要不僅可以針對一篇文檔生成連貫流程的摘要，還能夠?qū)⒕哂邢嗤黝}的多篇文檔去除冗余、并生成一篇簡明扼要的摘要;用戶可以自由設定摘要的長度、百分比等參數(shù);處理速度達到每秒鐘20篇。
　　主要接口：
　　/*-----------------------------------------------------------------------
　　* 功能：初始化
　　* 參數(shù)：sLicenseCode - 授權(quán)碼
　　* 返回：true - 成功;false - 失敗
　　* 備注：在進程中此函數(shù)必須在其他函數(shù)之前調(diào)用(只需執(zhí)行一次)
　　------------------------------------------------------------------------*/
　　DOCSUMMARY_API bool DS_Init(const char *sLicenseCode=0);
　　/*-----------------------------------------------------------------------
　　* 功能：生成單文檔摘要
　　* 參數(shù)：sText -[IN] 文檔內(nèi)容
　　* fSumRate -[IN] 文檔摘要占原文百分比(為0.00則不限制)
　　* iSumLen -[IN] 用戶限定的摘要長度 (為0則不限制)
　　* 返回：摘要字符串;出錯返回空串
　　* 備注：在進程中此函數(shù)可以執(zhí)行多次
　　------------------------------------------------------------------------*/
　　DOCSUMMARY_API const char* DS_SingleDoc(const char *sText, float fSumRate=0.00, int iSumLen=250);
　　//退出，釋放資源;進程結(jié)束前須調(diào)用它釋放所占用的內(nèi)存資源
　　DOCSUMMARY_API void DS_Exit();
　　//獲得錯誤消息
　　DOCSUMMARY_API const char* DS_GetLastErrMsg();
　　8 網(wǎng)頁正文提取
　　網(wǎng)頁正文提取能夠?qū)崿F(xiàn)HTML格式的精確分析，自動分辨出網(wǎng)頁是屬于索引頁面還是內(nèi)容頁面。對于內(nèi)容頁面，能夠高效剔除HTML標簽和導航、廣告等干擾性文字，返回實際有價值的正文內(nèi)容。特別適用于大規(guī)?；ヂ?lián)網(wǎng)信息的高效預處理和分析。
　　靈玖基于統(tǒng)計分布規(guī)律模型判定網(wǎng)頁的特征，所適用的網(wǎng)頁不受類型和領域的限制，不需要配置抽取規(guī)則，能夠全自動地對海量互聯(lián)網(wǎng)頁信息進行高效處理。
　　主要接口：
　　//初始化
　　HPARSER_API bool HPR_Init(const char *sLicenseCode);
　　//退出，釋放資源
　　HPARSER_API void HPR_Exit();
　　//對HTML進行解析(只有執(zhí)行此函數(shù)后才能HPR_GetContent)
　　HPARSER_API bool HPR_ParseFile(const char *sHtmlFilename);
　　HPARSER_API bool HPR_ParseBuffer(const char *sHtmlBuffer, int nLen);
　　//提取正文，返回NULL時表示失敗(調(diào)用TE_GetLastErrMsg可獲得錯誤提示)
　　HPARSER_API const char* HPR_GetContent();
　　//獲得錯誤提示消息
　　HPARSER_API const char* HPR_GetLastErrMsg();
　　9 全文搜索
　　全文搜索內(nèi)核經(jīng)過精心設計，具有高擴展性和高通用性?？芍С治谋尽?shù)字、日期、字符串等各種數(shù)據(jù)類型的高效索引，支持豐富的查詢語言和查詢類型，支持少數(shù)民族語言的搜索。
　　同時，全文搜索可以無縫地與現(xiàn)有數(shù)據(jù)庫系統(tǒng)融合，實現(xiàn)全文搜索與相關的數(shù)據(jù)庫管理應用系統(tǒng)。
　　其主要特色在于：
　　* 可以按照任意指定字段的排序，支持指定字段的搜索，也可以搜索多個字段，以及復雜表達式的綜合搜索;
　　* 支持精確匹配以及模糊匹配，默認為精確匹配，忽略字母大小寫進行模糊匹配;
　　* 實現(xiàn)的是多線程搜索服務;
　　* 每秒可索引3000條記錄(主要瓶頸為數(shù)據(jù)庫或文件記錄的讀取效率);搜索速度在毫秒級別。
　　* 兼容當前所有廠商的數(shù)據(jù)庫系統(tǒng)，其中SQL Server, Oracle, MySQL，DB2等。
　　主要接口：
　　//////////////////////////////////////////////////////////////////////////
　　// 以下部分為索引API
　　//////////////////////////////////////////////////////////////////////////
　　//索引系統(tǒng)初始化
　　//sDictFilename：詞典文件名;為空時，采用n-gram索引方法
　　LJSEARCHAPI_API bool LJIndexer_Init(const char *sDictFilename=0);
　　//系統(tǒng)退出
　　LJSEARCHAPI_API bool LJIndexer_Exit();
　　//索引合并，sIndexFile1的doc_id編號均小于sIndexFile2的doc_id
　　LJSEARCHAPI_API bool LJIndexer_Merge(const char *sIndexFile1,const char *sIndexFile2,const char *sIndexMerged);
　　//建立索引的類
　　class LJSEARCHAPI_API CLJIndexer {
　　public:
　　//內(nèi)存大小控制
　　CLJIndexer(int nMaxMemSize=512000000);
　　bool MemIndexing(const char *pText,int doc_id,unsigned char nFiledID=0xff,int nMemSize=0);//索引一段內(nèi)存，doc_id由應用程序維護
　　bool FileIndexing(const char *sTextFilename,int doc_id,unsigned char nFiledID=0xff);//索引一個文本文件，doc_id由應用程序維護
　　bool IdIndexing(int term_id,int doc_id,unsigned char nFiledID=0xff);//詞ID索引,doc_id由應用程序維護
　　bool Save(const char *sIndexFile);//索引保存的名稱
　　}
　　//////////////////////////////////////////////////////////////////////////
　　// 以下部分為搜索API
　　//////////////////////////////////////////////////////////////////////////
　　//檢索系統(tǒng)初始化
　　//sDictFilename：詞典文件名;為空時，采用n-gram索引方法
　　//sIndexFile：索引文件
　　LJSEARCHAPI_API bool LJSearch_Init(const char *sIndexFile,const char *sDictFilename=0);
　　//系統(tǒng)退出
　　LJSEARCHAPI_API bool LJSearch_Exit();
　　//搜索結(jié)果結(jié)構(gòu)，用于檢索計算使用
　　typedef struct tRESULT_RECORD {
　　int doc_id;
　　int offset;//在域字段內(nèi)的偏移量
　　double score;//排序用的打分機制
　　}RESULT_RECORD;
　　typedef RESULT_RECORD * RESULT_RECORD_VECTOR;
　　class LJSEARCHAPI_API CLJSearcher{
　　public:
　　CLJSearcher(int sort_type=SORT_TYPE_DOCID);
　　//索引保存的名稱，檢索之前，必須Load索引文件
　　bool Load(const char *sIndexFile);
　　//搜索關鍵詞，返回搜索結(jié)果數(shù)目;
　　//結(jié)果存儲在m_pResult指針內(nèi)，無需修改，只讀即可
　　const RESULT_RECORD_VECTOR Search(const char *sKeyword,int *p_nResultCountRet,int nSize=0);
　　};

    靈玖軟件(LING-JOIN-微場景宣傳片)，專注于大數(shù)據(jù)語義搜索與挖掘的技術創(chuàng)新與服務，提供大數(shù)據(jù)搜索、大數(shù)據(jù)挖掘與大數(shù)據(jù)應用解決方案，以應對大數(shù)據(jù)的管理、處理、分析，并從大數(shù)據(jù)中獲知識與智慧，將用戶的大數(shù)據(jù)困境轉(zhuǎn)變?yōu)榇髷?shù)據(jù)寶藏。靈玖軟件大數(shù)據(jù)語義技術已經(jīng)應用于全球三十余萬家機構(gòu)，靈玖軟件在大數(shù)據(jù)應用落地上有成熟的產(chǎn)品與解決方案，贏得了用戶的一致口碑，政府安全大數(shù)據(jù)已經(jīng)成功應用于中央網(wǎng)信辦、公安部、發(fā)改委、國家統(tǒng)計局、國家氣象局、最高人民法院、解放軍某部在內(nèi)的國家機關，金融大數(shù)據(jù)已經(jīng)服務了央行征信中心、中信信托等頂級金融主管部門；媒體出版大數(shù)據(jù)解決方案被新聞出版廣電總局認可并推廣應用于英大傳媒、北大出版社、農(nóng)業(yè)出版社、人民網(wǎng)、中央電視臺等主流媒體與出版社，企業(yè)大數(shù)據(jù)已經(jīng)成功運營于國家電網(wǎng)、中國郵政、中國電信、華為、海航等知名企業(yè)。
 
QQ截圖20160727103020.png 
 
   靈玖軟件作為大數(shù)據(jù)語義搜索挖掘技術創(chuàng)新的參與者，被首席數(shù)據(jù)官聯(lián)盟評為中國大數(shù)據(jù)自然語言處理方向全國第一名，被新聞出版廣電總局評為出版大數(shù)據(jù)核心技術全國第二名,擁有專利2項，產(chǎn)品認證、著作權(quán)十余項，獲得河北省科技成果認定，是國家級高新技術企業(yè)（證書編號：GR201011000707），并通過了ISO9001:2008 GB/T 19001-2008質(zhì)量體系認證（編號為064-12-Q-0296-RO-S）、北京市雙軟認證（編號為京R2010-0240），中關村高新技術企業(yè)（編號為：20102011332101），中國軟件行業(yè)協(xié)會會員。2011入選中小企業(yè)創(chuàng)新基金計劃（編號為11Z075）；靈玖團隊入選浙江舟山“千人計劃”；靈玖軟件先后獲得了中央網(wǎng)信辦、河北省科技支撐計劃、新疆自治區(qū)科技支撐計劃等科研攻關項目，是河北科技大學研究生聯(lián)合培養(yǎng)基地，是華為的大數(shù)據(jù)戰(zhàn)略合作伙伴。

   靈玖軟件與中國科學院、北京理工大學與新疆大學等知名科研機構(gòu)建有聯(lián)合科研開發(fā)基地，匯聚了國際管理專才與技術專家，靈玖軟件高管胡博士為美籍華裔，是享譽海內(nèi)外的工商管理與金融學專家，擔任美聯(lián)儲高級金融專家，是美國中央銀行的第一位華裔專家，目前在長江商學院擔任兼職教授。靈玖軟件大數(shù)據(jù)挖掘總監(jiān)于博士來自中國科學院，有著10余年大數(shù)據(jù)研究與開發(fā)經(jīng)歷，主持開發(fā)的大數(shù)據(jù)采集挖掘系統(tǒng)廣泛地應用于公安部、中國移動與中國證監(jiān)會等單位；大數(shù)據(jù)搜索處理技術總監(jiān)劉博士畢業(yè)于美國芝加哥大學，曾在全球TREC文本檢索大賽等多項比賽中折冠；并聯(lián)合培訓養(yǎng)了維哈柯等多民族語言處理方面的博士；大數(shù)據(jù)自然語言處理技術總監(jiān)許博士畢業(yè)于日本北海道大學，曾在日本NEC等多家企業(yè)任職十余年，研制的中日機器翻譯以及語音識別技術已經(jīng)投入運營多年。
 
公司介紹.jpg
 
靈玖軟件定位：
 
    定位為大數(shù)據(jù)語義搜索挖掘技術服務商，提供大數(shù)據(jù)搜索、大數(shù)據(jù)挖掘與大數(shù)據(jù)管理解決方案，成為大數(shù)據(jù)時代技術與服務的創(chuàng)新引領者。
 
靈玖軟件價值觀：
 
從零到九，從無到有， 從平凡到卓越，零缺陷，所以永久。

產(chǎn)品價格：10000.00 元/套 起
發(fā)貨地址：北京北京包裝說明：不限
產(chǎn)品數(shù)量：10.00 套產(chǎn)品規(guī)格：不限
信息編號：74482837公司編號：14353682

靈玖中科軟件（北京）有限公司
張寶先生
市場部
認證郵箱認證認證
認證
13681251543
進入店鋪
在線咨詢QQ咨詢
相關產(chǎn)品：大數(shù)據(jù)開發(fā),大數(shù)據(jù)搜索與挖掘,大數(shù)據(jù)中文分詞