翻譯質量估計的一種語言方法


2020-02-26 09:53:31


本文基于我在2015年在AMTA上開發和提出的質量評估方法。該方法的前提是完全從語言學家的角度出發創建機器翻譯質量評估(MTQE)的另一種方法。我將簡要介紹QE的一些基本方面,并總結此過程的要點,但是,如果您是本主題的新手,建議您先閱讀  此文章  。

什么是MTQE?

MTQE是一種自動為機器翻譯輸出提供質量指示的方法,  而無需 依賴人工參考翻譯。傳統上,為了確定任何給定MT輸出的質量,需要由人工翻譯創建的一個或多個參考翻譯(“黃金標準”)。然后,可以將MT輸出和人工參考翻譯之間的差異和相似性轉換成分數,以確定輸出的質量。這些方法的示例是  BLEU  和  NIST。

MTQE的目的是什么?

MTQE可以用于多種目的。一種是估算后期編輯的工作量,即,對文本進行后期編輯的難度,所需的時間。QE可以幫助您自動獲取有價值的信息。例如,哪些句段的翻譯質量很差,應該丟棄而不是后期編輯。它還可以回答一個非常常見的問題:我可以為此使用MT嗎?

借助MTQE,您可以:

  • 在段/文件級別估計翻譯質量,

  • 目標后期編輯(選擇要進行后期編輯的部分,段或文件),

  • 丟棄對后期編輯毫無意義的不良內容,

  • 估計編輯后的工作量/時間,

  • 比較MT系統以確定給定內容的最佳性能系統,

  • 隨時間監控系統的質量進度等。

為什么要選擇語言學家的方法?

MTQE的標準方法可能涉及大多數語言學家不熟悉的復雜公式和概念,例如樸素貝葉斯,高斯過程,神經網絡,決策樹等。到目前為止,MTQE主要由科學家處理。確實,傳統的MTQE模型在技術上很難創建和實施。

因此,我決定嘗試一種完全從語言學家的角度發展的方法。這意味著,與其他方法相比,該方法可能有其優點和缺點,但是來自語言背景,其目的是創建一個L10N行業中的翻譯人員和語言學家可以實際使用的過程。

我在 《機器翻譯質量估計的語言指標》中讀到 了源文本,MT系統和目標中的語言和淺淺特征如何幫助估計內容的質量。簡而言之,找到內容的這三個維度中的潛在問題可以幫助您了解輸出質量。這三個維度是:

  • 復雜度 (源文本,復雜程度,MT翻譯的難度),

  • 充分性 (翻譯本身,準確性),以及

  • 流利度 (僅目標文本)。

然后下一步是想在我的內容識別  功能, 在這三個方面,將提供輸出質量的準確估計。經過反復試驗,我決定使用以下功能:

  • 長度:是否超過一定的最大長度?源和目標之間有顯著差異嗎?這里的想法是,句子越長,MT系統正確判斷的難度就越大。 

  • 一詞多義:可以具有多種含義(因此有多種翻譯)的單詞。數百萬種不同類別的商品,這對于eBay內容來說是一個大問題。例如,如果您在eBay.com上搜索酸橙,您會從服裝類別(酸橙顏色),居家與花園(酸橙種子),健康與美容(有男士香水Lime),錄音音樂中獲得結果。 (有一個名為Lime的樂隊)等。這里的關鍵是,如果源中包含多義詞,則表明存在  潛在問題。 另一個關鍵:如果源術語的給定翻譯接近某些單詞,那么這也是潛在的錯誤。讓我說清楚一點:“離合器”可以翻譯為:a)您汽車中的踏板,或b)小手提包;如果目標中的“ a”出現在諸如包,皮革,錢包或愛馬仕之類的單詞旁邊,則很可能是一個問題。  如果您想了解更多,這是有關多義性的有趣文章。

  • 術語:基本上檢查某些術語是否正確翻譯。對于eBay內容而言,諸如品牌,電子商務典型首字母縮寫和公司術語之類的內容至關重要。品牌可能難以應對,因為有些品牌具有通用名稱,例如Coach或Apple,而不是像Adidas或Nike這樣的專有名稱。 

  • 模式:可以識別為錯誤的任何單詞或字符集。模式可以是重復的單詞,三重字母,標點符號丟失,形式/非正式風格指示符,不應在同一句子中出現的單詞等等。正則表達式的使用為您提供了極大的靈活性來查找這些錯誤模式。例如,在西班牙語中,句子通常不會以介詞結尾,因此創建在句子結尾查找ES介詞的正則表達式并不困難:  (prep1 | prep2 | prep3 | etc)\。$

  • 黑名單:不應以目標語言出現的字詞。其中一個典型的例子就是冒犯性的話。對于西班牙語這樣的語言,這對于發現 區域主義很有用。 

  • 數字:源中出現的數字也應出現在目標中。

  • 自動化的后期編輯:我們使用MT輸出中的已知錯誤列表來創建自動后期編輯的規則,即主要通過搜索和替換操作自動修復錯誤。此已知錯誤列表可用于識別潛在問題。

  • 拼寫:拼寫錯誤。 

  • 語法:潛在的語法錯誤,不太可能的單詞組合,例如介詞后跟共軛動詞。

經過反復試驗,我放棄了諸如命名實體識別和詞性標記之類的想法。我無法獲得任何有助于估算的可靠信息,但這  并不意味著  可以將這兩個信息完全丟棄。他們當然會給該方法帶來更高的復雜度,但可能會產生積極的結果。此列表不是最終列表。

所有這些功能及其所有檢查構成了您的QE模型。

您如何使用模型?

這個想法很簡單,讓我為您分解一下:

  • 目標是獲得每個細分的得分,以作為質量水平的指標。

  • 任何上述特征的存在指示潛在的錯誤。

  • 可以為每個錯誤分配多個點,一定的權重。(在測試期間,我為每種錯誤類型分配了一個點,但是可以自定義。)

  • 錯誤數除以單詞數即可得到分數。

  • 理想分數(未檢測到潛在錯誤)將為0。

質量評估必須是自動的–手動檢查每個功能都是沒有意義的。查找潛在問題的一種非常簡單且便宜的方法是使用  Checkmate,它還集成了LanguageTool,拼寫和語法檢查器。兩者都是開源的。

有一種方法可以解決Checkmate中提到的每種語言功能:可以在“術語”選項卡中設置術語和黑名單,在“語言工具”選項卡中設置拼寫和語法,可以在“模式”選項卡中創建模式,等等。您創建的支票可以另存為配置文件并可以重復使用。您只需要創建一個配置文件,就可以在必要時對其進行更新。

Checkmate將同時驗證一個或多個文件,并顯示發現的所有潛在問題的報告。通過了解在文件中檢測到多少錯誤,您可以獲得文檔級別的分數。

在細分受眾群一級獲得分數需要額外的步驟。在這一點上,我們需要的是求和每個段的所有潛在錯誤(Checkmate為每個翻譯單元分配一個ID,這使任務更加容易),計算每個段中的單詞數并除以這些值獲得分數。所有必要的數據都可以從Checkmate的報告中獲取,該報告有多種格式。

為了能夠毫不費力地執行此步驟,我創建了一個Excel模板并將VBA宏放在一起,在復制并粘貼Checkmate報告的內容之后,VBA宏將為您完成工作。結果應與此類似,紅色和綠色得分最高和最低:  

這 是我使用,注釋并分解為較小部分的VBA代碼。如果您不知道如何使用它,那么  這  是一個不錯的起點。

分析結果

運行了一些測試以檢驗此方法的有效性。從完美(高質量人工翻譯)到非常差(MT輸出中注入了額外的錯誤),我們抽取了大小大致相同,質量不同的內容樣本。每個樣本由兩名后期編輯進行后期編輯,記錄每個樣本所需的時間。后期編輯不知道樣本的質量水平是否不同。同時,我們獲得了每個樣品的QE分數。

結果表明,編輯后的時間和分數是一致的。在下面的示例中,對5個西班牙樣本進行了后期編輯。示例5是黃金標準(人工翻譯),示例7是質量最差的標準(由于文件命名錯誤,因此沒有示例9)。所有這些樣本大約為1000個單詞。紅色長條表示編輯者1對每個樣本進行后期編輯所需的時間;綠色條適用于#2的后期編輯。藍線代表每個樣品獲得的分數。

 

在同事的幫助下,針對3種其他語言(BPT,RU和ZH)運行了類似的測試,結果相似。結果不一致的唯一語言是中文。后來我們發現Checkmate在雙字節字符方面存在一些問題。而且,與其他語言相比,我們為中文提供的功能集很小。

使用此模型的挑戰

根據內容的性質,可能會發生大量誤報。例如,某些拼寫檢查程序可能會將某些品牌名稱視為拼寫錯誤。LanguageTool使用忽略列表來避免錯誤地標記添加到其中的任何術語。總體而言,幾乎不可能避免任何語言在質量檢查中出現誤報。盡量減少它們。

另一個挑戰是嘗試將分數與編輯后的工作量度量值相匹配-提出一個準確地預測給定分數可以每秒編輯的單詞數量的指標并不容易。我敢肯定這并非沒有可能,但是精確的指標需要大量數據。

該模型足夠靈活,可以讓您為每個功能分配一定的權重并確保可靠的結果。