feat(rule): "には" を 一つの助詞として認識するように

azu · azu · commit e74fcbee8bca · 2017-03-05T00:40:37.000+09:00
close #15
diff --git a/src/no-doubled-joshi.js b/src/no-doubled-joshi.js
@@ -6,20 +6,21 @@ import {split as splitSentences, Syntax as SentenceSyntax} from "sentence-splitt
 import StringSource from "textlint-util-to-string";
 import {
     is助詞Token, is読点Token,
-    createKeyFromKey, restoreToSurfaceFromKey
+    concatJoishiTokens,
+    createKeyFromKey,
+    restoreToSurfaceFromKey
 } from "./token-utils";
 /**
  * Create token map object
  * {
- *  "で": [token, token],
- *  "の": [token, token]
+ *  "は:助詞.係助詞": [token, token]
  * }
  * @param tokens
  * @returns {*}
  */
 function createSurfaceKeyMap(tokens) {
     // 助詞のみを対象とする
-    return tokens.filter(is助詞Token).reduce((keyMap, token) => {
+    return tokens.reduce((keyMap, token) => {
         // "は:助詞.係助詞" : [token]
         const tokenKey = createKeyFromKey(token);
         if (!keyMap[tokenKey]) {
@@ -70,7 +71,7 @@ export default function(context, options = {}) {
     const isStrict = options.strict || defaultOptions.strict;
     const allow = options.allow || defaultOptions.allow;
     const separatorChars = options.separatorChars || defaultOptions.separatorChars;
-    const {Syntax, report, getSource, RuleError} = context;
+    const {Syntax, report, RuleError} = context;
     return {
         [Syntax.Paragraph](node){
             if (helper.isChildNode(node, [Syntax.Link, Syntax.Image, Syntax.BlockQuote, Syntax.Emphasis])) {
@@ -81,13 +82,16 @@ export default function(context, options = {}) {
             const isSentenceNode = node => {
                 return node.type === SentenceSyntax.Sentence;
             };
-            let sentences = splitSentences(text, {
+            const sentences = splitSentences(text, {
                 separatorChars: separatorChars
             }).filter(isSentenceNode);
             return getTokenizer().then(tokenizer => {
                 const checkSentence = (sentence) => {
-                    let tokens = tokenizer.tokenizeForSentence(sentence.raw);
-                    let countableTokens = tokens.filter(token => {
+                    const tokens = tokenizer.tokenizeForSentence(sentence.raw);
+                    // 助詞 + 助詞は 一つの助詞として扱う
+                    // https://github.com/textlint-ja/textlint-rule-no-doubled-joshi/issues/15
+                    const concatTokens = concatJoishiTokens(tokens);
+                    const countableTokens = concatTokens.filter(token => {
                         if (isStrict) {
                             return is助詞Token(token);
                         }
@@ -96,14 +100,14 @@ export default function(context, options = {}) {
                         // https://github.com/azu/textlint-rule-no-doubled-joshi/issues/2
                         return is助詞Token(token) || is読点Token(token);
                     });
-                    let joshiTokenSurfaceKeyMap = createSurfaceKeyMap(countableTokens);
+                    const joshiTokenSurfaceKeyMap = createSurfaceKeyMap(countableTokens);
                     /*
                      # Data Structure
 
                      joshiTokens = [tokenA, tokenB, tokenC, tokenD, tokenE, tokenF]
                      joshiTokenSurfaceKeyMap = {
-                     "は:助詞.係助詞": [tokenA, tokenC, tokenE],
-                     "で:助詞.係助詞": [tokenB, tokenD, tokenF]
+                         "は:助詞.係助詞": [tokenA, tokenC, tokenE],
+                         "で:助詞.係助詞": [tokenB, tokenD, tokenF]
                      }
                      */
                     Object.keys(joshiTokenSurfaceKeyMap).forEach(key => {
diff --git a/src/token-utils.js b/src/token-utils.js
@@ -2,19 +2,48 @@
 "use strict";
 // 助詞どうか
 export const is助詞Token = (token) => {
-    return token.pos === "助詞";
+    // 結合しているtokenは助詞助詞のようになってるため先頭一致で見る
+    return token && /^助詞/.test(token.pos);
 };
 
 export const is読点Token = (token) => {
     return token.surface_form === "、" && token.pos === "名詞";
 };
-
+/**
+ * aTokenの_extraKeyに結合したkeyを追加する
+ * @param {Object} aToken
+ * @param {Object} bToken
+ * @returns {Object}
+ */
+const concatToken = (aToken, bToken) => {
+    aToken.surface_form += bToken.surface_form;
+    aToken.pos += bToken.pos;
+    aToken.pos_detail_1 += bToken.surface_form;
+    return aToken;
+};
+/**
+ * 助詞+助詞 というように連続しているtokenを結合し直したtokenの配列を返す
+ * @param {Array} tokens
+ * @returns {Array}
+ */
+export const concatJoishiTokens = (tokens) => {
+    const newTokens = [];
+    tokens.forEach((token) => {
+        const prevToken = newTokens[newTokens.length - 1];
+        if (is助詞Token(token) && is助詞Token(prevToken)) {
+            newTokens[newTokens.length - 1] = concatToken(prevToken, token);
+        } else {
+            newTokens.push(token);
+        }
+    });
+    return newTokens;
+};
 // 助詞tokenから品詞細分類1までを元にしたkeyを作る
 // http://www.unixuser.org/~euske/doc/postag/index.html#chasen
 // http://chasen.naist.jp/snapshot/ipadic/ipadic/doc/ipadic-ja.pdf
 export const createKeyFromKey = (token) => {
     // e.g.) "は:助詞.係助詞"
-    return `${token.surface_form}:${token.pos}.${token.pos_detail_1}`
+    return `${token.surface_form}:${token.pos}.${token.pos_detail_1}`;
 };
 // keyからsurfaceを取り出す
 export const restoreToSurfaceFromKey = (key) => {
diff --git a/test/no-doubled-joshi-test.js b/test/no-doubled-joshi-test.js
@@ -17,6 +17,8 @@ tester.run("no-double-joshi", rule, {
         "ナイフで切断した後、ハンマーで破砕した。",
         // 接続助詞のてが重複は許容
         "まずは試していただいて",
+        // **に**と**には**は別の助動詞と認識
+        "そのため、文字列の長さを正確に測るにはある程度の妥協が必要になります。",
         // 1個目の「と」は格助詞、2個めの「と」は接続助詞
         "ターミナルで「test」**と**入力する**と**、画面に表示されます。",
         {
@@ -161,6 +163,18 @@ tester.run("no-double-joshi", rule, {
                     column: 38
                 }
             ]
+        },
+        {
+            // に + は と に + は
+            // https://github.com/textlint-ja/textlint-rule-no-doubled-joshi/issues/15
+            text: "文字列にはそこには問題がある。",
+            errors: [
+                {
+                    message: `一文に二回以上利用されている助詞 "には" がみつかりました。`,
+                    line: 1,
+                    column: 8
+                }
+            ]
         }
     ]
 });

Original file line number	Diff line number	Diff line change
`@@ -17,6 +17,8 @@ tester.run("no-double-joshi", rule, {`
`17`	`17`	`"ナイフで切断した後、ハンマーで破砕した。",`
`18`	`18`	`// 接続助詞のてが重複は許容`
`19`	`19`	`"まずは試していただいて",`
	`20`	`+ // にとにはは別の助動詞と認識`
	`21`	`+ "そのため、文字列の長さを正確に測るにはある程度の妥協が必要になります。",`
`20`	`22`	`// 1個目の「と」は格助詞、2個めの「と」は接続助詞`
`21`	`23`	`"ターミナルで「test」と入力すると、画面に表示されます。",`
`22`	`24`	`{`
`@@ -161,6 +163,18 @@ tester.run("no-double-joshi", rule, {`
`161`	`163`	`column: 38`
`162`	`164`	`}`
`163`	`165`	`]`
	`166`	`+ },`
	`167`	`+ {`
	`168`	`+ // に + はとに + は`
	`169`	`+ // https://github.com/textlint-ja/textlint-rule-no-doubled-joshi/issues/15`
	`170`	`+ text: "文字列にはそこには問題がある。",`
	`171`	`+ errors: [`
	`172`	`+ {`
	`173`	+ message: `一文に二回以上利用されている助詞 "には" がみつかりました。`,
	`174`	`+ line: 1,`
	`175`	`+ column: 8`
	`176`	`+ }`
	`177`	`+ ]`
`164`	`178`	`}`
`165`	`179`	`]`
`166`	`180`	`});`