Рубрики
Без рубрики

Определение языка с помощью ColdFusion/ Ява

В прошлом я использовал диапазоны символов в попытке определить язык текста. В то время как это се… Помечен как coldfusion, java, i18n.

В прошлом я использовал диапазоны символов в попытке определить язык текста. Хотя это, казалось, работало для русского, китайского, японского, турецкого, греческого, иврита, корейского и арабского языков, это было довольно бесполезно, когда дело касалось латинских языков, таких как французский, немецкий и испанский.

Сегодня был задан вопрос по Стековый поток :

Как я могу определить предложение на других языках, таких как испанский?

Кто-то рекомендовал полиглот и PYCLD2 библиотеки python, и это положило начало моим поискам решения Java. Я нашел Apache OpenNLP , но это казалось излишним, так как мне требовалось только определение языка. Lingua выглядел многообещающе, но библиотека составляла 30 Мб, и интеграция казалась не очень простой. На странице Lingua Оптимизируйте детектор языка Была сделана ссылка на библиотеку Java. В верхней части страницы также было облако тегов и был указан пункт “определение языка”. Я последовал за ним и отфильтровал язык до “java” и получил 23 общедоступных репозитория . Библиотека kju2 language-detector является форком Optimaize, казалась более удобной для ColdFusion с точки зрения интеграции и использования, а предварительно скомпилированный файл JAR составляет всего 1,2 Мб (против 131 Мб для Lingua).

Установка

Скопируйте файл JAR в свой путь JAVA.

Использование

Создайте экземпляр компонента language Detector.cfc.

var languageDetector = new languageDetector();

языковой детектор.обнаружение (текста)

Возвращает текстовую строку с обнаруженным языком.

languageDetector("Quel est votre nom?")          // CATALAN (French?)
languageDetector("Wie heißen Sie?")              // GERMAN
languageDetector("¿Cuál es tu nombre?")          // SPANISH
languageDetector("Πως σε λένε?")                 // GREEK    
languageDetector("آپ کا نام کیا ہے؟ ")          // URDU
languageDetector("Как Вас зовут?")               // BELARUSIAN (Russian)
languageDetector("คุณชื่ออะไร?")                    // THAI

Источник

Скачать его можно с Github .

JamoCA/cf-детектор языка

Оболочка ColdFusion для раздвоенной kju2 “Библиотеки определения языка для Java”

Оболочка ColdFusion для kju2-разветвленная “Библиотека определения языка для Java” .

Установка

Установите файл JAR по существующему пути JAVA и перезапустите сервер ColdFusion.

  1. Загрузите и создайте файл JAR вручную с https://github.com/kju2/language-detector
  2. Загрузите предварительно скомпилированный JAR из MvnRepository. Загрузите предварительно скомпилированный JAR из MvnRepository.
  3. Используйте включенный файл JAR (v1.0.5)

Использование

Создайте экземпляр компонента:

    var languageDetector = new languageDetector();

языковой детектор.обнаружение (текста)

Возвращает текстовую строку с обнаруженным языком.

languageDetector("Quel est votre nom?")          // CATALAN (French?)
languageDetector("Wie heißen Sie?")              // GERMAN
languageDetector("¿Cuál es tu nombre?")          // SPANISH
languageDetector("Πως σε λένε?")                 // GREEK    
languageDetector("آپ کا نام کیا ہے؟ ")          // URDU
languageDetector("Как Вас зовут?")               // BELARUSIAN (Russian)
languageDetector("คุณชื่ออะไร?")                    // THAI

Языковая поддержка

68 Встроенных языковых профилей

  1. АНГЛИЙСКИЙ (ru)
  2. АЛБАНСКИЙ (кв.м)
  3. АРАБСКИЙ (ar)
  4. АРАГОНСКИЙ (an)
  5. Басков (ЕС)
  6. БЕЛОРУССКИЙ (быть)
  7. БЕНГАЛЬСКИЙ (bn)
  8. БРЕТОНСКИЙ (br)
  9. БОЛГАРСКИЙ…

Оригинал: “https://dev.to/gamesover/language-detection-using-coldfusion-java-40m1”