В прошлом я использовал диапазоны символов в попытке определить язык текста. Хотя это, казалось, работало для русского, китайского, японского, турецкого, греческого, иврита, корейского и арабского языков, это было довольно бесполезно, когда дело касалось латинских языков, таких как французский, немецкий и испанский.
Сегодня был задан вопрос по Стековый поток :
Как я могу определить предложение на других языках, таких как испанский?
Кто-то рекомендовал полиглот и PYCLD2 библиотеки python, и это положило начало моим поискам решения Java. Я нашел Apache OpenNLP , но это казалось излишним, так как мне требовалось только определение языка. Lingua выглядел многообещающе, но библиотека составляла 30 Мб, и интеграция казалась не очень простой. На странице Lingua Оптимизируйте детектор языка Была сделана ссылка на библиотеку Java. В верхней части страницы также было облако тегов и был указан пункт “определение языка”. Я последовал за ним и отфильтровал язык до “java” и получил 23 общедоступных репозитория . Библиотека kju2 language-detector является форком Optimaize, казалась более удобной для ColdFusion с точки зрения интеграции и использования, а предварительно скомпилированный файл JAR составляет всего 1,2 Мб (против 131 Мб для Lingua).
Установка
Скопируйте файл JAR в свой путь JAVA.
Использование
Создайте экземпляр компонента language Detector.cfc.
var languageDetector = new languageDetector();
языковой детектор.обнаружение (текста)
Возвращает текстовую строку с обнаруженным языком.
languageDetector("Quel est votre nom?") // CATALAN (French?) languageDetector("Wie heißen Sie?") // GERMAN languageDetector("¿Cuál es tu nombre?") // SPANISH languageDetector("Πως σε λένε?") // GREEK languageDetector("آپ کا نام کیا ہے؟ ") // URDU languageDetector("Как Вас зовут?") // BELARUSIAN (Russian) languageDetector("คุณชื่ออะไร?") // THAI
Источник
Скачать его можно с Github .
JamoCA/cf-детектор языка
Оболочка ColdFusion для раздвоенной kju2 “Библиотеки определения языка для Java”
Оболочка ColdFusion для kju2-разветвленная “Библиотека определения языка для Java” .
Установка
Установите файл JAR по существующему пути JAVA и перезапустите сервер ColdFusion.
- Загрузите и создайте файл JAR вручную с https://github.com/kju2/language-detector
- Загрузите предварительно скомпилированный JAR из MvnRepository. Загрузите предварительно скомпилированный JAR из MvnRepository.
- Используйте включенный файл JAR (v1.0.5)
Использование
Создайте экземпляр компонента:
var languageDetector = new languageDetector();
языковой детектор.обнаружение (текста)
Возвращает текстовую строку с обнаруженным языком.
languageDetector("Quel est votre nom?") // CATALAN (French?) languageDetector("Wie heißen Sie?") // GERMAN languageDetector("¿Cuál es tu nombre?") // SPANISH languageDetector("Πως σε λένε?") // GREEK languageDetector("آپ کا نام کیا ہے؟ ") // URDU languageDetector("Как Вас зовут?") // BELARUSIAN (Russian) languageDetector("คุณชื่ออะไร?") // THAI
Языковая поддержка
68 Встроенных языковых профилей
- АНГЛИЙСКИЙ (ru)
- АЛБАНСКИЙ (кв.м)
- АРАБСКИЙ (ar)
- АРАГОНСКИЙ (an)
- Басков (ЕС)
- БЕЛОРУССКИЙ (быть)
- БЕНГАЛЬСКИЙ (bn)
- БРЕТОНСКИЙ (br)
- БОЛГАРСКИЙ…
Оригинал: “https://dev.to/gamesover/language-detection-using-coldfusion-java-40m1”