Рубрики
Без рубрики

Преобразование символов Юникода и знаков препинания в ASCII с помощью ColdFusion/Java

символы в ASCII – это ColdFusion UDF (определяемая пользователем функция) для преобразования символов Юникода и знаков препинания… С тегами unicode, ascii, java, coldfusion.

символы в ASCII – это ColdFusion UDF (определяемая пользователем функция) для преобразования символов Юникода и знаков препинания в ASCII 7. Я ранее использовал Преобразует специальные символы из CFLIB , но в нем недостаточно отображенных символов.

Я нашел некоторую документацию с веб-сайта Группы лексических систем NIH, в которой описан их подход к ” Отображению символов и знаков препинания в ASCII “. Они утверждают, что “преобразование знаков препинания и символов Юникода в знаки препинания и символы ASCII является обязательным в NLP для сохранения оригинальных документов. Их реализация кода java – это просто “выполнить сопоставление, если символ находится в таблице сопоставления знаков препинания и символов “.

Их подход имеет большой смысл. Когда я выполняю поиск с помощью SQL-запроса или коллекции Verity, поле ввода HTML5 не автоматически преобразует “тупые кавычки” в “умные кавычки”, как это делает Microsoft Word. Если сохраненный контент содержит символы, закодированные в HTML, не потребуется ли дополнительная логика для учета потенциальных замен, содержащих символы высокого ASCII, а также ' , ' , " и " ?

Использование: символы В ASCII (обязательная строка ввода)





Попробуйте это онлайн по адресу TryCF.com

Попробуйте это онлайн по адресу TryCF.com

Исходный код

Таблица сопоставления символов и знаков препинания по умолчанию (кредит)

« \u00ab ДВОЙНАЯ УГЛОВАЯ КАВЫЧКА, УКАЗЫВАЮЩАЯ ВЛЕВО
­ \u00ad МЯГКИЙ ДЕФИС
´ \u00b4 ОСТРЫЙ АКЦЕНТ
» \u00bb УКАЗЫВАЮЩАЯ ВПРАВО ДВОЙНАЯ УГЛОВАЯ КАВЫЧКА
÷ \u00f7 ЗНАК РАЗДЕЛЕНИЯ /
ǀ \u01c0\u01c0 ЛАТИНСКАЯ БУКВА ЗУБНОЙ ЩЕЛЧОК |
ǃ \u01c3 \u01c3 ЛАТИНСКАЯ БУКВА RETROFLEX ЩЕЛЧОК !
ʹ \u02b9 МОДИФИКАТОР БУКВА ПРОСТОЕ ЧИСЛО
ʺ \u02ba БУКВА МОДИФИКАТОРА ДВОЙНОЕ ПРОСТОЕ ЧИСЛО
\U02ВС МОДИФИКАТОР БУКВЕННЫЙ АПОСТРОФ
˄ \u02c4 \u02c4 МОДИФИКАТОР БУКВА ВВЕРХ НАКОНЕЧНИК СТРЕЛЫ ^
ˆ \u02c6 МОДИФИКАТОР БУКВЫ С АКЦЕНТОМ ПО ОКРУЖНОСТИ ^
ˈ \u02c8 БУКВА-МОДИФИКАТОР ВЕРТИКАЛЬНАЯ ЛИНИЯ
ˋ \u02cb МОДИФИКАТОР БУКВА СЕРЬЕЗНЫЙ АКЦЕНТ `
ˍ \u02cd БУКВА МОДИФИКАТОРА НИЗКИЙ МАКРОН _
˜ \u02dc /постоянный ток МАЛЕНЬКАЯ ТИЛЬДА ~
̀ \u0300 СОЧЕТАНИЕ СЕРЬЕЗНОГО АКЦЕНТА `
́ \u0301 СОЧЕТАНИЕ ОСТРОГО АКЦЕНТА
̂ \u0302 СОЧЕТАНИЕ АКЦЕНТА ОКРУЖНОСТИ ^
̃ \u0303 КОМБИНИРОВАНИЕ ТИЛЬДЫ ~
̋ \u030в СОЧЕТАНИЕ ДВОЙНОГО ОСТРОГО АКЦЕНТА
̎ \u030e КОМБИНИРОВАНИЕ ДВОЙНОЙ ВЕРТИКАЛЬНОЙ ЛИНИИ выше
̱ \u0331 ОБЪЕДИНЕНИЕ МАКРОНА НИЖЕ _
̲ \u0332 КОМБИНИРОВАНИЕ НИЗКОЙ ЛИНИИ _
КОМБИНИРОВАНИЕ ДЛИННОГО СОЛИДУСНОГО НАЛОЖЕНИЯ \u0338 /
։ \u0589 АРМЯНСКАЯ ПОЛНАЯ ОСТАНОВКА :
׀ \u05c0 ПУНКТУАЦИЯ НА ИВРИТЕ PASEQ |
׃ \u05c3 \u05c3 ПУНКТУАЦИЯ НА ИВРИТЕ СОФ ПАСУК :
٪ \u066a АРАБСКИЙ ЗНАК ПРОЦЕНТА %
٭ \u066d АРАБСКАЯ ПЯТИКОНЕЧНАЯ ЗВЕЗДА *
\u200b ПРОСТРАНСТВО НУЛЕВОЙ ШИРИНЫ
\u2010 год дефис
\u2011 НЕРАЗРЫВНЫЙ ДЕФИС
\u2012 ФИГУРНАЯ ЧЕРТОЧКА
\u2013 EN ТИРЕ
\u2014 год ЭМ ДЭШ
\u2015 ТУРНИК
\u2016 ДВОЙНАЯ ВЕРТИКАЛЬНАЯ ЛИНИЯ |
\u2017 ДВОЙНАЯ НИЖНЯЯ ЛИНИЯ _
\u2018 ЛЕВАЯ ОДИНАРНАЯ КАВЫЧКА
\u2019 ПРАВАЯ ОДИНАРНАЯ КАВЫЧКА
\u201a ОДНА КАВЫЧКА С НИЗКИМ ЗНАЧЕНИЕМ – 9
\u201b ОДИНОЧНАЯ КАВЫЧКА С ВЫСОКИМ ОБРАТНЫМ ЗНАКОМ-9
\u201c ЛЕВАЯ ДВОЙНАЯ КАВЫЧКА
\u201d ПРАВАЯ ДВОЙНАЯ КАВЫЧКА
\у201е ДВОЙНАЯ КАВЫЧКА С НИЗКИМ ЗНАЧЕНИЕМ – 9
\u201f ДВОЙНАЯ ПЕРЕВЕРНУТАЯ ВВЕРХ ДНОМ КАВЫЧКА-9
\u2032 основной
\u2033 ДВОЙНОЕ ПРОСТОЕ ЧИСЛО
\u2034 ТРОЙНОЕ ПРОСТОЕ ЧИСЛО ”’
\u2035 ПЕРЕВЕРНУТОЕ ПРОСТОЕ ЧИСЛО `
\u2036 ПЕРЕВЕРНУТОЕ ДВОЙНОЕ ПРОСТОЕ ЧИСЛО
\u2037 ПЕРЕВЕРНУТОЕ ТРОЙНОЕ ПРОСТОЕ ЧИСЛО ”’
\u2038 КАРЕ ^
\u2039 ОДИНАРНАЯ КАВЫЧКА С ЛЕВЫМ УГЛОМ НАКЛОНА <
\u203а ОДИНАРНАЯ КАВЫЧКА С ПРЯМЫМ УГЛОМ НАКЛОНА >
\u203d ИНТЕРРОБАНГ ?
\u2044 КОСАЯ ЧЕРТА ДРОБИ /
\u204e НИЗКАЯ ЗВЕЗДОЧКА *
\u2052 КОММЕРЧЕСКИЙ ЗНАК МИНУС %
\u2053 КАЧНУВШИЙСЯ ТИРЕ ~
\u2060 СЛОВО СТОЛЯРА
\u20e5 КОМБИНИРОВАНИЕ ОБРАТНОГО НАЛОЖЕНИЯ СОЛИДУСА \
\u2212 ЗНАК МИНУС
\u2215 ДЕЛИТЕЛЬНАЯ КОСАЯ ЧЕРТА /
\u2216 УСТАНОВИТЬ МИНУС \
\u2217\у2217 ОПЕРАТОР ЗВЕЗДОЧКИ *
\u2223 \
\u2236 соотношение :
\u223с ОПЕРАТОР ТИЛЬДЫ ~
\u2264 МЕНЬШЕ ИЛИ РАВНО <=
\u2265 БОЛЬШЕ-ЧЕМ ИЛИ РАВНО ТО >=
\u2266 МЕНЬШЕ -ЧЕМ БОЛЕЕ РАВНО <=
\u2267 БОЛЬШЕ- ЧЕМ ИЛИ РАВНО >=
\u2303 НАКОНЕЧНИК СТРЕЛЫ ВВЕРХ ^
\u2329 УГЛОВАЯ СКОБКА, УКАЗЫВАЮЩАЯ ВЛЕВО <
\u232а УГЛОВАЯ СКОБКА, УКАЗЫВАЮЩАЯ ВПРАВО >
\u266ф МУЗЫКАЛЬНЫЙ РЕЗКИЙ ЗНАК #
\u2731 ТЯЖЕЛАЯ ЗВЕЗДОЧКА *
\u2758 ЛЕГКАЯ ВЕРТИКАЛЬНАЯ ПОЛОСА |
\u2762 ТЯЖЕЛОЕ УКРАШЕНИЕ С ВОСКЛИЦАТЕЛЬНЫМ ЗНАКОМ !
\u27e6 МАТЕМАТИЧЕСКАЯ ЛЕВАЯ БЕЛАЯ КВАДРАТНАЯ СКОБКА [
\u27e8 МАТЕМАТИЧЕСКАЯ ЛЕВАЯ УГЛОВАЯ СКОБКА <
\u27e9 МАТЕМАТИЧЕСКАЯ ПРЯМОУГОЛЬНАЯ СКОБКА >
\u2983 ЛЕВАЯ БЕЛАЯ ФИГУРНАЯ СКОБКА {
\u2984 право БЕЛАЯ ФИГУРНАЯ СКОБКА }
\u3003 ТО ЖЕ САМОЕ С МАРКОМ
\u3008 ЛЕВЫЙ УГЛОВОЙ КРОНШТЕЙН <
\u3009 право УГЛОВОЙ КРОНШТЕЙН >
\u301b право БЕЛАЯ КВАДРАТНАЯ СКОБКА ]
\u301с ВОЛНОВОЙ ТИРЕ ~
\u301d ПЕРЕВЕРНУТАЯ ДВОЙНАЯ ПРОСТАЯ КОТИРОВКА отметка
\u301e ДВОЙНАЯ ПРОСТАЯ КАВЫЧКА
\УФЕФФ НУЛЕВАЯ ШИРИНА ПРОСТРАНСТВО БЕЗ ПЕРЕРЫВА

Оригинал: “https://dev.to/gamesover/convert-symbols-punctuation-to-ascii-using-coldfusion-java-3l6a”