символы в ASCII – это ColdFusion UDF (определяемая пользователем функция) для преобразования символов Юникода и знаков препинания в ASCII 7. Я ранее использовал Преобразует специальные символы из CFLIB , но в нем недостаточно отображенных символов.
Я нашел некоторую документацию с веб-сайта Группы лексических систем NIH, в которой описан их подход к ” Отображению символов и знаков препинания в ASCII “. Они утверждают, что “преобразование знаков препинания и символов Юникода в знаки препинания и символы ASCII является обязательным в NLP для сохранения оригинальных документов. Их реализация кода java – это просто “выполнить сопоставление, если символ находится в таблице сопоставления знаков препинания и символов “.
Их подход имеет большой смысл. Когда я выполняю поиск с помощью SQL-запроса или коллекции Verity, поле ввода HTML5 не автоматически преобразует “тупые кавычки” в “умные кавычки”, как это делает Microsoft Word. Если сохраненный контент содержит символы, закодированные в HTML, не потребуется ли дополнительная логика для учета потенциальных замен, содержащих символы высокого ASCII, а также '
, '
, "
и "
?
Использование: символы В ASCII (обязательная строка ввода)
Попробуйте это онлайн по адресу TryCF.com
Попробуйте это онлайн по адресу TryCF.com
Исходный код
Таблица сопоставления символов и знаков препинания по умолчанию (кредит)
« | \u00ab | ДВОЙНАЯ УГЛОВАЯ КАВЫЧКА, УКАЗЫВАЮЩАЯ ВЛЕВО | “ |
| \u00ad | МЯГКИЙ ДЕФИС | – |
´ | \u00b4 | ОСТРЫЙ АКЦЕНТ | ‘ |
» | \u00bb | УКАЗЫВАЮЩАЯ ВПРАВО ДВОЙНАЯ УГЛОВАЯ КАВЫЧКА | “ |
÷ | \u00f7 | ЗНАК РАЗДЕЛЕНИЯ | / |
ǀ | \u01c0\u01c0 | ЛАТИНСКАЯ БУКВА ЗУБНОЙ ЩЕЛЧОК | | |
ǃ | \u01c3 \u01c3 | ЛАТИНСКАЯ БУКВА RETROFLEX ЩЕЛЧОК | ! |
ʹ | \u02b9 | МОДИФИКАТОР БУКВА ПРОСТОЕ ЧИСЛО | ‘ |
ʺ | \u02ba | БУКВА МОДИФИКАТОРА ДВОЙНОЕ ПРОСТОЕ ЧИСЛО | “ |
‘ | \U02ВС | МОДИФИКАТОР БУКВЕННЫЙ АПОСТРОФ | ‘ |
˄ | \u02c4 \u02c4 | МОДИФИКАТОР БУКВА ВВЕРХ НАКОНЕЧНИК СТРЕЛЫ | ^ |
ˆ | \u02c6 | МОДИФИКАТОР БУКВЫ С АКЦЕНТОМ ПО ОКРУЖНОСТИ | ^ |
ˈ | \u02c8 | БУКВА-МОДИФИКАТОР ВЕРТИКАЛЬНАЯ ЛИНИЯ | ‘ |
ˋ | \u02cb | МОДИФИКАТОР БУКВА СЕРЬЕЗНЫЙ АКЦЕНТ | ` |
ˍ | \u02cd | БУКВА МОДИФИКАТОРА НИЗКИЙ МАКРОН | _ |
˜ | \u02dc /постоянный ток | МАЛЕНЬКАЯ ТИЛЬДА | ~ |
̀ | \u0300 | СОЧЕТАНИЕ СЕРЬЕЗНОГО АКЦЕНТА | ` |
́ | \u0301 | СОЧЕТАНИЕ ОСТРОГО АКЦЕНТА | ‘ |
̂ | \u0302 | СОЧЕТАНИЕ АКЦЕНТА ОКРУЖНОСТИ | ^ |
̃ | \u0303 | КОМБИНИРОВАНИЕ ТИЛЬДЫ | ~ |
̋ | \u030в | СОЧЕТАНИЕ ДВОЙНОГО ОСТРОГО АКЦЕНТА | “ |
̎ | \u030e | КОМБИНИРОВАНИЕ ДВОЙНОЙ ВЕРТИКАЛЬНОЙ ЛИНИИ выше | “ |
̱ | \u0331 | ОБЪЕДИНЕНИЕ МАКРОНА НИЖЕ | _ |
̲ | \u0332 | КОМБИНИРОВАНИЕ НИЗКОЙ ЛИНИИ | _ |
КОМБИНИРОВАНИЕ ДЛИННОГО СОЛИДУСНОГО НАЛОЖЕНИЯ | \u0338 | / | |
։ | \u0589 | АРМЯНСКАЯ ПОЛНАЯ ОСТАНОВКА | : |
׀ | \u05c0 | ПУНКТУАЦИЯ НА ИВРИТЕ PASEQ | | |
׃ | \u05c3 \u05c3 | ПУНКТУАЦИЯ НА ИВРИТЕ СОФ ПАСУК | : |
٪ | \u066a | АРАБСКИЙ ЗНАК ПРОЦЕНТА | % |
٭ | \u066d | АРАБСКАЯ ПЯТИКОНЕЧНАЯ ЗВЕЗДА | * |
| \u200b | ПРОСТРАНСТВО НУЛЕВОЙ ШИРИНЫ | |
‐ | \u2010 год | дефис | – |
‑ | \u2011 | НЕРАЗРЫВНЫЙ ДЕФИС | – |
‒ | \u2012 | ФИГУРНАЯ ЧЕРТОЧКА | – |
– | \u2013 | EN ТИРЕ | – |
— | \u2014 год | ЭМ ДЭШ | – |
― | \u2015 | ТУРНИК | — |
‖ | \u2016 | ДВОЙНАЯ ВЕРТИКАЛЬНАЯ ЛИНИЯ | | |
‗ | \u2017 | ДВОЙНАЯ НИЖНЯЯ ЛИНИЯ | _ |
‘ | \u2018 | ЛЕВАЯ ОДИНАРНАЯ КАВЫЧКА | ‘ |
‘ | \u2019 | ПРАВАЯ ОДИНАРНАЯ КАВЫЧКА | ‘ |
‘ | \u201a | ОДНА КАВЫЧКА С НИЗКИМ ЗНАЧЕНИЕМ – 9 | |
‘ | \u201b | ОДИНОЧНАЯ КАВЫЧКА С ВЫСОКИМ ОБРАТНЫМ ЗНАКОМ-9 | ‘ |
“ | \u201c | ЛЕВАЯ ДВОЙНАЯ КАВЫЧКА | “ |
“ | \u201d | ПРАВАЯ ДВОЙНАЯ КАВЫЧКА | “ |
“ | \у201е | ДВОЙНАЯ КАВЫЧКА С НИЗКИМ ЗНАЧЕНИЕМ – 9 | “ |
“ | \u201f | ДВОЙНАЯ ПЕРЕВЕРНУТАЯ ВВЕРХ ДНОМ КАВЫЧКА-9 | “ |
′ | \u2032 | основной | ‘ |
″ | \u2033 | ДВОЙНОЕ ПРОСТОЕ ЧИСЛО | “ |
‴ | \u2034 | ТРОЙНОЕ ПРОСТОЕ ЧИСЛО | ”’ |
‵ | \u2035 | ПЕРЕВЕРНУТОЕ ПРОСТОЕ ЧИСЛО | ` |
‶ | \u2036 | ПЕРЕВЕРНУТОЕ ДВОЙНОЕ ПРОСТОЕ ЧИСЛО | “ |
‷ | \u2037 | ПЕРЕВЕРНУТОЕ ТРОЙНОЕ ПРОСТОЕ ЧИСЛО | ”’ |
‸ | \u2038 | КАРЕ | ^ |
‹ | \u2039 | ОДИНАРНАЯ КАВЫЧКА С ЛЕВЫМ УГЛОМ НАКЛОНА | < |
› | \u203а | ОДИНАРНАЯ КАВЫЧКА С ПРЯМЫМ УГЛОМ НАКЛОНА | > |
‽ | \u203d | ИНТЕРРОБАНГ | ? |
⁄ | \u2044 | КОСАЯ ЧЕРТА ДРОБИ | / |
⁎ | \u204e | НИЗКАЯ ЗВЕЗДОЧКА | * |
⁒ | \u2052 | КОММЕРЧЕСКИЙ ЗНАК МИНУС | % |
⁓ | \u2053 | КАЧНУВШИЙСЯ ТИРЕ | ~ |
| \u2060 | СЛОВО СТОЛЯРА | |
⃥ | \u20e5 | КОМБИНИРОВАНИЕ ОБРАТНОГО НАЛОЖЕНИЯ СОЛИДУСА | \ |
− | \u2212 | ЗНАК МИНУС | – |
∕ | \u2215 | ДЕЛИТЕЛЬНАЯ КОСАЯ ЧЕРТА | / |
∖ | \u2216 | УСТАНОВИТЬ МИНУС | \ |
∗ | \u2217\у2217 | ОПЕРАТОР ЗВЕЗДОЧКИ | * |
\u2223 | ∣ | \ | |
∶ | \u2236 | соотношение | : |
∼ | \u223с | ОПЕРАТОР ТИЛЬДЫ | ~ |
≤ | \u2264 | МЕНЬШЕ ИЛИ РАВНО | <= |
≥ | \u2265 | БОЛЬШЕ-ЧЕМ ИЛИ РАВНО ТО | >= |
≦ | \u2266 | МЕНЬШЕ -ЧЕМ БОЛЕЕ РАВНО | <= |
≧ | \u2267 | БОЛЬШЕ- ЧЕМ ИЛИ РАВНО | >= |
⌃ | \u2303 | НАКОНЕЧНИК СТРЕЛЫ ВВЕРХ | ^ |
⟨ | \u2329 | УГЛОВАЯ СКОБКА, УКАЗЫВАЮЩАЯ ВЛЕВО | < |
⟩ | \u232а | УГЛОВАЯ СКОБКА, УКАЗЫВАЮЩАЯ ВПРАВО | > |
♯ | \u266ф | МУЗЫКАЛЬНЫЙ РЕЗКИЙ ЗНАК | # |
✱ | \u2731 | ТЯЖЕЛАЯ ЗВЕЗДОЧКА | * |
❘ | \u2758 | ЛЕГКАЯ ВЕРТИКАЛЬНАЯ ПОЛОСА | | |
❢ | \u2762 | ТЯЖЕЛОЕ УКРАШЕНИЕ С ВОСКЛИЦАТЕЛЬНЫМ ЗНАКОМ | ! |
⟦ | \u27e6 | МАТЕМАТИЧЕСКАЯ ЛЕВАЯ БЕЛАЯ КВАДРАТНАЯ СКОБКА | [ |
⟨ | \u27e8 | МАТЕМАТИЧЕСКАЯ ЛЕВАЯ УГЛОВАЯ СКОБКА | < |
⟩ | \u27e9 | МАТЕМАТИЧЕСКАЯ ПРЯМОУГОЛЬНАЯ СКОБКА | > |
⦃ | \u2983 | ЛЕВАЯ БЕЛАЯ ФИГУРНАЯ СКОБКА | { |
⦄ | \u2984 | право БЕЛАЯ ФИГУРНАЯ СКОБКА | } |
〃 | \u3003 | ТО ЖЕ САМОЕ С МАРКОМ | “ |
〈 | \u3008 | ЛЕВЫЙ УГЛОВОЙ КРОНШТЕЙН | < |
〉 | \u3009 | право УГЛОВОЙ КРОНШТЕЙН | > |
〛 | \u301b | право БЕЛАЯ КВАДРАТНАЯ СКОБКА | ] |
〜 | \u301с | ВОЛНОВОЙ ТИРЕ | ~ |
〝 | \u301d | ПЕРЕВЕРНУТАЯ ДВОЙНАЯ ПРОСТАЯ КОТИРОВКА отметка | “ |
〞 | \u301e | ДВОЙНАЯ ПРОСТАЯ КАВЫЧКА | “ |
\УФЕФФ | НУЛЕВАЯ ШИРИНА ПРОСТРАНСТВО БЕЗ ПЕРЕРЫВА |
Оригинал: “https://dev.to/gamesover/convert-symbols-punctuation-to-ascii-using-coldfusion-java-3l6a”