Публикации по теме 'nlp'


Перестаньте напрягаться из-за регулярных выражений
Вместо этого создавайте читаемые выражения с помощью этой библиотеки. Регулярные выражения — это строки/шаблоны, которые могут совпадать с входным текстом. Первоначально они были изобретены Стивеном Клини в 1950-х годах в лабораториях Белла, но теперь доступны в большинстве современных редакторов кода и языков программирования. Регулярные выражения (также называемые RegEx) могут использоваться для различных целей. Например, распространенной задачей в информационном поиске (IR)..

Создайте детектор европейских языков с нуля менее чем за день!
Обнаружение языка является хорошо развитой областью обработки естественного языка (NLP) в машинном обучении, поэтому в литературе и в Интернете доступно несколько алгоритмов и API. Тем не менее, запуск некоторых из этих алгоритмов на малом количестве памяти и быстродействующем процессоре может создать немало проблем, особенно для разработчиков, пытающихся создать свои собственные или модифицировать существующие коды. Мне удалось собрать очень простой, но эффективный алгоритм, который..

Создание платформы аннотаций с нуля
Создание платформы для аннотаций с помощью Argilla Введение Поскольку аннотации имеют решающее значение для обеспечения качественных данных для проектов обработки естественного языка (NLP). Основная идея проекта — предоставить простой и интуитивно понятный пользовательский интерфейс для эффективного аннотирования любого набора данных. Платформа имеет два API, один для уровня приема, а другой для уровня обслуживания, чтобы упростить процесс интеграции с другими приложениями. API приема..

Понимание сложности объяснимого ИИ в обработке естественного языка
Внедрение объяснимого ИИ (XAI) стало важным событием в быстро развивающейся области искусственного интеллекта (ИИ), особенно в области обработки естественного языка (NLP). Понимание того, как модели ИИ выносят суждения, стало главным приоритетом, поскольку эти модели становятся все более сложными и способны справляться со все более сложными задачами. В этой статье мы углубимся в концепцию объяснимого ИИ в НЛП, его значение, проблемы и возможные решения. В последние годы наблюдается..

Пошаговая дистилляция : обзор статьи
Дистилляция шаг за шагом: обзор статьи Изучение одного из самых последних и инновационных методов сжатия LLM Авторы Этот пост в блоге был написан Marcello Politi и Vijayasri Iyer . Введение В настоящее время широко распространены большие языковые модели. Недавние тенденции в области исследований ИИ показали, что более крупные LM обладают нулевыми возможностями обобщения и способностями к эмерджентному/здравому смыслу . В настоящее время одной из крупнейших языковых моделей..

Извлечение адреса и анализатор с помощью NLP
Введение Извлечение адресов из необработанных данных — ценный инструмент для предприятий и организаций, которым требуется обрабатывать большие объемы письменных данных, таких как счета-фактуры или сообщения клиентов. Система автоматического извлечения адресов — это инструмент, который автоматически извлекает и идентифицирует адреса из неструктурированного текста. Он идентифицирует и извлекает соответствующую информацию, такую ​​как названия улиц, названия городов и почтовые индексы...

Программная маркировка — Объединение ансамбля функций маркировки
Простой подход к объединению множества меток из ансамбля функций маркировки с использованием большинства голосов. Этот процесс опирается на библиотеку extr-ds ( репозиторий Github ). pip install extr-ds Простое голосование большинством Простой метод подсчета и определения того, какая метка должна появиться среди группы функций маркировки. В случаях, когда голоса равны, побеждает метка с наибольшим взвешенным баллом — += weight * (confidence[i] * 1) . В тех случаях, когда..