
Лингвистика + статистика = NLP
catprokhorova 1 час назад Лингвистика + статистика = NLP Простой 8 мин 2.7K Natural Language Processing * История IT Обзор Как-то так получилось, что я NLP-инженер, который закончил Московский государственный...
Значимый прорыв формирует отрасль ИИ: catprokhorova 1 час назад Лингвистика + статистика = NLP Простой 8 мин 2. 7K Natural Language Processing * История IT Обзор Как-то так получилось, что я NLP-инженер, который закончил Московский государственный лингвистический университет. Мне нравится ковыряться в коде и мозгах нейросетей, при этом я стараюсь не забывать, на каком фундаменте выросла трендовая ныне область под названием Natural Language Processing (NLP).
Поэтому захотелось собрать в одной статье беглый обзор истории компьютерной лингвистики — от первых теорий и грамматик Хомского до появления рекуррентных сетей и механизма внимания. Думаю, стоит остановиться ровно перед эпохой трансформеров, потому что это отдельная, глубокая и достойная собственного рассказа тема. Эпоха правил и символизма (1950-е – начало 1990-х)Представьте себе 1950 год.
Технические детали
Компьютеры огромны, как шкафы, и умны, как… ну, как шкафы. При этом амбиции человечества безграничны: мы уже мечтаем о машинном переводе, который поможет нам понимать секретные документы и научные статьи на других языках без необходимости 5 лет рыдать над трактатами по теории перевода (привет МГЛУ). Это было время, когда учёные искренне верили, что язык — это просто очень сложная, но всё же математически описываемая система.
Если написать достаточно правил, рассуждали они, машина заговорит. Лингвистический фундамент: Фердинанд де Соссюр и Ноам ХомскийЧтобы написать правила для машины, нужно сначала понять, как устроен сам язык. Здесь на сцену выходят тяжеловесы теоретической лингвистики.
Швейцарский лингвист, который в начале XX века заложил основы структурализма. Его ключевая идея: язык — это система знаков. Каждый знак — это двусторонняя сущность, состоящая из «означающего» (звуковой или графической формы) и «означаемого» (понятия).
Отраслевые последствия
Эта идея — отправная точка для любой формализации. Если язык — это система, значит, в ней должны быть правила. Если есть правила, их можно записать в код!
Если Соссюр описал систему, то Хомский, американский лингвист и философ, произвел революцию в 1950-х, предложив генеративную (порождающую) лингвистику. Его главная мысль: язык отличает способность порождать бесконечное число новых, грамматически правильных предложений по конечному набору правил. Синтаксические структуры: он ввел понятие фразовой структуры (Phrase Structure Grammar), где предложение разбирается на составляющие (именные группы, глагольные группы).
Это привело к появлению деревьев синтаксического разбора, которые стали основой для компьютерного анализа текста. Контекстно-свободная грамматика (CFG): Хомский создал знаменитую иерархию формальных грамматик. Для NLP критически важны контекстно-свободные грамматики, которые лежат в основе большинства ранних парсеров.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





