Записки программиста, обо всем и ни о чем. Но, наверное, больше профессионального.

2014-07-25

NLP

NLP это Natural Language Processing.

Точка зрения:

По моему скромному мнению, когда лингвисты не могут придумать как решить определенную задачу, они всегда садятся в кресло, зажигают трубку, и говорят: «Нужно машинное обучение». То есть как бы сливаюся. Машинное обучение - это весело и интересно, но оно не является серебряной пулей, а скорее наоборот. Ведь главный минус машинного обучения в том, что, стоит вам выбрать немного не те или ошибиться с выбором критериев, по которым машину обучать, так всё идет, простите, по хуям. И понять, почему всё идет по хуям, чаще всего сложно или невозможно, нужно выбирать другие критерии и бегать с бубном.

с продолжением

Зашел я на эту статью с https://plus.google.com/u/0/+VicNgrail/posts/FPqMTvqbvFK
где упоминается также sentiment analysis http://habrahabr.ru/post/149605/

Поскольку я теперь типа эксперт в ML, я не мог пройти мимо такого замечательного описания проблемы. Статья прекрасна, без дураков, стоит прочесть. Хочу только уточнить, что, хотя и есть весомая доля истины в процитированном отрывке, на самом деле ML это не последнее прибежище отчаявшегося data scientist, нет. Это инструмент, с которым надо уметь обращаться. В частности, когда мы выбираем «немного не те критерии» и «все идет по хуям», нужно не отчаиваться и не бегать с бубном а применить методики отладки алгоритмов обучения. Хотя да, выбор правильных фичей (features) для скармливания машине, это, наверное, самая нетривиальная задача из тех, что приходится решать. Но и тут есть довольно простые методы, ведущие если не к успеху, так хоть в его направлении.

Вот такая реклама курсов получилась :)




original post http://vasnake.blogspot.com/2014/07/nlp.html

3 комментария:

  1. Ну и на самом деле это высказывание скорее саркастически-разжигающее, так что доля правды в нем примерно равна доле сарказма. Перефразировать его можно как "если задачу можно решить без ML — чаще всего это решение будет лучше, чем с ML", но согласитесь, звучит не так убедительно :)

    ОтветитьУдалить
    Ответы
    1. Вам спасибо за клевую статью.
      Я думаю, что тем, кто будет читать, можно не растолковывать, где сарказм/ирония, а где факты и алгоритмы. Ибо тупые дурни читать такие тексты просто не будут :)

      Удалить

Архив блога

Ярлыки

linux (241) python (191) citation (185) web-develop (170) gov.ru (156) video (123) бытовуха (111) sysadm (100) GIS (97) Zope(Plone) (88) Book (81) programming (81) бурчалки (80) грабли (77) development (73) Fun (72) windsurfing (72) Microsoft (64) hiload (62) opensource (58) internet provider (57) security (57) опыт (55) movie (52) Wisdom (51) ML (47) language (45) hardware (44) JS (41) curse (40) money (40) driving (39) DBMS (38) bigdata (38) ArcGIS (34) history (31) PDA (30) howto (30) holyday (29) Google (27) Oracle (27) virtbox (27) health (26) vacation (24) AI (23) Autodesk (23) SQL (23) Java (22) humor (22) knowledge (22) translate (20) CSS (19) cheatsheet (19) hack (19) tourism (18) Apache (16) Manager (15) web-browser (15) Никонов (15) happiness (14) music (14) todo (14) PHP (13) weapon (13) HTTP. Apache (12) SSH (12) course (12) frameworks (12) functional programming (12) hero (12) im (12) settings (12) HTML (11) SciTE (11) crypto (11) game (11) map (11) scala (10) HTTPD (9) ODF (9) купи/продай (9) benchmark (8) documentation (8) 3D (7) CS (7) DNS (7) NoSQL (7) Photo (7) cloud (7) django (7) gun (7) matroska (7) telephony (7) Microsoft Office (6) VCS (6) bluetooth (6) pidgin (6) proxy (6) Donald Knuth (5) ETL (5) NVIDIA (5) REST (5) bash (5) flash (5) keyboard (5) price (5) samba (5) CGI (4) LISP (4) RoR (4) cache (4) display (4) holywar (4) nginx (4) pistol (4) xml (4) Лебедев (4) IDE (3) IE8 (3) J2EE (3) NTFS (3) RDP (3) USA (3) mount (3) spark (3) Гоблин (3) кухня (3) урюк (3) AMQP (2) ERP (2) IE7 (2) NAS (2) Naudoc (2) PDF (2) address (2) air (2) british (2) coffee (2) font (2) ftp (2) holiday (2) messaging (2) notify (2) sharepoint (2) ssl/tls (2) stardict (2) tests (2) tunnel (2) udev (2) APT (1) CRUD (1) Canyonlands (1) Cyprus (1) DVDShrink (1) Jabber (1) K9Copy (1) Matlab (1) Palanga (1) Portugal (1) VBA (1) WD My Book (1) autoit (1) bike (1) cannabis (1) chat (1) concurrent (1) dbf (1) ext4 (1) idioten (1) krusader (1) license (1) mindmap (1) pneumatic weapon (1) quiz (1) regexp (1) robot (1) science (1) serialization (1) tie (1) vim (1) Науру (1) крысы (1) налоги (1) пианино (1)

Google+ Followers