Announcement

Collapse
No announcement yet.

Вийна и мир

Collapse

Forum Topic List

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Вийна и мир

    В одном видео-уроке наткнулся на пример анализа романа Толстого 'Война и мир'. Программа подсчитывает сколько раз в романе используется каждое слово. В примере использовался английский перевод. Я написал похожую программу которая делает тоже самое и с переводом и с оригиналом.

    Кто угадает 10 наиболее часто используемых слов в английской и русской версиях романа?

  • #2
    Re: Вoйна и мир

    Лингвистов не нашлось? Тогда вот двадцатка наиболее употребляемых слов в оригинале романа 'Война и мир'. Слева - сколько раз слово было употреблено:
    21387 и
    11090 в
    8735 не
    7787 что
    7476 он
    6786 на
    5919 с
    4108 как
    3954 его
    3468 к
    3094 я
    2771 но
    2750 она
    2560 это
    2519 было
    2305 то
    2016 сказал
    1987 так
    1887 о
    1856 а

    Двадцатка наиболее употребляемых слов в английском переводе 'Войны и мира':
    34561 the
    22147 and
    16709 to
    14990 of
    10513 a
    9809 he
    8800 in
    7965 his
    7806 that
    7327 was
    5694 with
    5354 had
    5179 it
    4697 her
    4658 not
    4571 him
    4535 at
    4106 i
    4012 but
    3996 on

    Списки практически совпадают. Хотел составить словарь Толстого в 'Войне и мире' - список уникальных слов. Но похоже без словаря с которым можно было бы сверяться задача довольно сложная. Например как определить что слова - который которая которое происходят от одного корня? Можно наверно сделать обрезание окончания и сравнивать только корни. Но сколько букв обрезать? Одну или две? Но так можно слова Крот и Крым определить как однокоренные.

    Comment


    • #3
      Re: Вoйна и мир

      главное, чтобы слова "Россия" и "Крым" не оказались однокоренными в программке.
      который/которая/которое. программируете на поиск трех, допустим, одинаковых букв в одной последовательности.
      как только находит от 2х и более слов, у которых совпадают 3 буквы подряд, выйдет большой список.
      дабы исключить приставки, суффиксы и окончания, выбирать можно четыре одинаковые буквы в одной последовательности.
      Крот и Крым. 2 буквы совпадают. не припомню слов, у которых корень состоит из менее трех букв.

      Comment


      • #4
        Re: Вoйна и мир

        Я думаю, шо Крым и Крыс - однокоренные слова.

        Comment


        • #5
          Re: Вoйна и мир

          Originally posted by GANGSTA
          главное, чтобы слова "Россия" и "Крым" не оказались однокоренными в программке.
          который/которая/которое. программируете на поиск трех, допустим, одинаковых букв в одной последовательности.
          как только находит от 2х и более слов, у которых совпадают 3 буквы подряд, выйдет большой список.
          дабы исключить приставки, суффиксы и окончания, выбирать можно четыре одинаковые буквы в одной последовательности.
          Крот и Крым. 2 буквы совпадают. не припомню слов, у которых корень состоит из менее трех букв.
          То-есть сколько по-вашему достаточно букв идущих подряд чтобы сказать что слова однокоренные - 3 или 4? Если 3 то получатся однокоренными: сколько-ускорение бутылка-копилка. Если 4 то: поиски-происки календарь-бездарь. Нет похоже без словаря никак. Ну или составить списки слов с последовательно идущими 3-4 буквами и разобрать что там однокоренное. После чего вколотить в программу эти слова. Но это слишком долго пыхтеть придется...

          Comment


          • #6
            Re: Вoйна и мир

            Более правильным будет наверно собрать все возможные приставки суффиксы и окончания русского языка. Надеюсь это вполне определенный/конечный список. И дальше уже жонглировать с этим списком и словами.

            Comment


            • #7
              Re: Вoйна и мир

              Можно спросить, зачем? Что дает эта статистика? Как говорил О Генри "статистика - самая низкопробная из всех существующих наук."

              Comment


              • #8
                Re: Вoйна и мир

                Originally posted by Bereginya
                Можно спросить, зачем? Что дает эта статистика? Как говорил О Генри "статистика - самая низкопробная из всех существующих наук."
                Ну как - зачем?

                Человек собрал очередное интернет-радио, всё своими руками - от проводка до корпуса из африканского красного дерева, вот, а теперь время свободное появилось.

                Comment


                • #9
                  Re: Вoйна и мир

                  Originally posted by Bereginya
                  Можно спросить, зачем? Что дает эта статистика? Как говорил О Генри "статистика - самая низкопробная из всех существующих наук."
                  мне очень нравились задачки по статистике, но наука зависит от препода

                  Comment


                  • #10
                    Re: Вoйна и мир

                    Originally posted by Bereginya
                    Можно спросить, зачем? Что дает эта статистика? Как говорил О Генри "статистика - самая низкопробная из всех существующих наук."
                    Пуркуа па бы и нет? Просто интересно например сравнить словарь Толстого и Тургенева и Чехова и Булгакова и what not. На самом деле и радио и индексирование текстов это все побочный продукт полученный в процессе изучения чего-то. Радио например появилось в результате изучения нового для меня языка программирования. При изучении различных big data frameworks получилась вот эта задачка по индексированию текстов. Как-то так.

                    Comment


                    • #11
                      Re: Вoйна и мир

                      Да, я всегда в моих текстах the пропускаю

                      Comment


                      • #12
                        Re: Вoйна и мир

                        Originally posted by Riverain
                        Да, я всегда в моих текстах the пропускаю
                        Та же фигня. Когда приходится писАть документацию обычно делаю второй проход только чтобы вставить пропущенные the/a/an

                        Comment


                        • #13
                          Re: Вoйна и мир

                          Originally posted by Bereginya
                          Можно спросить, зачем? Что дает эта статистика? Как говорил О Генри "статистика - самая низкопробная из всех существующих наук."
                          Можете теперь блеснуть своими статистическими познаниями в какой-нибудь компании - теперь вы знаете какие самые употрбляемые слова в романе 'Война и мир' Если учесть объем романа то можно наверно сказать что и всего русского языка. Первая тройка: 'и' 'в' 'не'.

                          Comment


                          • #14
                            Re: Вoйна и мир

                            Originally posted by CTAC KAPATAEB
                            Та же фигня. Когда приходится писАть документацию обычно делаю второй проход только чтобы вставить пропущенные the/a/an
                            А я просто запрягаю всех в лабе, что бы они все это вписали, ибо еще и читать, то что я написала у меня никакого желания не остается

                            Comment


                            • #15
                              Re: Вoйна и мир

                              Originally posted by Riverain
                              А я просто запрягаю всех В лабе, что бы они все это вписали, ибо еще И читать, то что я написала у меня никакого желания НЕ остается
                              Яркое подтверждение статистики

                              Comment

                              Working...
                              X